- 빅데이터 분석의 개요
- 데이터 저장: HDFS
- 분산 데이터 처리: YARN, MapReduce, Spark
- 데이터 처리 및 분석: Hive와 Impala
- 데이터베이스 통합: Sqoop
- 기타 데이터 도구
- 실습 시나리오 설명
2. Apache Hadoop 기초
- Hadoop에 대한 동기
- Hadoop 개요
- 데이터 스토리지 : HDFS
- 분산 데이터 처리 : YARN, MapReduce 및 Spark
- 데이터 처리 및 분석 : Pig, Hive 및 Impala
- 데이터베이스 통합 : Sqoop
- 기타 Hadoop 데이터 도구
- 실습 시나리오 설명
3.Apache Hive 및 Impala 소개
- Hive란?
- Impala란?
- Hive와 Impala를 사용하는 이유
- 스키마 및 데이터 스토리지
- Hive 및 Impala와 기존 데이터베이스 비교
- 사용 사례
4.Apache Hive 및 Impala를 사용한 쿼리
- 데이터베이스 및 테이블
- 기본 Hive 및 Impala 쿼리 언어 구문
- 데이터 유형
- Hue를 사용하여 쿼리 실행
- Beeline (Hive의 셸) 사용
- mpala Shell 사용
5.공통 연산자 및 내장 함수
- 연산자
- 스칼라 함수
- 집계 함수
6.데이터 관리
- 데이터 스토리지
- 데이터베이스 및 테이블 생성
- 데이터 로딩
- 데이터베이스 및 테이블 변경
- View를 사용하여 쿼리 단순화
- 쿼리 결과 저장
7.데이터 스토리지 및 성능
- 테이블 분할
- 분할된 테이블에 데이터 로딩
- 파티셔닝을 사용하는 경우
- 파일 형식 선택
- Avro 및 Parquet 파일 형식 사용
8.다중 Datasets 작업
- UNION 및 Join
- Join에서 NULL 값 처리
- 고급 Joins
9.분석 함수 및 Windowing
- 일반적인 분석 함수 사용
- 기타 분석 기능
- 슬라이딩 윈도우
10.복잡한 데이터
- 복잡한 데이터 Hive 사용
- 복잡한 데이터 Impala 사용
11.텍스트 분석
- Hive 및 Impala에서 정규식 사용
- Hive에서 SerDes로 텍스트 데이터 처리
- Sentiment 분석 및 n-grams
12.Apache Hive 최적화
- 쿼리 성능 이해
- Bucketing
- Hive on Spark
13.Apache Impala 최적화
- Impala가 쿼리를 실행하는 방법
- Impala 성능 향상
14.Apache Hive 및 Impala 확장
- Hive의 사용자 지정 SerDes 및 파일 형식
- Hive에서 사용자 지정 스크립트를 사용한 데이터 변환
- 사용자 정의 함수
- 매개 변수화 된 쿼리
15.작업에 가장 적합한 도구 선택
- Hive, Impala 및 관계형 데이터베이스 비교
- 무엇을 선택해야 할까?
16. CDP 퍼블릭 클라우드 데이터 웨어하우스
- 데이터 웨어하우스 개요
- 자동 확장(Auto-Scaling)
- 가상 웨어하우스 관리
- CLI 및 타사 통합을 통한 데이터 쿼리
부록: Apache Kudu
- Kudu란?
- Kudu 테이블
- Impala와 함께 Kudu 사용