- HDFS 개요
- HDFS 구성 요소 및 상호작용
- 추가적인 HDFS 상호작용
- Ozone 개요
- 실습: HDFS 다루기
2. YARN 소개
- YARN 개요
- YARN 구성 요소 및 상호작용
- YARN 활용
- 실습: YARN 다루기
3. RDD 다루기
- RDD(Resilient Distributed Datasets) 개념
- 실습: RDD 다루기
4. DataFrame 다루기
- DataFrame 소개
- 실습: DataFrame 소개
- 실습: DataFrame 읽기 및 쓰기
- 실습: 컬럼 다루기
- 실습: 복잡한 타입 처리
- 실습: DataFrame 병합 및 분할
- 실습: 요약 및 그룹화
- 실습: 사용자 정의 함수(UDF) 활용
- 실습: 윈도우 함수 활용
5. Apache Hive 소개 및 활용
- Hive 개요
- Hive QL을 통한 데이터 변환
- 실습: 파티션 다루기
- 실습: 버킷 다루기
- 실습: 데이터 스큐 처리
- 실습: SerDe를 활용한 텍스트 데이터 수집
- 실습: 복잡한 타입을 활용한 데이터 비정규화
6. Hive와 Spark 통합
- Hive와 Spark 통합 개요
- 실습: Spark와 Hive 통합
7. 분산 처리의 과제
- 셔플(Shuffle)
- 데이터 스큐(Skew)
- 정렬(Order)
8. Spark 분산 처리
- Spark 분산 처리 개요
- 실습: 쿼리 실행 순서 탐색
9. Spark 분산 저장소
- DataFrame 및 Dataset의 영속성
- 저장소 레벨
- 영속화된 RDD 보기
- 실습: DataFrame 영속화
10. 데이터 엔지니어링 서비스
- Ad-hoc Spark Job 생성 및 실행
- Airflow를 활용한 Job 오케스트레이션
- Atlas를 통한 자동 라인리지
- 데이터 엔지니어링 서비스의 자동 확장(Auto-scaling)