2.Apache Hadoop 및 Hadoop 에코 시스템 소개
-Apache Hadoop 개요
-데이터 처리
-실습 소개
3.Apache Hadoop 파일 스토리지
-Apache Hadoop 클러스터 구성 요소
-HDFS 아키텍처
-HDFS 사용
4.Apache Hadoop 클러스터의 분산 처리
-YARN 아키텍처
-YARN 작업
5.Apache Spark 기초
-Apache Spark란?
-Spark Shell 시작
-Spark Shell 사용
-데이터 세트 및 데이터 프레임 시작하기
-DataFrame 오퍼레이션
6.DataFrame 및 스키마 작업
-데이터 소스에서 DataFrame 생성
-데이터 소스에 데이터 프레임 저장
-DataFrame 스키마
-Eager 및 Lazy 실행
7.DataFrame 쿼리로 데이터 분석
-Column Expressions을 사용하여 DataFrame 쿼리
-Grouping 및 Aggregation 쿼리
-Joining DataFrames
8.RDD 개요
-RDD 개요
-RDD 데이터 소스
-RDD 생성 및 저장
-RDD 오퍼레이션
9.RDD로 데이터 변환
-변환 함수 작성 및 전달
-변환 실행
-RDD와 DataFrames간 변환
10.쌍 RDD로 데이터 집계
-키-값 쌍 RDD
-Map-Reduce
- 기타 쌍 RDD 오퍼레이션
11.SQL을 사용하여 테이블 및 뷰 쿼리
-SQL을 사용하여 Spark에서 테이블 쿼리
-파일 및 뷰 쿼리
-카탈로그 API
12.Scala에서 Datasets 작업
-Datasets 및 DataFrames
-Datasets 생성
-Datasets 로드 및 저장
-Datasets 오퍼레이션
13.Spark 애플리케이션 작성, 구성 및 실행
-Spark 애플리케이션 작성
-응용 프로그램 빌드 및 실행
-응용 프로그램 배포 모드
-Spark 애플리케이션 웹 UI
-응용 프로그램 속성 구성
14.Spark 분산 처리
-검토 : 클러스터의 Apache Spark
-RDD 파티션
-예 : 쿼리 분할
- Stages 및 Tasks
-작업 실행 계획
-예 : Catalyst 실행 계획
-예 : RDD 실행 계획
15.분산 데이터 지속성
-DataFrame 및 Datasets 지속성
-영구 스토리지 레벨
-Persisted RDD 보기
16.Spark 데이터 처리의 일반적인 패턴
-일반적인 Apache Spark 사용 사례
-Apache Spark의 반복 알고리즘
-기계 학습
-예 : k-means
17.구조적 스트리밍 소개
-Apache Spark 스트리밍 개요
-스트리밍 DataFrames 생성
-DataFrames 변환
-스트리밍 쿼리 실행
18.Apache Kafka를 사용한 구조적 스트리밍
-개요
-Kafka 메시지 수신
-Kafka 메시지 보내기
19.스트리밍 DataFrmes 집계 및 결합
-스트리밍 집계
-스트리밍 DataFrmes 결합
20.결론
21.Apache Kafka를 사용한 메시지 처리
-Apache Kafka란?
-Apache Kafka 개요
-Apache Kafka 확장
-Apache Kafka 클러스터 아키텍처
-Apache Kafka 명령줄 도구

