- Why Notebooks?
- Zeppelin 노트
- Apache Spark In 5 Minutes
2.HDFS 소개
- HDFS 개요
- HDFS 구성 요소 및 상호 작용
- 추가 HDFS 상호 작용
- Ozone 개요
- 연습: HDFS 작업
3.YARN 소개
- YARN 개요
- YARN 구성 요소 및 상호 작용
- YARN 작업
- 연습: YARN 작업
4.분산 처리 이력
- The Disk Years: 2000년 -> 2010년
- The Memory Years: 2010 ->2020
- GPU Years: 2020 ->
5.RDD 작업
- 탄력적인 분산 데이터 세트(RDD)
- 연습: RDD 작업
6.DataFrame 작업
- DataFrame 소개
- 연습: DataFrame 소개
- 연습: DataFrame 읽기 및 쓰기
- 연습: 열 작업
- 연습: 복합 유형 작업
- 연습: DataFrames 결합 및 분할
- 연습: DataFrame 요약 및 그룹화
- 연습: UDF 작업
- 연습: Windows 작업
7.Apache Hive 소개
- Hive 정보
8.Hive 및 Spark 통합
- Hive 및 Spark 통합
- 연습: Hive와 Spark 통합
9.Zeppelin을 사용한 데이터 시각화
- Zeppelin을 사용한 데이터 시각화 소개
- 제플린 분석
- 제플린 콜라보레이션
- 연습: AdventureWorks
10.분산 처리 문제
- Shuffle
- Skew
- Order
11.Spark 분산 처리
- Spark 분산 처리
- 연습: 쿼리 실행 순서 탐색
12.Spark 분산 지속성
- DataFrame 및 데이터 세트 지속성
- 지속성 스토리지 수준
- 지속형 RDD 보기
- 연습: DataFrame 유지
13. Spark 애플리케이션 작성, 구성 및 실행
- spark 애플리케이션 작성
- 애플리케이션 빌드 및 실행
- 애플리케이션 배포 모드
- Spark 애플리케이션 웹 UI
- 애플리케이션 속성 구성
- 연습: Spark 작성, 구성 및 실행 애플리케이션
14.스트리밍 소개
- 구조적 스트리밍 소개
- 연습: 스트리밍 데이터 처리
15.Apache Kafka를 사용한 메시지 처리
- Apache Kafka란 무엇입니까?
- Apache Kafka 개요
- Apache Kafka 확장
- Apache Kafka 클러스터 아키텍처
- Apache Kafka 명령줄 도구
16.Apache Kafka를 사용한 구조적 스트리밍
- Kafka 메시지 수신
- Kafka 메시지 보내기
- 연습: Kafka 스트리밍 메시지 작업
17.스트리밍 데이터 프레임 집계 및 결합
- 스트리밍 집계
- 스트리밍 데이터 프레임 조인
- 연습: 스트리밍 집계 및 결합 데이터 프레임
18.부록: Scala에서 데이터 세트 작업
- Scala에서 데이터 세트 작업
- 연습: Scala에서 데이터 세트 사용