- RDDs
- DataFrames 및 Datasets
- 지연 실행 (Lazy Evaluation)
- 파이프라이닝 (Pipelining)
- 데이터 소스 및 포맷
사용 가능한 포맷 개요
- 성능에 미치는 영향
- 작은 파일 문제
- 스키마 추론
추론의 비용
- 완화 전략
- 데이터 스큐 처리
스큐 인식
- 완화 전략
- Catalyst 및 Tungsten 개요
Catalyst 개요
- Tungsten 개요
- Spark 셔플 완화
디노멀라이제이션
- 브로드캐스트 조인
- 맵 사이드 연산
- 소트 머지 조인
- 파티셔닝 및 버킷 테이블
파티셔닝된 테이블
- 버킷 테이블
- 성능에 미치는 영향
- 조인 성능 향상
스큐 조인
- 버킷 조인
- 증분 조인
- PySpark 오버헤드 및 UDF
PySpark 오버헤드
- 스칼라 UDF
- Apache Arrow 기반 벡터 UDF
- Scala UDF
- 데이터 재사용을 위한 캐싱
캐싱 옵션
- 성능에 미치는 영향
- 캐싱 시 주의사항
- Spark 3 기능
셔플 파티션 수 자동 조정
- 스큐 조인
- 소트 머지 조인을 브로드캐스트 조인으로 변환
- 동적 파티션 프루닝
- 동적 셔플 파티션 병합
부록
- 파티션 처리
- 브로드캐스팅
- 스케줄링