Cloudera > Developer

DENG-251: Building an Open Data Lakehouse Using Apache Iceberg

클라우드 기반 객체 저장소 내의 스트리밍 및 저장된 데이터에 대한 다양한 분석을 가능하게 하는 최신 데이터 아키텍처입니다. 이 아키텍처는 하이브리드 및 멀티 클라우드 환경에 걸쳐 있을 수 있습니다. 이 과정에서는 HDFS의 한계를 해결하는 하이브리드 스토리지 서비스인 Apache Ozone을 소개합니다. 또한 petabyte-scale 규모의 데이터 세트에 최적화된 오픈 테이블 형식인 Apache Iceberg도 학습합니다. Iceberg의 이점, 아키텍처, 읽기/쓰기 작업, 스트리밍 및 시간 이동, 파티션 진화, Data-as-Code와 같은 고급 기능을 다룹니다. 25개 이상의 실습 랩과 캡스톤 프로젝트를 통해 자신의 환경 내에서 효율적이고 성능이 뛰어난 Open Data Lakehouse를 구축하는 기술을 갖추게 됩니다.

2,634,000 원 (면세)

수강대상

- 데이터 엔지니어, Hive/Impala SQL 개발자, Kafka Streaming 엔지니어, 데이터 과학자 및 CDP 관리자

선수지식

- HDFS에 대한 기본적인 이해와 Hive 및 Spark에 대한 경험

강의내용

Day 1
- Iceberg 소개
- DataLake 개념
- Open Lakehouse
- Hive 아키텍처 및 테이블
- Ozone 소개 및 작업
- HDFS와 Ozone 간 데이터 전송
- Ozone 애플리케이션 통합
- Iceberg 아키텍처
- Iceberg Spark, SQL 설정
- Iceberg 카탈로그 검토
- Iceberg 테이블: 관리형 및 외부형
- 테이블 설계 및 연습
- 읽기 및 쓰기를 위한 Iceberg 테이블 튜닝

Day 2
- Schema Evaluation, 마이그레이션 중 Hive와 Iceberg 간의 다양한 데이터 유형 문제 이해
- 숨겨진 파티션: Iceberg 테이블에서 파티션이 작동하는 방식.(Hive와 Iceberg 파티션 비교)
- Time Travel. arious ways of Time Travel and How it helps for testing.
- WAP를 포함한 Data-As-Code - ETL, 분기 및 태그용 -QA 및 ML 테스트를 위한 Zero Copy Clone용
- 유지 관리를 위한 Iceberg 메타데이터.

Day 3
- 변경 데이터 캡처 CDC
- 롤백 데이터
- 마이그레이션 (다양한 Hive to Iceberg 마이그레이션 연습)
- Shallow Migration
- 인플레이스 마이그레이션
- 하이브리드 마이그레이션

Day 4
- 테스트를 위한 스냅샷 마이그레이션
- Late Late-arriving data migration
- RunBook 빌드
- 테이블 유지 관리
- 스트리밍

기타

Skills You Will Gain 오픈 데이터 레이크하우스 기본 - 오픈 데이터 레이크하우스의 핵심 개념과 이점을 이해합니다. - Apache Ozone과 CDP 에코시스템 내 통합에 대한 소개. Apache Ozone 마스터리 - Ozone을 구성하고, CLI 명령을 사용하고, HDFS와 Ozone 간에 데이터를 전송합니다. - Ozone을 애플리케이션에 통합합니다. Apache Iceberg 전문 지식 - Iceberg와 CDP, 아키텍처, 데이터 레이크하우스 설계 원칙의 통합을 살펴봅니다. - 데이터 관리, 거버넌스, 최적화 모범 사례를 마스터합니다. - 스냅샷과 시간 이동 쿼리를 이해합니다. - 전략적으로 테이블을 설계합니다(외부/관리, 쓰기 시 복사, 읽기 시 병합). - 고급 기능 사용: 변경 데이터 캡처(CDC), 스키마/파티션 진화, 숨겨진 파티션. Data-as-Code 및 규정 준수 - QA, ML 모델 및 감사를 위해 제로 복사 복제, 테이블 분기 및 태그 지정을 구현합니다. - Iceberg의 쓰기-감사-게시(WAP)를 통해 ETL/ELT 데이터 로딩을 최적화하고 GDPR 규정을 준수합니다. Hive에서 Iceberg로 마이그레이션 - 카탈로그 차이점과 마이그레이션 전략을 이해합니다. - 늦게 도착한 데이터를 효과적으로 관리합니다. Iceberg 관리 - 테이블 유지 관리 작업을 수행합니다. - 액세스 제어 설정을 구성하고 관리합니다. Capstone 프로젝트 - CDP에서 Open Data Lakehouse 사용 사례를 구현하여 모든 개념을 적용합니다. - 포괄적인 Open Data Lakehouse 구현 런북을 개발합니다.