Training
Contact
News
About Us
Member




Cloudera > Developer

DENG-254: Preparing with Cloudera Data Engineering and Apache Spark

과정명이 변경되었습니다
기존 : DENG-254: Preparing with Cloudera Data Engineering
변경된 과정명 : DENG-254: Preparing with Cloudera Data Engineering and Apache Spark

본 교육은 4일간 진행되는 실습 중심의 과정으로 Cloudera 플랫폼에서 Apache Spark를 활용하여 고성능 병렬 애플리케이션을 개발하기 위한 핵심 개념과 지식을 개발자에게 제공합니다.

수강생들은 실습을 통해 Cloudera의 핵심 컴포넌트와 통합된 Spark 애플리케이션을 직접 작성해보며, 다음과 같은 기술을 익히게 됩니다:

• Spark SQL을 활용한 구조화된 데이터 쿼리
• Hive 기능을 활용한 데이터 수집 및 비정규화
• 분산 파일 시스템에 저장된 빅데이터 처리

이 과정을 수료한 후에는 수강생들이 실제 현업에서 마주하는 다양한 과제를 해결할 수 있는 역량을 갖추게 되며, 다양한 산업 및 아키텍처에 적용 가능한 빠르고 정확한 의사결정 및 인터랙티브 분석 애플리케이션을 구축할 수 있게 됩니다.

2,853,000 원 (VAT별도)

수강대상

프로그래밍 경험이 있는 개발자 및 엔지니어

선수지식

- Scala 또는 Python 프로그래밍 필요 - 리눅스 명령어 기본 - SQL에 대한 기본 지식이 있으면 도움됨

교육목표

• Cloudera 클러스터에서 데이터 분산, 저장 및 처리 방법
• Apache Spark 애플리케이션 작성, 설정 및 배포 방법
• Spark 인터프리터 및 애플리케이션을 활용한 분산 데이터 탐색, 처리 및 분석
• Spark SQL, DataFrame, Hive 테이블을 활용한 데이터 쿼리 방법
• Data Engineering Service에 Spark 애플리케이션 배포 방법

강의내용

1. HDFS 소개
- HDFS 개요
- HDFS 구성 요소 및 상호작용
- 추가적인 HDFS 상호작용
- Ozone 개요
- 실습: HDFS 다루기

2. YARN 소개
- YARN 개요
- YARN 구성 요소 및 상호작용
- YARN 활용
- 실습: YARN 다루기

3. RDD 다루기
- RDD(Resilient Distributed Datasets) 개념
- 실습: RDD 다루기

4. DataFrame 다루기
- DataFrame 소개
- 실습: DataFrame 소개
- 실습: DataFrame 읽기 및 쓰기
- 실습: 컬럼 다루기
- 실습: 복잡한 타입 처리
- 실습: DataFrame 병합 및 분할
- 실습: 요약 및 그룹화
- 실습: 사용자 정의 함수(UDF) 활용
- 실습: 윈도우 함수 활용

5. Apache Hive 소개 및 활용
- Hive 개요
- Hive QL을 통한 데이터 변환
- 실습: 파티션 다루기
- 실습: 버킷 다루기
- 실습: 데이터 스큐 처리
- 실습: SerDe를 활용한 텍스트 데이터 수집
- 실습: 복잡한 타입을 활용한 데이터 비정규화

6. Hive와 Spark 통합
- Hive와 Spark 통합 개요
- 실습: Spark와 Hive 통합

7. 분산 처리의 과제
- 셔플(Shuffle)
- 데이터 스큐(Skew)
- 정렬(Order)

8. Spark 분산 처리
- Spark 분산 처리 개요
- 실습: 쿼리 실행 순서 탐색

9. Spark 분산 저장소
- DataFrame 및 Dataset의 영속성
- 저장소 레벨
- 영속화된 RDD 보기
- 실습: DataFrame 영속화

10. 데이터 엔지니어링 서비스
- Ad-hoc Spark Job 생성 및 실행
- Airflow를 활용한 Job 오케스트레이션
- Atlas를 통한 자동 라인리지
- 데이터 엔지니어링 서비스의 자동 확장(Auto-scaling)