Cloudera > Developer

DENG-254: Preparing with Cloudera Data Engineering

과정명이 변경되었습니다
기존 : Cloudera Data Engineering: Developing Applications with Apache Spark
변경된 과정명 : DENG-254: Preparing with Cloudera Data Engineering

개발자가 Apache Spark를 사용하여 Cloudera Data Platform에서 고성능 병렬 애플리케이션을 개발하는 데 필요한 핵심 개념과 지식을 제공합니다.
실습을 통해 학생들은 Hive 및 Kafka와 같은 CDP 핵심 구성 요소와 통합되는 Spark 애플리케이션 작성을 연습할 수 있습니다.
참가자들은 Spark SQL을 사용하여 구조화된 데이터를 쿼리하는 방법, Spark Streaming을 사용하여 스트리밍 데이터에 대한 실시간 처리를 수행하는 방법, 분산 파일 시스템에 저장된 빅데이터로 작업하는 방법을 배웁니다.
이 과정을 수료하면, 참가자는 현실 문제에 직면할 준비가 되고, 더 빠르고 더 좋은 결정을 하기 위한 애플리케이션을 구축할 수 있으며, 다양한 사용 사례, 아키텍처 및 산업에 적용되는 대화형 분석을 할 수 있습니다.

2,853,000

수강대상

프로그래밍 경험이 있는 개발자 및 엔지니어

선수지식

- Scala 또는 Python 프로그래밍 필요 - 리눅스 명령어 기본 - SQL에 대한 기본 지식이 있으면 도움됨

교육목표

• CDP 클러스터에서 데이터 배포, 저장 및 처리 방법
• Apache Spark 애플리케이션 작성, 구성 및 배포 방법
• Spark 인터프리터 및 Spark 애플리케이션을 사용하여 분산 데이터 탐색, 처리 및 분석방법
• Spark SQL, DataFrames 및 Hive 테이블을 사용하여 데이터 쿼리방법
• Spark Streaming을 Kafka와 함께 사용하여 데이터 스트림 처리방법

강의내용

1.Zeppelin 소개
- Why Notebooks?
- Zeppelin 노트
- Apache Spark In 5 Minutes

2.HDFS 소개
- HDFS 개요
- HDFS 구성 요소 및 상호 작용
- 추가 HDFS 상호 작용
- Ozone 개요
- 연습: HDFS 작업

3.YARN 소개
- YARN 개요
- YARN 구성 요소 및 상호 작용
- YARN 작업
- 연습: YARN 작업

4.분산 처리 이력
- The Disk Years: 2000년 -> 2010년
- The Memory Years: 2010 ->2020
- GPU Years: 2020 ->

5.RDD 작업
- 탄력적인 분산 데이터 세트(RDD)
- 연습: RDD 작업

6.DataFrame 작업
- DataFrame 소개
- 연습: DataFrame 소개
- 연습: DataFrame 읽기 및 쓰기
- 연습: 열 작업
- 연습: 복합 유형 작업
- 연습: DataFrames 결합 및 분할
- 연습: DataFrame 요약 및 그룹화
- 연습: UDF 작업
- 연습: Windows 작업

7.Apache Hive 소개
- Hive 정보

8.Hive 및 Spark 통합
- Hive 및 Spark 통합
- 연습: Hive와 Spark 통합

9.Zeppelin을 사용한 데이터 시각화
- Zeppelin을 사용한 데이터 시각화 소개
- 제플린 분석
- 제플린 콜라보레이션
- 연습: AdventureWorks

10.분산 처리 문제
- Shuffle
- Skew
- Order

11.Spark 분산 처리
- Spark 분산 처리
- 연습: 쿼리 실행 순서 탐색

12.Spark 분산 지속성
- DataFrame 및 데이터 세트 지속성
- 지속성 스토리지 수준
- 지속형 RDD 보기
- 연습: DataFrame 유지

13. Spark 애플리케이션 작성, 구성 및 실행
- spark 애플리케이션 작성
- 애플리케이션 빌드 및 실행
- 애플리케이션 배포 모드
- Spark 애플리케이션 웹 UI
- 애플리케이션 속성 구성
- 연습: Spark 작성, 구성 및 실행 애플리케이션

14.스트리밍 소개
- 구조적 스트리밍 소개
- 연습: 스트리밍 데이터 처리

15.Apache Kafka를 사용한 메시지 처리
- Apache Kafka란 무엇입니까?
- Apache Kafka 개요
- Apache Kafka 확장
- Apache Kafka 클러스터 아키텍처
- Apache Kafka 명령줄 도구

16.Apache Kafka를 사용한 구조적 스트리밍
- Kafka 메시지 수신
- Kafka 메시지 보내기
- 연습: Kafka 스트리밍 메시지 작업

17.스트리밍 데이터 프레임 집계 및 결합
- 스트리밍 집계
- 스트리밍 데이터 프레임 조인
- 연습: 스트리밍 집계 및 결합 데이터 프레임

18.부록: Scala에서 데이터 세트 작업
- Scala에서 데이터 세트 작업
- 연습: Scala에서 데이터 세트 사용