Training
Contact
News
About Us
Member




Cloudera > Developer

DENG-254: Preparing with Cloudera Data Engineering and Apache Spark

과정명이 변경되었습니다
기존 : DENG-254: Preparing with Cloudera Data Engineering
변경된 과정명 : DENG-254: Preparing with Cloudera Data Engineering and Apache Spark

이 4일간의 실습 중심 교육 과정은 Cloudera 플랫폼에서 고성능 병렬 애플리케이션을 개발하기 위한 Apache Spark의 핵심 개념과 지식을 개발자에게 제공합니다.
참가자는 다양한 실습을 통해 Cloudera의 핵심 구성 요소와 통합된 Spark 애플리케이션을 직접 작성해보며 학습합니다.
이 과정에서는 Spark SQL을 활용한 구조화된 데이터 질의, Hive 기능을 통한 데이터 수집 및 비정규화, 그리고 분산 파일 시스템에 저장된 빅데이터 처리 방법을 배웁니다.
과정을 수료한 후에는 실제 업무 환경에서 마주할 수 있는 다양한 과제를 해결할 수 있는 역량을 갖추게 되며,
빠르고 정확한 의사결정, 상호작용 기반 분석을 위한 애플리케이션을 다양한 산업과 아키텍처에 적용할 수 있습니다.

2,853,000 원 (VAT별도)

수강대상

프로그래밍 경험이 있는 개발자 및 엔지니어

선수지식

- Scala 또는 Python 프로그래밍 필요 - 리눅스 명령어 기본 - SQL에 대한 기본 지식이 있으면 도움됨

교육목표

• CDP 클러스터에서 데이터 배포, 저장 및 처리 방법
• Apache Spark 애플리케이션 작성, 구성 및 배포 방법
• Spark 인터프리터 및 Spark 애플리케이션을 사용하여 분산 데이터 탐색, 처리 및 분석방법
• Spark SQL, DataFrames 및 Hive 테이블을 사용하여 데이터 쿼리방법
• Spark Streaming을 Kafka와 함께 사용하여 데이터 스트림 처리방법

강의내용

1.Zeppelin 소개
- Why Notebooks?
- Zeppelin 노트
- Apache Spark In 5 Minutes

2.HDFS 소개
- HDFS 개요
- HDFS 구성 요소 및 상호 작용
- 추가 HDFS 상호 작용
- Ozone 개요
- 연습: HDFS 작업

3.YARN 소개
- YARN 개요
- YARN 구성 요소 및 상호 작용
- YARN 작업
- 연습: YARN 작업

4.분산 처리 이력
- The Disk Years: 2000년 -> 2010년
- The Memory Years: 2010 ->2020
- GPU Years: 2020 ->

5.RDD 작업
- 탄력적인 분산 데이터 세트(RDD)
- 연습: RDD 작업

6.DataFrame 작업
- DataFrame 소개
- 연습: DataFrame 소개
- 연습: DataFrame 읽기 및 쓰기
- 연습: 열 작업
- 연습: 복합 유형 작업
- 연습: DataFrames 결합 및 분할
- 연습: DataFrame 요약 및 그룹화
- 연습: UDF 작업
- 연습: Windows 작업

7.Apache Hive 소개
- Hive 정보

8.Hive 및 Spark 통합
- Hive 및 Spark 통합
- 연습: Hive와 Spark 통합

9.Zeppelin을 사용한 데이터 시각화
- Zeppelin을 사용한 데이터 시각화 소개
- 제플린 분석
- 제플린 콜라보레이션
- 연습: AdventureWorks

10.분산 처리 문제
- Shuffle
- Skew
- Order

11.Spark 분산 처리
- Spark 분산 처리
- 연습: 쿼리 실행 순서 탐색

12.Spark 분산 지속성
- DataFrame 및 데이터 세트 지속성
- 지속성 스토리지 수준
- 지속형 RDD 보기
- 연습: DataFrame 유지

13. Spark 애플리케이션 작성, 구성 및 실행
- spark 애플리케이션 작성
- 애플리케이션 빌드 및 실행
- 애플리케이션 배포 모드
- Spark 애플리케이션 웹 UI
- 애플리케이션 속성 구성
- 연습: Spark 작성, 구성 및 실행 애플리케이션

14.스트리밍 소개
- 구조적 스트리밍 소개
- 연습: 스트리밍 데이터 처리

15.Apache Kafka를 사용한 메시지 처리
- Apache Kafka란 무엇입니까?
- Apache Kafka 개요
- Apache Kafka 확장
- Apache Kafka 클러스터 아키텍처
- Apache Kafka 명령줄 도구

16.Apache Kafka를 사용한 구조적 스트리밍
- Kafka 메시지 수신
- Kafka 메시지 보내기
- 연습: Kafka 스트리밍 메시지 작업

17.스트리밍 데이터 프레임 집계 및 결합
- 스트리밍 집계
- 스트리밍 데이터 프레임 조인
- 연습: 스트리밍 집계 및 결합 데이터 프레임

18.부록: Scala에서 데이터 세트 작업
- Scala에서 데이터 세트 작업
- 연습: Scala에서 데이터 세트 사용