Training
Contact
News
About Us
Member




Cloudera > Data-Analysts & Scientists

DANA-262: Analyzing with Cloudera Data Warehouse (자격증 바우처 포함)

*본 과정은 Cloudera 자격증 바우처 포함 과정입니다! 수강 완료 시, 정가 $330의 시험 바우처를 50% 할인된 가격으로 제공해 드립니다.

데이터 분석가 교육 과정은 기존 데이터 분석 및 비즈니스 인텔리전스 기술을 빅 데이터에 적용하는 방법을 알려줍니다. 이 과정에서는 데이터 전문가가 SQL 및 익숙한 스크립팅 언어를 사용하여 복잡한 데이터 세트에 액세스, 조작, 변환 및 분석을 하는 데 필요한 도구들을 제공합니다.

3,083,000 원 (VAT별도)

수강대상

데이터 분석가, 비즈니스 인텔리전스 전문가, 개발자, 시스템 설계자, 데이터베이스 관리자

선수지식

- SQL에 대한 기본 지식 - Linux 기본 명령

교육목표

- 빅 데이터 도구들의 오픈소스 에코 시스템이 기존 RDBMS로 해결되지 않은 문제를 해결하는 방법
- Apache Hive 및 Apache Impala를 사용하여 데이터에 대한 SQL 액세스 제공
- 함수 및 하위 쿼리를 포함한 Hive 및 Impala 구문 및 데이터 형식
- 테이블, 뷰 및 데이터베이스를 생성, 수정 및 삭제; 데이터로드; 쿼리 결과 저장
- 파티션 및 다양한 파일 형식 생성 및 사용
- 필요에 따라 JOIN 또는 UNION을 사용하여 둘 이상의 데이터 세트 결합
- analytic 및 windowing 기능의 정의 및 사용 방법
- 복잡하거나 중첩된 데이터 구조 저장 및 쿼리
- 반 정형 및 비정형 데이터 처리 및 분석
- Hive 및 Impala 쿼리를 최적화하기위한 기술
- 매개 변수, 사용자정의 파일 형식 및 SerDes, 외부 스크립트를 사용하여 Hive 및 Impala의 기능 확장
- 주어진 작업에 대해서 Hive, Impala, RDBMS 또는 이들이 혼합 중에서 가장 적합한 것을 결정하는 방법

강의내용

1. 빅데이터 분석 기초
- 빅데이터 분석의 개요
- 데이터 저장: HDFS
- 분산 데이터 처리: YARN, MapReduce, Spark
- 데이터 처리 및 분석: Hive와 Impala
- 데이터베이스 통합: Sqoop
- 기타 데이터 도구
- 실습 시나리오 설명

2. Apache Hadoop 기초
- Hadoop에 대한 동기
- Hadoop 개요
- 데이터 스토리지 : HDFS
- 분산 데이터 처리 : YARN, MapReduce 및 Spark
- 데이터 처리 및 분석 : Pig, Hive 및 Impala
- 데이터베이스 통합 : Sqoop
- 기타 Hadoop 데이터 도구
- 실습 시나리오 설명

3.Apache Hive 및 Impala 소개
- Hive란?
- Impala란?
- Hive와 Impala를 사용하는 이유
- 스키마 및 데이터 스토리지
- Hive 및 Impala와 기존 데이터베이스 비교
- 사용 사례

4.Apache Hive 및 Impala를 사용한 쿼리
- 데이터베이스 및 테이블
- 기본 Hive 및 Impala 쿼리 언어 구문
- 데이터 유형
- Hue를 사용하여 쿼리 실행
- Beeline (Hive의 셸) 사용
- mpala Shell 사용

5.공통 연산자 및 내장 함수
- 연산자
- 스칼라 함수
- 집계 함수

6.데이터 관리
- 데이터 스토리지
- 데이터베이스 및 테이블 생성
- 데이터 로딩
- 데이터베이스 및 테이블 변경
- View를 사용하여 쿼리 단순화
- 쿼리 결과 저장

7.데이터 스토리지 및 성능
- 테이블 분할
- 분할된 테이블에 데이터 로딩
- 파티셔닝을 사용하는 경우
- 파일 형식 선택
- Avro 및 Parquet 파일 형식 사용

8.다중 Datasets 작업
- UNION 및 Join
- Join에서 NULL 값 처리
- 고급 Joins

9.분석 함수 및 Windowing
- 일반적인 분석 함수 사용
- 기타 분석 기능
- 슬라이딩 윈도우

10.복잡한 데이터
- 복잡한 데이터 Hive 사용
- 복잡한 데이터 Impala 사용

11.텍스트 분석
- Hive 및 Impala에서 정규식 사용
- Hive에서 SerDes로 텍스트 데이터 처리
- Sentiment 분석 및 n-grams

12.Apache Hive 최적화
- 쿼리 성능 이해
- Bucketing
- Hive on Spark

13.Apache Impala 최적화
- Impala가 쿼리를 실행하는 방법
- Impala 성능 향상

14.Apache Hive 및 Impala 확장
- Hive의 사용자 지정 SerDes 및 파일 형식
- Hive에서 사용자 지정 스크립트를 사용한 데이터 변환
- 사용자 정의 함수
- 매개 변수화 된 쿼리

15.작업에 가장 적합한 도구 선택
- Hive, Impala 및 관계형 데이터베이스 비교
- 무엇을 선택해야 할까?

16. CDP 퍼블릭 클라우드 데이터 웨어하우스
- 데이터 웨어하우스 개요
- 자동 확장(Auto-Scaling)
- 가상 웨어하우스 관리
- CLI 및 타사 통합을 통한 데이터 쿼리

부록: Apache Kudu
- Kudu란?
- Kudu 테이블
- Impala와 함께 Kudu 사용