DANA-262: Analyzing with Cloudera Data Warehouse (자격증 바우처 포함)

*본 과정은 Cloudera 자격증 바우처 포함 과정입니다! 수강 완료 시, 정가 $330의 시험 바우처를 50% 할인된 가격으로 제공해 드립니다.

데이터 분석가 교육 과정은 기존 데이터 분석 및 비즈니스 인텔리전스 기술을 빅 데이터에 적용하는 방법을 알려줍니다. 이 과정에서는 데이터 전문가가 SQL 및 익숙한 스크립팅 언어를 사용하여 복잡한 데이터 세트에 액세스, 조작, 변환 및 분석을 하는 데 필요한 도구들을 제공합니다.

교육목표

- 빅 데이터 도구들의 오픈소스 에코 시스템이 기존 RDBMS로 해결되지 않은 문제를 해결하는 방법
- Apache Hive 및 Apache Impala를 사용하여 데이터에 대한 SQL 액세스 제공
- 함수 및 하위 쿼리를 포함한 Hive 및 Impala 구문 및 데이터 형식
- 테이블, 뷰 및 데이터베이스를 생성, 수정 및 삭제; 데이터로드; 쿼리 결과 저장
- 파티션 및 다양한 파일 형식 생성 및 사용
- 필요에 따라 JOIN 또는 UNION을 사용하여 둘 이상의 데이터 세트 결합
- analytic 및 windowing 기능의 정의 및 사용 방법
- 복잡하거나 중첩된 데이터 구조 저장 및 쿼리
- 반 정형 및 비정형 데이터 처리 및 분석
- Hive 및 Impala 쿼리를 최적화하기위한 기술
- 매개 변수, 사용자정의 파일 형식 및 SerDes, 외부 스크립트를 사용하여 Hive 및 Impala의 기능 확장
- 주어진 작업에 대해서 Hive, Impala, RDBMS 또는 이들이 혼합 중에서 가장 적합한 것을 결정하는 방법

강의내용

1. 빅데이터 분석 기초
- 빅데이터 분석의 개요
- 데이터 저장: HDFS
- 분산 데이터 처리: YARN, MapReduce, Spark
- 데이터 처리 및 분석: Hive와 Impala
- 데이터베이스 통합: Sqoop
- 기타 데이터 도구
- 실습 시나리오 설명

2. Apache Hadoop 기초
- Hadoop에 대한 동기
- Hadoop 개요
- 데이터 스토리지 : HDFS
- 분산 데이터 처리 : YARN, MapReduce 및 Spark
- 데이터 처리 및 분석 : Pig, Hive 및 Impala
- 데이터베이스 통합 : Sqoop
- 기타 Hadoop 데이터 도구
- 실습 시나리오 설명

3.Apache Hive 및 Impala 소개
- Hive란?
- Impala란?
- Hive와 Impala를 사용하는 이유
- 스키마 및 데이터 스토리지
- Hive 및 Impala와 기존 데이터베이스 비교
- 사용 사례

4.Apache Hive 및 Impala를 사용한 쿼리
- 데이터베이스 및 테이블
- 기본 Hive 및 Impala 쿼리 언어 구문
- 데이터 유형
- Hue를 사용하여 쿼리 실행
- Beeline (Hive의 셸) 사용
- mpala Shell 사용

5.공통 연산자 및 내장 함수
- 연산자
- 스칼라 함수
- 집계 함수

6.데이터 관리
- 데이터 스토리지
- 데이터베이스 및 테이블 생성
- 데이터 로딩
- 데이터베이스 및 테이블 변경
- View를 사용하여 쿼리 단순화
- 쿼리 결과 저장

7.데이터 스토리지 및 성능
- 테이블 분할
- 분할된 테이블에 데이터 로딩
- 파티셔닝을 사용하는 경우
- 파일 형식 선택
- Avro 및 Parquet 파일 형식 사용

8.다중 Datasets 작업
- UNION 및 Join
- Join에서 NULL 값 처리
- 고급 Joins

9.분석 함수 및 Windowing
- 일반적인 분석 함수 사용
- 기타 분석 기능
- 슬라이딩 윈도우

10.복잡한 데이터
- 복잡한 데이터 Hive 사용
- 복잡한 데이터 Impala 사용

11.텍스트 분석
- Hive 및 Impala에서 정규식 사용
- Hive에서 SerDes로 텍스트 데이터 처리
- Sentiment 분석 및 n-grams

12.Apache Hive 최적화
- 쿼리 성능 이해
- Bucketing
- Hive on Spark

13.Apache Impala 최적화
- Impala가 쿼리를 실행하는 방법
- Impala 성능 향상

14.Apache Hive 및 Impala 확장
- Hive의 사용자 지정 SerDes 및 파일 형식
- Hive에서 사용자 지정 스크립트를 사용한 데이터 변환
- 사용자 정의 함수
- 매개 변수화 된 쿼리

15.작업에 가장 적합한 도구 선택
- Hive, Impala 및 관계형 데이터베이스 비교
- 무엇을 선택해야 할까?

16. CDP 퍼블릭 클라우드 데이터 웨어하우스
- 데이터 웨어하우스 개요
- 자동 확장(Auto-Scaling)
- 가상 웨어하우스 관리
- CLI 및 타사 통합을 통한 데이터 쿼리

부록: Apache Kudu
- Kudu란?
- Kudu 테이블
- Impala와 함께 Kudu 사용

자주 묻는 질문

DANA-262: Analyzing with Cloudera Data Warehouse (자격증 바우처 포함) 과정은 어떤 내용을 다루나요?

*본 과정은 Cloudera 자격증 바우처 포함 과정입니다! 수강 완료 시, 정가 $330의 시험 바우처를 50% 할인된 가격으로 제공해 드립니다. 데이터 분석가 교육 과정은 기존 데이터 분석 및 비즈니스 인텔리전스 기술을 빅 데이터에 적용하는 방법을 알려줍니다. 이 과정에서는 데이터 전문가가 SQL 및 익숙한 스크립팅 언어를 사용하여 복잡한 데이터 세트에 액세스, 조작, 변환 및 분석을 하는 데 필요한 도구들을 제공합니다.

DANA-262: Analyzing with Cloudera Data Warehouse (자격증 바우처 포함) 교육 대상은 누구인가요?

데이터 분석가, 비즈니스 인텔리전스 전문가, 개발자, 시스템 설계자, 데이터베이스 관리자

DANA-262: Analyzing with Cloudera Data Warehouse (자격증 바우처 포함) 과정을 통해 무엇을 배울 수 있나요?

- 빅 데이터 도구들의 오픈소스 에코 시스템이 기존 RDBMS로 해결되지 않은 문제를 해결하는 방법 - Apache Hive 및 Apache Impala를 사용하여 데이터에 대한 SQL 액세스 제공 - 함수 및 하위 쿼리를 포함한 Hive 및 Impala 구문 및 데이터 형식 - 테이블, 뷰 및 데이터베이스를 생성, 수정 및 삭제; 데이터로드; 쿼리 결과 저장 - 파티션 및 다양한 파일 형식 생성 및 사용 - 필요에 따라 JOIN 또는 UNION을 사용하여 둘 이상의 데이터 세트 결합 - analytic 및 windowing 기능의 정의 및 사용 방법 - 복잡하거나 중첩된 데이터 구조 저장 및 쿼리 - 반 정형 및 비정형 데이터 처리 및 분석 - Hive 및 Impala 쿼리를 최적화하기위한 기술 - 매개 변수, 사용자정의 파일 형식 및 SerDes, 외부 스크립트를 사용하여 Hive 및 Impala의 기능 확장 - 주어진 작업에 대해서 Hive, Impala, RDBMS 또는 이들이 혼합 중에서 가장 적합한 것을 결정하는 방법

DANA-262: Analyzing with Cloudera Data Warehouse (자격증 바우처 포함) 교육 기간은 얼마나 되나요?

4일 과정입니다. 상세 일정은 교육 페이지에서 확인하실 수 있습니다.

DANA-262: Analyzing with Cloudera Data Warehouse (자격증 바우처 포함) 수강료는 얼마인가요?

수강료는 3,083,000원(VAT 별도)입니다. 고용보험 환급 및 기업 할인 혜택이 적용될 수 있으니 자세한 내용은 트레이노케이트로 문의해 주세요.

트레이노케이트는 Cloudera 공인 교육 기관인가요?

트레이노케이트(Trainocate Korea)는 Authorized Cloudera Training Partner(ACTP)로서, Cloudera 공인 커리큘럼 기반의 빅데이터·데이터 플랫폼 전문 교육을 제공합니다.