- Cloudera Data Platform 아키텍처
Cloudera Manager 아키텍처
- Cloudera Manager 아키텍처
Cloudera Manager 설치
- Cloudera Manager 설치
- 에어갭 저장소 접근
- 저장소 및 RDBMS 구성
- Cloudera Manager 설치
핵심 서비스 설치
- 핵심 서비스 설치
- 에이전트 및 파셀 설치
- CDP 핵심 서비스 설치
Cloudera Manager 탐색
- Cloudera Manager 탐색
- Cloudera Manager 탐색하기
- 내부 관리자 계정 생성
사용자 및 그룹 구성
- 사용자 및 그룹 구성
- Cloudera Manager용 PAM LDAP 구성
- Cloudera Manager 관리자 구성
- Cloudera Manager 역할 구성
- 게이트웨이 호스트 템플릿 생성
- 슈퍼유저 접근 권한 관리
가용성 구성
- 가용성 구성
- 네임노드 고가용성 설치
- 리소스매니저 고가용성 설치
- 하이브서버2 이중화 구성
백업 실행
- 백업 실행
- 플랫폼 백업
- 플랫폼 수동 백업
파셀 설치
- 파셀 설치
- 파셀 설치하기
Cloudera Manager 관리
- Cloudera Manager 관리
- Cloudera Manager 재시작
- 슈퍼바이저 작업
- 클러스터 서비스 자동 재시작 구성
변경 사항 관리
- 변경 사항 관리
- 속성 검색
- HDFS 튜닝을 위한 변경
- YARN 튜닝을 위한 변경
HDFS 이론
- HDFS 이론
- HDFS CLI 실행
- HDFS 점검
YARN 이론
- YARN 이론
- YARN 점검
Apache Hive 및 Impala 소개
- Hive란
- Impala란
- Hive와 Impala를 사용하는 이유
- 스키마 및 데이터 저장
- Hive와 Impala와 전통적인 데이터베이스 비교
- 활용 사례
Apache Hive 및 Impala로 쿼리 실행
- 데이터베이스 및 테이블
- 기본 Hive 및 Impala 쿼리 언어 문법
- 데이터 타입
- Hue를 사용한 쿼리 실행
- Beeline 사용 Hive 셸
- Impala 셸 사용
데이터 관리
- 데이터 저장
- 데이터베이스 및 테이블 생성
- 데이터 로딩
- 데이터베이스 및 테이블 수정
- 뷰를 활용한 쿼리 단순화
- 쿼리 결과 저장
데이터 저장 및 성능
- 테이블 파티셔닝
- 파티셔닝된 테이블에 데이터 로딩
- 파티셔닝 사용 시점
- 파일 포맷 선택
- Avro 및 Parquet 파일 포맷 사용
다중 데이터셋 활용
- UNION 및 조인
- 조인 시 NULL 값 처리
- 고급 조인
분석 함수 및 윈도잉
- 분석 함수 사용
- 기타 분석 함수
- 슬라이딩 윈도우
복합 데이터
- Hive에서 복합 데이터 사용
- Impala에서 복합 데이터 사용
텍스트 분석
- Hive 및 Impala에서 정규 표현식 사용
- Hive에서 SerDes를 활용한 텍스트 데이터 처리
- Hive에서 감성 분석 및 n그램 처리