-데이터 과학자가 하는 일
-데이터 과학자가 사용하는 프로세스
-데이터 과학자가 사용하는 도구
2.Cloudera Data Science Workbench (CDSW)
-Cloudera 데이터 소개
3.Science Workbench
-How Cloudera Data Science
4.Workbench Works
- Cloudera Data Science를 사용하는 방법
5.Workbench
-코드 입력
-Getting Help
-Linux 명령 줄 액세스
-Python 패키지 작업
-세션 출력 포맷
6.사례 연구
-DuoCar
-DuoCar 작동 원리
-DuoCar Datasets
-DuoCar 비즈니스 목표
-DuoCar 데이터 사이언스 플랫폼
-DuoCar Cloudera EDH 클러스터
-HDFS
-Apache Spark
-Apache Hive
-Apache Impala
-Hue
-YARN
-DuoCar 클러스터 아키텍처
7.Apache Spark
-Apache Spark
-Spark 작동 방식
-Spark 스택
-Spark SQL
-DataFrames
-Apache Spark의 파일 형식
-텍스트 파일 형식
-Parquet 파일 형식
8.DataFrame 요약 및 그룹화
-집계로 데이터 요약
-Functions
-데이터 그룹화
-데이터 피벗
9.Window Functions
- Window Functions 소개
- Window Specification 생성
- Window Specification에 대한 집계
10. DataFrame 탐색
-빅 데이터에 대한 가능한 워크 플로
-단일 변수
-Categorical 변수
-Continuous 변수
-한 쌍의 변수
- Categorical-Categorical 쌍
- Categorical- Continuous 쌍
- Continuous-Continuous 쌍
11.Apache Spark Job 실행
-DataFrame 오퍼레이션
-입력 분할
-Narrow 오퍼레이션
-Wide 오퍼레이션
-Stages 및 Tasks
-Shuffle
12.텍스트 처리 및 학습 및 Topic Models 평가
- Topic Models 소개
-시나리오
-추출 및 변형 기능
-텍스트 데이터 파싱
-일반적인 (Stop) 단어 제거
-단어의 빈도 세기
- Topic Model 지정
-LDA (Latent Dirichlet Allocation)를 사용하여 주제 모델 학습
- Topic Model 적합 평가
- Topic Model 검토
- Topic Model 적용
13.추천 모델 학습 및 평가
-추천 모델 소개
-시나리오
-추천 모델을위한 데이터 준비
-추천 모델 지정
-Spark 인터페이스 언어
-PySpark
-PySpark를 사용한 데이터 과학
-sparklyr
-dplyr 및 sparklyr
-PySpark와 sparklyr의 비교
-sparklyr가 dplyr과 작동하는 방법
-sparklyr DataFrame 및 MLlib Functions
-PySpark 및 sparklyr를 사용하는 경우
14.CDSW에서 Spark 애플리케이션 실행
-개요
-Spark 애플리케이션 시작
-Spark SQL 데이터 프레임으로 데이터 읽기
-데이터 프레임의 스키마 조사
-DataFrame의 행 및 열 수 계산
-DataFrame의 행 검사
-Spark 애플리케이션 중지
15.Spark SQL DataFrame 검사
-개요
-DataFrame 검사
-DataFrame 열 검사
-프라이머리 키 변수 검사
-Categorical 변수 검사
-Numerical 변수 검사
-날짜 및 시간 변수 검사
16.DataFrames 변환
-Spark SQL DataFrames
-열 작업
-열 선택
-열 삭제
-열 지정
-열 추가
-열 이름 변경
-열 유형 변경
17.Spark 애플리케이션 모니터링, 튜닝 및 구성
-Spark 애플리케이션 모니터링
-DataFrames 유지
-DataFrames 분할
-Spark 환경 구성
18.머신러닝 개요
-머신러닝
-Underfitting 및 Overfitting
-모델 검증
-하이퍼 파라미터
-Supervised 및 Unsupervised 학습
-머신러닝 알고리즘
-머신러닝 라이브러리
-Apache Spark MLlib
19.회귀 모델 훈련 및 평가
-회귀 모델 소개
-시나리오
-회귀 데이터 준비
-특징 벡터 조립
-훈련 및 테스트 세트 생성
-선형 회귀 모델 지정
-선형 회귀 모델 훈련
-모델 매개 변수 검토
-다양한 모델 성능 측정 검토
-다양한 모델 진단 검토
-테스트 데이터에 선형 회귀 모델 적용
-테스트 데이터에 대한 선형 회귀 모델 평가
-선형 회귀 모델 플로팅
-Alternating Least Squuares 사용하여 추천 모델 훈련
-추천 모델 검토
-추천 모델 적용
-추천 모델 평가
-권장 사항 생성
20.머신러닝 파이프 라인 작업
-파이프 라인 스테이지 지정
-파이프 라인 지정
-파이프 라인 모델 훈련
-파이프 라인 모델 쿼리
-파이프 라인 모델 적용
21.러신러닝 파이프 라인 배포
-Python으로 파이프 라인 및 파이프 라인 모델 저장 및 로딩
-Scala로 파이프 라인 및 파이프 라인 모델 로딩
-행 작업
-행 정렬
-고정된 수의 행 선택
-고유한 행 선택
-행 필터링
-행 샘플링
-Missing Values 작업
22.DataFrame 열 변환
-Spark SQL 데이터 유형
-숫자 열 작업
-문자열 열 작업
-날짜 및 타임 스탬프 열 작업
-Boolean 열 작업
23.복잡한 유형
-복잡한 컬렉션 데이터 유형
-Arrays
-Maps
-Structs
24.사용자 정의 함수
-사용자 정의 함수
-Python 함수 정의
-Python 함수를 사용자 정의 함수로 등록
-사용자 정의 함수 적용
25.데이터 읽기 및 쓰기
-데이터 읽기 및 쓰기
-구분된 텍스트 파일 작업
-텍스트 파일 작업
-Parquet 파일 작업
-Hive 테이블 작업
-Object Stores 작업
-Pandas DataFrames 작업
26.데이터 프레임 결합 및 분할
-DataFrame 결합(Joining)
-교차 조인
-내부 조인
-왼쪽 세미 조인
-왼쪽 안티 조인
-왼쪽 외부 조인
-오른쪽 외부 조인
-전체 외부 조인
-DataFrames에 Set Operations 적용
-DataFrame 분할
27.Classification 모델 훈련 및 평가
-Classification 모델 소개
-시나리오
-모델링 데이터 전처리
-라벨 생성
-기능 추출, 변환 및 선택
-훈련 및 테스트 세트 생성
-로지스틱 회귀 모델 지정
-로지스틱 회귀 모델 훈련
-로지스틱 회귀 모델 조사
-테스트 세트에서 모델 성능 평가
28.Grid Search를 사용한 튜닝 알고리즘 하이퍼파라미터
-하이퍼파라미터 튜닝을 위한 요구 사항
-Estimator 지정
-하이퍼파라미터 그리드 지정
-Evaluator 지정
-Holdout 교차 검증을 사용하여 하이퍼파라미터 튜닝
- K-fold 크로스 검증을 사용하여 하이퍼파라미터 튜닝
29.클러스터링 모델 훈련 및 평가
-클러스터링 소개
-시나리오
-데이터 전처리
-특징 추출, 변형 및 선택
-Gaussian 혼합 모델 지정
-Gaussian 혼합 모델 훈련
-Gaussian 혼합 모델 검사
-클러스터 플로팅
-클러스터 프로필 탐색
-Gaussian 혼합 모델 저장 및 로딩
30.sparklyr 개요
-Spark에 연결
-데이터 읽기
-데이터 검사
-dplyr 동사를 사용하여 데이터 변환
-SQL 쿼리 사용
-Spark DataFrames 함수
-Spark에서 데이터 시각화
-MLlib를 사용한 기계 학습
31.추가적인 CDSW 기능소개
-Collaboration
-Jobs
-Experiments
-Models
-Applications

