- 데이터 파이프라인 이해
- 데이터 파이프라인 각 단계 프로세스와 패키지 이해
- 빅데이터 수집 (로그 기반, 관계형 데이터 기반, 인터넷 데이터 기반)
- 데이터 수집 도구 Sqoop 개념 및 아키텍처
- 데이터 수집 툴 Flume/Kafka/Apache Nifi 활용
Module 2. 데이터 저장 및 전처리 (NoSQL, HBase)
- 비정형 데이터베이스 분산 저장 시스템의 개념 및 특징(NoSQL)
- Hbase, Cassandra, MongoDB 개념 및 특징
- NoSQL의 데이터 모델링 패턴 및 데이터 모델링 절차
Module 3. 실시간/배치 데이터 처리 (Spark, Pig, Hive, Impala 등)
- Pig, Hive를 이용한 분산 데이터 처리 기술
- SQL질의 Impala를 이용한 실시간 대용량 처리
- 실시간으로 스트림 데이터를 빠르게 처리하는 Spark Streaming
- Spark기반으로 SQL을 사용하기 위한 개념
- Spark ML의 특징 및 모델 구축

