Training
Contact
News
About Us
Member




Databricks > Machine Learning

머신러닝을 위한 데이터 준비

이 과정은 Databricks를 활용한 머신러닝 데이터 준비의 기초에 중점을 둡니다. 참가자들은 전통적인 머신러닝 응용에 적합하도록 데이터를 탐색, 정제, 구성하는 데 필요한 핵심 기술을 배우게 됩니다. 주요 학습 내용에는 데이터 시각화, 피처 엔지니어링 (Feature Engineering), 최적의 피처 저장 전략이 (Feature Storage Strategies) 포함됩니다. 실습 중심의 학습을 통해 참가자들은 Databricks 환경에서 머신러닝을 위한 데이터셋을 효율적으로 준비하는 실무 경험을 쌓게 됩니다.

1,450,000

수강대상

이 과정은 초급(Associate-level) 수준의 데이터 사이언티스트 및 머신러닝 실무자, 그리고 머신러닝 모델의 성공적인 배포를 위해 데이터 준비 역량을 강화하고자 하는 사람들을 대상으로 설계되었습니다.

선수지식

"Databricks를 활용한 머신러닝 시작(Onboarding)"과정 이수 혹은 Databricks 환경에서의 업무에 대한 기초 지식을 보유 - 학습자는 Databricks 워크스페이스 탐색, 노트북 생성 및 실행, 그리고 Databricks에서의 기본 머신러닝 워크플로우에 대해 익숙해야함 데이터 준비 및 분석을 위한 중급 수준의 Python 프로그래밍 숙련도 - 학습자는 데이터 조작, 결측값 처리, 기본적인 피처 변환을 위해 pandas, numpy, scikit-learn과 같은 라이브러리를 사용하는 데 익숙해야 함 머신러닝 기본 개념에 대한 기초적인 이해 - 트레이닝 및 테스트 데이터셋(Test Datasets), 피처 엔지니어링(Feature Engineering), 그리고 모델 개발 파이프라인(Model Development Pipelines)과 같은 개념에 대한 친숙함 Databricks 플랫폼 워크플로우에 대한 친숙함 - 학습자는 클러스터 생성, 노트북에서 코드 실행, 일반적인 노트북 작업 사용과 같은 기본 작업을 수행할 수 있어야함 데이터 포맷과 레이크하우스(Lakehouse) 개념에 대한 기초 지식 - 학습자는 CSV, JSON, Parquet와 같은 일반적인 데이터 포맷에 익숙하고, Delta Lake 및 레이크하우스 아키텍처에 대한 기초적인 지식을 갖추고 있어야함 탐색적 데이터 분석(Exploratory Data Analysis)과 기초 통계에 대한 기본 이해 - 데이터 분포, 결측값, 이상치, 그리고 데이터 품질을 평가하는 데 사용되는 간단한 데이터 시각화 기술에 대한 이해

강의내용

데이터 준비(Data Preparation) 및 피처 엔지니어링(Feature Engineering) 기초
데이터 임퓨테이션(Imputation)
데이터 인코딩(Encoding)
데이터 표준화(Standardization)
피처 엔지니어링 파이프라인(Pipelines)
피처 스토어(Feature Store) 소개
피처 스토어를 활용한 피처 엔지니어링