· 학습 목표
경량화의 개념과 중요성을 이해하고, Quantization, Pruning, Knowledge Distillation 등의 다양한 경량화 기법을 학습하여 모델의 크기를 줄이는 방법을 비교하고 성능과 효율성을 파악한다.
· 주요 내용
1. 경량화의 개념 및 중요성 이해
2. 모델 크기 축소의 다양한 방법 (Quantization, Pruning, Knowledge Distillation)
3. 경량화 모델의 성능과 효율성 비교
[Chapter2. Knowledge Distillation을 활용한 sLLM]
· 학습 목표
Knowledge Distillation의 원리와 방법론을 이해하고, 실제 사례를 통해 sLLM을 구축하는 방법을 실습한다.
· 주요 내용
1. Knowledge Distillation의 원리 및 방법론
2. 실제 사례와 Knowledge Distillation을 통한 sLLM 구축 실습
[Chapter3. Quantization과 Pruning]
· 학습 목표
Quantization과 Pruning 기법을 소개하고, 실습을 통해 경량화 모델의 성능을 테스트한다. 또한, 이를 통해 모델의 크기와 속도의 균형을 조절하는 방법을 학습한다.
· 주요 내용
1. Quantization과 Pruning 기법 소개
2. 실습을 통한 경량화 모델의 성능 테스트
3. 모델 크기와 속도의 균형 찾기
[Chapter4. 모델 서빙의 개요]
· 학습 목표
모델 서빙의 개념과 중요성을 이해하며, 서빙 아키텍처와 모델 서빙 기술을 학습한다.
· 주요 내용
1. 모델 서빙의 개념 및 생산 환경에서의 중요성
2. 서빙 아키텍처의 기본 구성 요소
3. 모델 서빙 기술과 프레임워크
[Chapter5. 모델 서빙 기술과 프레임워크]
· 학습 목표
TensorFlow Serving, TorchServe, ONNX, TensorRT 등의 서빙 기술을 소개하고, 각 기술의 장단점을 비교하며, 프레임워크 선택 기준과 적용 사례를 학습한다.
· 주요 내용
1. TensorFlow Serving, TorchServe, ONNX, TensorRT 등 서빙 기술 소개
2. 각 서빙 기술의 장단점 비교
3. 프레임워크 선택 기준과 적용 사례
[Chapter6. sLLM 모델 서빙 실습]
· 학습 목표
실제 모델을 서빙하고, 이를 통해 모델 배포, 모니터링, 유지 보수 전략을 배우며, 성능 최적화와 비용 관리에 대한 전략을 습득한다.
· 주요 내용
1. 모델 서빙 프레임워크를 이용한 실제 모델 서빙 실습
2. 모델 배포, 모니터링, 유지 보수에 대한 전략
3. 성능 최적화 및 비용 관리

