[배경]
인공지능 기반의 번역 기술은 전 세계적으로 커뮤니케이션의 장벽을 허물며, 다양한 분야에서 중요한 역할을 하고 있습니다. 특히, 실시간 뉴스 번역은 국제 사회에서 발생하는 다양한 사건과 정보를 신속하게 전달하는 데 있어 핵심적인 요소입니다. 그러나 대부분의 번역 모델은 일반적인 도메인의 텍스트에 대한 학습 데이터를 기반으로 하고 있으며, 이는 특정 도메인에 특화된 번역의 정확도와 자연스러움에 한계를 가지고 있습니다.
[목적]
이 프로젝트의 주된 목적은 위키피디아 데이터로 학습된 영/한 번역 모델의 범용성과 적응력을 평가하고, 특히 실시간 뉴스 데이터에 적용했을 때의 성능을 분석하는 것입니다. 이를 통해, 모델이 뉴스와 같은 특정 도메인의 데이터에 얼마나 잘 작동하는지를 평가하고, 도메인 간의 차이를 극복하기 위한 전략을 모색합니다.
[수행절차]
영/한 동시에 위키피디아 검색결과를 얻을 수 있는 병렬 키워드 모음
영/한 키워드에 해당하는 설명 또는 요약 텍스트 수집
영/한 텍스트를 영/한 문장 단위의 병렬 말뭉치로 변환
병렬 말뭉치 Align과 전처리
Statistical MT 모델로 성능 Baseline 설정
Tokenizing 방식 결정 및 Neural MT 모델 생성
Neural MT 학습 및 평가
[데이터]
wikititles-2014_enko.xml (훈련용 위키피디아 데이터 수집 키워드)
korean-english-news-v1 (평가용 뉴스 데이터)

