본문 바로가기

Papers/General

[Review] A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models

[Abstract]

Polyglot은 다국어 언어 모델의 비영어 언어 성능을 향상시키기 위한 선구적인 프로젝트입니다. mBERT(Devlin et al., 2019), XGLM(Lin et al., 2022) 및 BLOM(Scao et al., 2022)과 같은 다양한 다국어 모델을 사용할 수 있음에도 불구하고, 연구원과 개발자는 현재 다국어 모델의 비영어 언어 기능에 대한 불만으로 인해 해당 언어로 단일 언어 모델을 구축하는 경우가 많습니다. 이러한 격차를 해결하기 위해 저희는 비영어 언어에서 향상된 성능을 제공하는 고급 다국어 언어 모델을 개발하려고 합니다. 본 논문에서는 본질적으로 다국어가 아닌 특정 초점을 나타내는 Polyglot 한국어 모델을 소개합니다. 저희 팀은 TUNiB1과 협력하여 연구 여정을 위해 꼼꼼하게 선별된 1.2TB의 한국어 데이터를 수집했습니다. 저희는 다국어 모델을 개발하기 전에 한국어 모델 개발에 우선 순위를 두기로 의도적인 결정을 내렸습니다. 이러한 선택에는 여러 요인이 동기부여가 되었습니다: 첫째, 한국어 모델은 기존 다국어 모델과의 성능 비교를 용이하게 했고, 마지막으로 한국 기업과 연구원의 특정 요구를 충족시켰습니다. 본 논문은 다국어 모델의 비영어 언어 성능 격차를 해결하기 위한 몇 가지 단계를 제안하는 Polyglot 한국어 모델을 개발하기 위한 저희의 작업을 제시합니다.

 

Train (Zero-shot, few-shot)

Tokenizer

  • Vocab size: 30,003
  • Morpheme-aware Byte-Level BPE
  • Mecab

Model Architecture

foundation model: EIeutherAI's GPT-NeoX codebase

Polygot-Ko

  • 1.3B (1,024 batch, 213B tokens)
  • 3.8B (1,024 batch, 219B tokens)
  • 5.8B (1,024/4 batch, 172B tokens, 320,000 steps)
  • 12.8B (1,024/4 batch, 167B tokens, 301,000 steps),

 

Limitations and Disclaimers

Polyglot-Ko는 주로 다음 토큰 예측을 최적화하도록 교육받았으며, 이는 다양한 작업에 적합합니다. 하지만 예상치 못한 결과가 발생할 수 있음을 인식하는 것이 중요합니다. Polyglot-Ko 는 통계적으로 가장 가능성이 높은 응답을 생성하려고 노력하지만, 항상 가장 정확하거나 사실적인 응답을 제공하지는 않을 수 있습니다. 모델의 결과물에 의존할 때는 주의해야 합니다.
또한 Polyglot-Ko가 사회적으로 용인할 수 없거나 모욕적인 콘텐츠를 생성할 수 있다는 점도 주목할 필요가 있습니다. 이러한 위험을 완화하기 위해 인간 큐레이터를 구현하거나 민감하거나 부적절한 콘텐츠를 검열하기 위해 다른 필터링 메커니즘을 사용하는 것이 좋습니다. 교육에 사용되는 하드웨어와 관련하여 중요한 점은 현재 준비 중인 Polyglot의 향후 버전에 비해 모델이 상대적으로 낮은 TFLOPS로 하드웨어 설정에서 교육되었다는 것입니다.
이로 인해 Training 과정을 성공적으로 마칠 수 있는 시간과 자원이 더 길어졌습니다. 또한 실험 과정에서 데이터 전처리 단계에서 실수를 발견했습니다.
특히, 데이터가 새 줄에서 잘못 제거되어 문서 구조가 손실되었습니다. 이로 인해 모델 교육 과정에서 정보 손실이 발생했을 가능성이 있습니다. 문서 구조의 보존을 보장하고 정보 손실을 최소화하기 위해 향후 반복에서 이 문제를 해결하는 것이 중요합니다. 이러한 고려 사항은 교육 프로세스를 지속적으로 개선하고 발생하는 제한 사항이나 오류를 해결하는 것의 중요성을 강조합니다. 이를 통해 광범위한 작업과 응용 프로그램에 대한 Polyglot-Ko의 성능과 신뢰성을 향상시킬 수 있습니다.

 

Conclusion

현재 우리는 새로운 버전의 Polyglot 한국어 모델을 교육하는 데 적극적으로 노력하고 있습니다. 우리의 목표는 용량을 확장하여 최종적으로 40B 파라미터에 도달하는 것입니다. 이 과정은 모델의 성능과 기능을 향상시키기 위해 노력하는 과정에서 상당한 시행착오를 수반했습니다.
한국어 모델 개발 경험과 전문성을 바탕으로 두 가지 유형의 다국어 모델 개발에도 착수했습니다. 첫 번째 유형은 한국어, 중국어, 일본어, 인도네시아어, 말레이어, 베트남어, 태국어, 영어를 포함하는 동아시아 모델입니다. 이 모델은 동아시아 지역 국가의 언어적 요구를 충족시키는 것을 목표로 합니다. 두 번째 유형은 스페인어, 포르투갈어, 프랑스어, 루마니아어, 이탈리아어를 통합한 로망스 모델입니다. 이 모델은 로망스어를 사용하는 국가의 언어적 요구 사항을 지원하도록 설계되었습니다.
이러한 다국어 모델을 개발함으로써 전 세계적으로 언어 모델 기술에 대한 접근을 촉진하고 민주화하는 것을 목표로 합니다. 이는 사용자가 다양한 응용 프로그램과 언어적 맥락에서 언어 모델의 힘을 활용할 수 있도록 함으로써 다양한 국가의 연구 및 학문의 발전에 기여할 것이라고 믿습니다. 우리는 이러한 모델이 전 세계의 연구자, 실무자 및 언어 애호가에게 미칠 수 있는 잠재적 영향과 이점에 대해 흥분됩니다.