본문 바로가기

Papers/General

[Review] Orion-14B: Open-source Multilingual Large Language Models

Abstract

본 연구에서는 140억 개의 매개 변수를 가진 다국어 대언어 모델 모음인 Orion-14B를 소개합니다. 데이터 스케줄링 접근 방식을 사용하여 영어, 중국어, 일본어, 한국어 및 기타 언어의 텍스트에서 가져온 2조 5천억 개의 다양한 토큰 코퍼스에 대한 기본 모델을 훈련합니다. 또한 대화 응용 프로그램 및 기타 특정 사용 사례에 맞게 조정된 일련의 모델을 fine-tune했습니다. 평가 결과는 Orion-14B가 광범위한 작업에서 SOTA 성능을 달성한다는 것을 보여줍니다. Orion-14B 모델 및 관련 코드를 공개적으로 액세스할 수 있도록 함으로써 향후 연구와 이 분야의 실제적인 응용을 촉진하는 것을 목표로 합니다.

http://github.com/OrionStarAI/Orion 

 

GitHub - OrionStarAI/Orion: Orion-14B is a family of models includes a 14B foundation LLM, and a series of models: a chat model,

Orion-14B is a family of models includes a 14B foundation LLM, and a series of models: a chat model, a long context model, a quantized model, a RAG fine-tuned model, and an Agent fine-tuned model. ...

github.com

 

Pretraining

Tokenizer

다국어 토큰화기의 경우 일반적으로 다국어 텍스트에서 단어 수준 또는 하위 단어 수준 토큰을 생성하는 통계 방법을 사용합니다. 저희는 SentencePiece(쿠도와 리차드슨, 2018)를 통해 구현된 BPE(바이트 쌍 인코딩) 알고리즘을 사용합니다. 저희의 구성은 99.99%의 문자 범위를 보장하며, 희귀 문자는 UTF-8바이트로 기본 설정됩니다. 다양한 코퍼스를 구축하고 훈련 데이터 분포에 맞추기 위해 저희는 훈련 코퍼스에서 다양한 텍스트 유형을 선별합니다. 여기에는 영어, 중국어 간체, 중국어 번체, 일본어, 한국어, 기타 몇 가지 언어 및 희귀 문자가 포함됩니다. 표 1에서는 토큰화기와 다른 오픈 소스 토큰화기를 자세히 비교합니다. 이 비교에는 어휘 크기와 압축률(CR)이 포함되며, 후자는 토큰화된 데이터 크기에 대한 원본 데이터 크기의 비율로 계산됩니다.

 

Model architecture

  • Llama2 (14.4B)
  • rotary positional embeddings (RoPE)
  • 4,096 tokens
  • 40 transformer layers with 40 attention heads each

Infrastructure

  • 11 server, each equipped with 8 NVIDIA H800 GPUs
  • FlashAttention2, APEX, Megatron-LM
  • 4,000-5,000 tokens/GPU/seconds

 

Multilingual

English+Korean 학습

  • Kim et al., 2021 (Ildoo Kim, Gunsoo Han, Jiyeon Ham, and Woonhyuk Baek. Kogpt: Kakaobrain korean(hangul)
    generative pre-trained transformer. https://github.com/kakaobrain/kogpt, 2021.)
  • Ko et al., 2023b (Hyunwoong Ko, Kichang Yang, Minho Ryu, Taekyoon Choi, Seungmu Yang, jiwung Hyun, and
    Sungho Park. A technical report for polyglot-ko: Open-source large-scale korean language models, 2023a.)
  • Hyunwoong Ko, Kichang Yang, Minho Ryu, Taekyoon Choi, Seungmu Yang, Sungho Park, et al. A technical report for polyglot-ko: Open-source large-scale korean language models. arXiv preprint arXiv:2306.02254, 2023b.)

 

[출처]

https://arxiv.org/pdf/2401.12246.pdf