[Review] Orion-14B: Open-source Multilingual Large Language Models

Abstract

본 연구에서는 140억 개의 매개 변수를 가진 다국어 대언어 모델 모음인 Orion-14B를 소개합니다. 데이터 스케줄링 접근 방식을 사용하여 영어, 중국어, 일본어, 한국어 및 기타 언어의 텍스트에서 가져온 2조 5천억 개의 다양한 토큰 코퍼스에 대한 기본 모델을 훈련합니다. 또한 대화 응용 프로그램 및 기타 특정 사용 사례에 맞게 조정된 일련의 모델을 fine-tune했습니다. 평가 결과는 Orion-14B가 광범위한 작업에서 SOTA 성능을 달성한다는 것을 보여줍니다. Orion-14B 모델 및 관련 코드를 공개적으로 액세스할 수 있도록 함으로써 향후 연구와 이 분야의 실제적인 응용을 촉진하는 것을 목표로 합니다.

http://github.com/OrionStarAI/Orion

GitHub - OrionStarAI/Orion: Orion-14B is a family of models includes a 14B foundation LLM, and a series of models: a chat model,

Orion-14B is a family of models includes a 14B foundation LLM, and a series of models: a chat model, a long context model, a quantized model, a RAG fine-tuned model, and an Agent fine-tuned model. ...

github.com

Pretraining

Tokenizer

다국어 토큰화기의 경우 일반적으로 다국어 텍스트에서 단어 수준 또는 하위 단어 수준 토큰을 생성하는 통계 방법을 사용합니다. 저희는 SentencePiece(쿠도와 리차드슨, 2018)를 통해 구현된 BPE(바이트 쌍 인코딩) 알고리즘을 사용합니다. 저희의 구성은 99.99%의 문자 범위를 보장하며, 희귀 문자는 UTF-8바이트로 기본 설정됩니다. 다양한 코퍼스를 구축하고 훈련 데이터 분포에 맞추기 위해 저희는 훈련 코퍼스에서 다양한 텍스트 유형을 선별합니다. 여기에는 영어, 중국어 간체, 중국어 번체, 일본어, 한국어, 기타 몇 가지 언어 및 희귀 문자가 포함됩니다. 표 1에서는 토큰화기와 다른 오픈 소스 토큰화기를 자세히 비교합니다. 이 비교에는 어휘 크기와 압축률(CR)이 포함되며, 후자는 토큰화된 데이터 크기에 대한 원본 데이터 크기의 비율로 계산됩니다.

Model architecture

Llama2 (14.4B)
rotary positional embeddings (RoPE)
4,096 tokens
40 transformer layers with 40 attention heads each

Infrastructure

11 server, each equipped with 8 NVIDIA H800 GPUs
FlashAttention2, APEX, Megatron-LM
4,000-5,000 tokens/GPU/seconds

Multilingual

English+Korean 학습

Kim et al., 2021 (Ildoo Kim, Gunsoo Han, Jiyeon Ham, and Woonhyuk Baek. Kogpt: Kakaobrain korean(hangul)
generative pre-trained transformer. https://github.com/kakaobrain/kogpt, 2021.)
Ko et al., 2023b (Hyunwoong Ko, Kichang Yang, Minho Ryu, Taekyoon Choi, Seungmu Yang, jiwung Hyun, and
Sungho Park. A technical report for polyglot-ko: Open-source large-scale korean language models, 2023a.)
Hyunwoong Ko, Kichang Yang, Minho Ryu, Taekyoon Choi, Seungmu Yang, Sungho Park, et al. A technical report for polyglot-ko: Open-source large-scale korean language models. arXiv preprint arXiv:2306.02254, 2023b.)

[출처]

https://arxiv.org/pdf/2401.12246.pdf

저작자표시 비영리 변경금지

'Papers > General' 카테고리의 다른 글

[Review] Enhancing Large Language Model with Self-Controlled Memory Framework (0)	2024.02.28
[Review] Conversation Chronicles Towards Diverse Temporal and Relational Dynamics in Multi-Session Conversations (1)	2024.02.27
[Review] Think-in-Memory: Recalling and Post-thinking Enable LLMs with Long-Term Memory (1)	2024.02.14
[Review] What Changes Can Large-scale Language Models Bring?Intensive Study on HyperCLOVA: Billions-scale Korean GenerativePretrained Transformers (0)	2024.01.30
[Review] A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models (1)	2024.01.30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

NLP AI Research Review

[Review] Orion-14B: Open-source Multilingual Large Language Models

Pretraining

Multilingual

'Papers > General' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[Review] Orion-14B: Open-source Multilingual Large Language Models

Pretraining

Multilingual

'Papers > General' 카테고리의 다른 글

'Papers/General' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역