본문 바로가기

Papers/General

[Review] What Changes Can Large-scale Language Models Bring?Intensive Study on HyperCLOVA: Billions-scale Korean GenerativePretrained Transformers

[Abstract]

 

 

Data description

Korean: 97%

English: 2%

Japanese: 0.5%

Other languages: 0.5%

 

Data Cleaning

Brown et al. (2020)의 연구와 유사한 방법으로 각 문서의 품질을 측정할 수 있는 로지스틱 회귀 모델을 학습합니다. 문서의 BERT 기능이 입력으로 사용됩니다. 고품질 백과사전 문서를 긍정적인 예로 가정하고 크롤링된 웹 문서를 부정적인 예로 가정합니다. 낮은 품질로 예측된 문서는 제외합니다.
중복된 문서를 제거하기 위해 해시 함수를 사용하여 문서의 유사도를 계산합니다. 또한 원하지 않는 광고 및 문서를 제거하기 위해 사내 스팸 필터링 기법을 사용합니다. 또한, 저희는 길이가 너무 짧거나 자모, 숫자 또는 특수 문자 수준에서 너무 반복적인 저품질 문서는 제외합니다. 특히 리뷰 작성 기간에 대한 정책이 있기 때문에 리뷰 유형 문서에 너무 반복적인 표현이 포함된 경우가 많습니다.
또한, 문서에 욕설과 비속어가 너무 많이 포함되어 있는 경우에는 제외됩니다. 문서 내에서 제목과 내용 사이에 중복된 문장을 제거합니다. KiN 코퍼스의 경우, 하나의 질문에 대해 복수의 답변이 등록되어 있는 경우 질문자가 채택한 답변 또는 의사나 변호사 등 공인된 전문가의 답변만을 사용했습니다. 답변을 채택하였더라도 작성자의 평판 점수가 낮은 경우 제외하였습니다. 저희는 HTML 소스 코드를 파싱하고 모델 학습을 위해 HTML 페이지의 의미 있는 부분만 사용합니다. 뉴스 형태의 문서는 첫 줄과 소속을 위한 마지막 문구와 같이 정보가 중요하지 않은 전형적인 부분을 제거합니다.