본문 바로가기

Papers/General

(7)
[Review] Keep Me Updated! Memory Management in Long-term Conversations 1. Abstract 장기 대화에서는 과거의 중요한 정보를 기억하고 현재에 대해 계속 이야기하는 것이 중요하다. 그러나 이전에는 기억된 정보가 구식인 경우를 다루지 않아 나중의 대화에서 혼란을 일으킬 수 있습니다. 이 문제를 해결하기 위해 장기 대화에서 새로운 작업과 해당 메모리 관리 데이터 세트를 제시하며, 이 작업은 봇이 여러 세션을 통해 대화하면서 사용자에 대한 최신 정보를 추적하고 제공합니다. 보다 정확하고 해석 가능한 메모리를 지원하기 위해 메모리를 주요 정보의 비구조화된 텍스트 설명으로 표현하고 무효화되거나 중복된 정보를 선택적으로 제거하는 새로운 메모리 관리 메커니즘을 제안합니다. 실험 결과에 따르면 우리의 접근 방식은 특히 나중 세션에서 성능 격차가 더 커 저장된 메모리를 변경하지 않고 유..
[Review] Enhancing Large Language Model with Self-Controlled Memory Framework 1. Abstract 대규모 언어 모델(LLM)은 긴 입력을 처리할 수 없다는 제약을 받아 중요한 과거 정보가 손실된다. 이러한 한계를 해결하기 위해 본 논문에서는 장기 메모리를 유지하고 관련 정보를 회상하는 LLM의 기능을 향상시키기 위해 자체 제어 메모리(SCM) 프레임워크를 제안한다. 이 SCM 프레임워크는 프레임워크의 백본 역할을 하는 LLM 기반 Agent, Agent 메모리를 저장하는 Memory Stream, 메모리를 업데이트하고 메모리 스트림에서 메모리를 사용하는 시기와 방법을 결정하는 Memory Controller, 세 가지 핵심 구성 요소로 구성됩니다. 또한 제안된 SCM은 수정이나 fine-tuning 없이 ultra-long 텍스트를 처리할 수 있으며, 이는 plug-and-pla..
[Review] Conversation Chronicles Towards Diverse Temporal and Relational Dynamics in Multi-Session Conversations 1. Abstract 자연어 처리 분야에서 개방형 도메인 챗봇은 중요한 연구 주제로 부상했다. 그러나 기존 개방형 도메인 챗봇 연구의 주요 한계는 짧은 단일 세션 대화에 대한 focus로, 진행 중인 대화에 앞서 여러 세션에서 컨텍스트 정보를 이해해야 할 잠재적 필요성을 괄시하고 있다. 다중 세션 대화 설정에서 컨텍스트를 구성하는 요소 중 세션 간의 시간 간격과 화자 간의 관계가 특히 중요하다. 이러한 중요성에도 불구하고 현재 연구 노력은 이러한 대화 구성 요소를 충분히 다루지 못했다. 본 논문에서는 시간 간격과 세분화된 화자 관계가 통합된 장기 대화 설정을 구현하기 위해 Conversation Chronicles라는 새로운 1M 다중 세션 대화 데이터 세트를 소개한다. 최근 작업에 이어 대규모 언어 모..
[Review] Think-in-Memory: Recalling and Post-thinking Enable LLMs with Long-Term Memory Abstract Memory-augmented LLM은 높은 성능을 보이지만, 반복적인 Retrieval은 편향된 정보를 유발하기 때문에 일관성 없는 추론 결과를 가져올 수 있다. 1단계: recall relevant thoughts from memory 2단계: response 생성 이후, LLM agent post-thinks and incorporates both historical and new thoughts to update memory 반복되는 Retrieval을 해결하기 위해 post-thinks를 historical memory로 저장 (insert, merge, forget 등의 작업) Locality-Sensitive Hashing(LSH)를 활용하여 장기적인 대화에 대한 효율적인 검..
[Review] What Changes Can Large-scale Language Models Bring?Intensive Study on HyperCLOVA: Billions-scale Korean GenerativePretrained Transformers [Abstract] Data description Korean: 97% English: 2% Japanese: 0.5% Other languages: 0.5% Data Cleaning Brown et al. (2020)의 연구와 유사한 방법으로 각 문서의 품질을 측정할 수 있는 로지스틱 회귀 모델을 학습합니다. 문서의 BERT 기능이 입력으로 사용됩니다. 고품질 백과사전 문서를 긍정적인 예로 가정하고 크롤링된 웹 문서를 부정적인 예로 가정합니다. 낮은 품질로 예측된 문서는 제외합니다. 중복된 문서를 제거하기 위해 해시 함수를 사용하여 문서의 유사도를 계산합니다. 또한 원하지 않는 광고 및 문서를 제거하기 위해 사내 스팸 필터링 기법을 사용합니다. 또한, 저희는 길이가 너무 짧거나 자모, 숫자 또는 특수 ..
[Review] A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models [Abstract] Polyglot은 다국어 언어 모델의 비영어 언어 성능을 향상시키기 위한 선구적인 프로젝트입니다. mBERT(Devlin et al., 2019), XGLM(Lin et al., 2022) 및 BLOM(Scao et al., 2022)과 같은 다양한 다국어 모델을 사용할 수 있음에도 불구하고, 연구원과 개발자는 현재 다국어 모델의 비영어 언어 기능에 대한 불만으로 인해 해당 언어로 단일 언어 모델을 구축하는 경우가 많습니다. 이러한 격차를 해결하기 위해 저희는 비영어 언어에서 향상된 성능을 제공하는 고급 다국어 언어 모델을 개발하려고 합니다. 본 논문에서는 본질적으로 다국어가 아닌 특정 초점을 나타내는 Polyglot 한국어 모델을 소개합니다. 저희 팀은 TUNiB1과 협력하여 연구 ..
[Review] Orion-14B: Open-source Multilingual Large Language Models Abstract 본 연구에서는 140억 개의 매개 변수를 가진 다국어 대언어 모델 모음인 Orion-14B를 소개합니다. 데이터 스케줄링 접근 방식을 사용하여 영어, 중국어, 일본어, 한국어 및 기타 언어의 텍스트에서 가져온 2조 5천억 개의 다양한 토큰 코퍼스에 대한 기본 모델을 훈련합니다. 또한 대화 응용 프로그램 및 기타 특정 사용 사례에 맞게 조정된 일련의 모델을 fine-tune했습니다. 평가 결과는 Orion-14B가 광범위한 작업에서 SOTA 성능을 달성한다는 것을 보여줍니다. Orion-14B 모델 및 관련 코드를 공개적으로 액세스할 수 있도록 함으로써 향후 연구와 이 분야의 실제적인 응용을 촉진하는 것을 목표로 합니다. http://github.com/OrionStarAI/Orion Gi..