본문 바로가기

전체 글

(14)
[Dataset] Multi Session Dataset list-up [MSC(Multi Session Chat)] Data Compositiontrainpersonasdialogtextidprevious_dialogspersonasdialogtime_num: 1, 7, ...time_unit: "hour", "days", ...validtestSession-level summarySession 1["I own a Jeep.", "I enjoy exercising at the gym.", "I have a marketing job.", "I don't eat meat.", "I am from New England.", "I like warm pants in winter."],["I don't own a car. I enjoy running and walking. I liv..
[Review] FACTSCORE: Fine-grained Atomic Evaluation ofFactual Precision in Long Form Text Generation [Abstract] (1) 문장 생성에는 지원되는 정보와 지원되지 않는 정보가 혼합되어 있어 품질에 대한 binary judgement가 부적절한 경우가 많고, (2) 인간 평가에는 시간과 비용이 많이 들기 때문에 대규모 언어 모델(LM)에서 생성된 긴 형식 텍스트의 사실성을 평가하는 것은 쉬운 일이 아니다. 이 논문에서는 한 세대를 일련의 원자 사실로 나누고 신뢰할 수 있는 지식 소스가 지원하는 atomic fact의 비율을 계산하는 새로운 평가인 FACTSCRE를 소개합니다. 여러 최신 상용 LM(InstructGPT, ChatGPT, 검색 증강 퍼플렉시티AI)에서 생성된 사람들의 biography에 대한 FACTSCRE를 얻기 위해 광범위한 인간 평가를 수행하고, 이러한 정밀한 점수(예: ChatG..
[Review] Evaluating Very Long-Term Conversational Memory of LLM Agents [Abstract] Long-term open domain Conversational memory에 대한 기존 연구는 최대 5개의 대화 세션에 걸친 컨텍스트 내에서 모델 응답을 평가하는 데 중점을 둔다. 장기 컨텍스트 대규모 언어 모델(LLM) 및 검색 증강 생성(RAG) 기술의 발전에도 불구하고 장기 대화에서의 효과는 아직 탐구되지 않았다. 이러한 연구 격차를 해결하기 위해 LLM 기반 에이전트 아키텍처를 활용하고 대화를 페르소나 및 시간 이벤트 그래프에 기반하여 고품질의 매우 장기적인 대화를 생성하기 위한 기계-인간 파이프라인을 도입했다. 또한 각 에이전트에 이미지를 공유하고 반응할 수 있는 기능을 갖추었다. 생성된 대화는 long-range consistency와 event graph 적용을 위해 ..
[Review] Keep Me Updated! Memory Management in Long-term Conversations 1. Abstract 장기 대화에서는 과거의 중요한 정보를 기억하고 현재에 대해 계속 이야기하는 것이 중요하다. 그러나 이전에는 기억된 정보가 구식인 경우를 다루지 않아 나중의 대화에서 혼란을 일으킬 수 있습니다. 이 문제를 해결하기 위해 장기 대화에서 새로운 작업과 해당 메모리 관리 데이터 세트를 제시하며, 이 작업은 봇이 여러 세션을 통해 대화하면서 사용자에 대한 최신 정보를 추적하고 제공합니다. 보다 정확하고 해석 가능한 메모리를 지원하기 위해 메모리를 주요 정보의 비구조화된 텍스트 설명으로 표현하고 무효화되거나 중복된 정보를 선택적으로 제거하는 새로운 메모리 관리 메커니즘을 제안합니다. 실험 결과에 따르면 우리의 접근 방식은 특히 나중 세션에서 성능 격차가 더 커 저장된 메모리를 변경하지 않고 유..
[Review] Enhancing Large Language Model with Self-Controlled Memory Framework 1. Abstract 대규모 언어 모델(LLM)은 긴 입력을 처리할 수 없다는 제약을 받아 중요한 과거 정보가 손실된다. 이러한 한계를 해결하기 위해 본 논문에서는 장기 메모리를 유지하고 관련 정보를 회상하는 LLM의 기능을 향상시키기 위해 자체 제어 메모리(SCM) 프레임워크를 제안한다. 이 SCM 프레임워크는 프레임워크의 백본 역할을 하는 LLM 기반 Agent, Agent 메모리를 저장하는 Memory Stream, 메모리를 업데이트하고 메모리 스트림에서 메모리를 사용하는 시기와 방법을 결정하는 Memory Controller, 세 가지 핵심 구성 요소로 구성됩니다. 또한 제안된 SCM은 수정이나 fine-tuning 없이 ultra-long 텍스트를 처리할 수 있으며, 이는 plug-and-pla..
[Review] Conversation Chronicles Towards Diverse Temporal and Relational Dynamics in Multi-Session Conversations 1. Abstract 자연어 처리 분야에서 개방형 도메인 챗봇은 중요한 연구 주제로 부상했다. 그러나 기존 개방형 도메인 챗봇 연구의 주요 한계는 짧은 단일 세션 대화에 대한 focus로, 진행 중인 대화에 앞서 여러 세션에서 컨텍스트 정보를 이해해야 할 잠재적 필요성을 괄시하고 있다. 다중 세션 대화 설정에서 컨텍스트를 구성하는 요소 중 세션 간의 시간 간격과 화자 간의 관계가 특히 중요하다. 이러한 중요성에도 불구하고 현재 연구 노력은 이러한 대화 구성 요소를 충분히 다루지 못했다. 본 논문에서는 시간 간격과 세분화된 화자 관계가 통합된 장기 대화 설정을 구현하기 위해 Conversation Chronicles라는 새로운 1M 다중 세션 대화 데이터 세트를 소개한다. 최근 작업에 이어 대규모 언어 모..
[Review] Think-in-Memory: Recalling and Post-thinking Enable LLMs with Long-Term Memory Abstract Memory-augmented LLM은 높은 성능을 보이지만, 반복적인 Retrieval은 편향된 정보를 유발하기 때문에 일관성 없는 추론 결과를 가져올 수 있다. 1단계: recall relevant thoughts from memory 2단계: response 생성 이후, LLM agent post-thinks and incorporates both historical and new thoughts to update memory 반복되는 Retrieval을 해결하기 위해 post-thinks를 historical memory로 저장 (insert, merge, forget 등의 작업) Locality-Sensitive Hashing(LSH)를 활용하여 장기적인 대화에 대한 효율적인 검..
[Review] What Changes Can Large-scale Language Models Bring?Intensive Study on HyperCLOVA: Billions-scale Korean GenerativePretrained Transformers [Abstract] Data description Korean: 97% English: 2% Japanese: 0.5% Other languages: 0.5% Data Cleaning Brown et al. (2020)의 연구와 유사한 방법으로 각 문서의 품질을 측정할 수 있는 로지스틱 회귀 모델을 학습합니다. 문서의 BERT 기능이 입력으로 사용됩니다. 고품질 백과사전 문서를 긍정적인 예로 가정하고 크롤링된 웹 문서를 부정적인 예로 가정합니다. 낮은 품질로 예측된 문서는 제외합니다. 중복된 문서를 제거하기 위해 해시 함수를 사용하여 문서의 유사도를 계산합니다. 또한 원하지 않는 광고 및 문서를 제거하기 위해 사내 스팸 필터링 기법을 사용합니다. 또한, 저희는 길이가 너무 짧거나 자모, 숫자 또는 특수 ..