본문 바로가기

Papers/KG

[Review] Evaluating Very Long-Term Conversational Memory of LLM Agents

[Abstract]

Long-term open domain Conversational memory에 대한 기존 연구는 최대 5개의 대화 세션에 걸친 컨텍스트 내에서 모델 응답을 평가하는 데 중점을 둔다. 장기 컨텍스트 대규모 언어 모델(LLM) 및 검색 증강 생성(RAG) 기술의 발전에도 불구하고 장기 대화에서의 효과는 아직 탐구되지 않았다. 이러한 연구 격차를 해결하기 위해 LLM 기반 에이전트 아키텍처를 활용하고 대화를 페르소나 및 시간 이벤트 그래프에 기반하여 고품질의 매우 장기적인 대화를 생성하기 위한 기계-인간 파이프라인을 도입했다. 또한 각 에이전트에 이미지를 공유하고 반응할 수 있는 기능을 갖추었다. 생성된 대화는 long-range consistency와 event graph 적용을 위해 Human Annotator에 의해 검증되고 편집되었다. 이 파이프라인을 사용하여 최대 35개 세션에 걸쳐 각각 300개의 턴과 평균 9K 토큰을 포함하는 매우 장기적인 대화 데이터 세트인 LOCMO를 수집합니다. LOCMO를 기반으로 질문 답변, 이벤트 요약 및 다중 모드 대화 생성 작업을 포괄하는 모델의 장기 기억을 측정하는 포괄적인 평가 벤치마크를 제시합니다. 실험 결과에 따르면 LLM은 긴 대화를 이해하고 대화 내의 long range temperal 및 causal dynamics를 이해하는 데 어려움이 있는 것으로 나타났습니다. 장기 context LLM 또는 RAG와 같은 전략을 사용하면 개선점을 제공할 수 있지만 이러한 모델은 여전히 인간의 성능에 크게 뒤처진다.

 

[Introduction]

(1) 긴 맥락의 LLM과 RAG는 QA 작업에서 효과를 입증하여 LLM의 '기억' 기능을 향상시키지만(22~66%의 개선 효과로), 여전히 인간 수준(56%), 특히 시간적 추론(73%)에 크게 뒤처진다;
(2) 긴 컨텍스트 LLM은 QA 작업에서 적대적 질문에 대해 상당한 어려움을 보여 기본 모델보다 83% 낮은 성능을 보여줍니다. 특히 대화나 이벤트를 잘못된 화자에게 잘못 할당하는 경향이 있습니다. 또한 이벤트 그래프 요약에서 성능이 좋지 않아 기본 모델보다 14% 뒤쳐졌습니다. 이는 전체 대화 내에서 사실적인 요소는 파악할 수 있지만 컨텍스트를 정확하게 이해하지 못한다는 것을 나타낸다.
(3) RAG는 짧은 맥락 LLM의 정확성과 넓은 맥락 LLM의 광범위한 이해를 결합하는 균형 잡힌 절충을 제공하며, 특히 대화가 각 화자의 삶과 페르소나에 대한 주장(관찰)의 데이터베이스로 변환될 때 잘 작동한다.

 

[Related works]

  • Long-term dialogue;  최근의 접근 방식은 다양한 이전 대화에서 과거 컨텍스트를 검색하고 검색된 세그먼트에 대한 추론을 시간적 순서 (Lee et al., 2023b; Lu et al., 2023; Zhong et al., 2023; Liang et al., 2023) 로 포함하거나 Event를 사용하여 대화를 스캐폴드(Jang et al., 2023; Zhang et al., 2023)로 활용한다. 이러한 프레임워크의 몇 가지 한계는 다음과 같습니다.
    • (1) 검색 모델은 일반적으로 이러한 대화에 대해 구체적으로 학습하기보다는 의미론적 유사성에 초점을 맞춘 작업에 중점을 두기 때문에 검색의 정확성이 손상될 수 있다. 또한 실제 대화에는 종종 co-references 및 누락된 콘텐츠(즉, anaphora 대명사)(Antha et al., 2021)가 포함되어 검색 프로세스를 더욱 복잡하게 만듭니다(Mallen et al., 2023; Gao et al., 2023b; Liu et al., 2023);
    • (2) 검색된 문서에 대한 추론에서 문제가 발생하며, 특히 모델이 검색된 데이터 중 올바른 컨텍스트를 식별하려고 할 때 어려움이 발생한다(Liu et al., 2024);
    • (3) 시간 간격에 따른 추론은 문제를 나타낸다. 예를 들어, 시스템이 과거 이벤트에 대해 응답하는 방식은 마지막 대화 이후 경과한 시간의 양에 따라 달라질 수 있다(Zhang et al., 2023; Jang et al., 2023). 따라서 장기 대화 생성에 대한 접근 방식의 효과를 정확하게 평가하기 위해서는 상당한 길이의 대화와 체계적인 평가 프레임워크가 필수적이다. 검색 증강 및 이벤트 그래프를 기반으로 장기 대화 생성 파이프라인을 설계하고 장기 대화 에이전트를 평가하기 위한 프레임워크를 제안합니다.
  • Multi-modal dialogue; 주로 이미지 grounded 대화와 이미지 sharing 대화의 두 가지 유형으로 구성된다.
    • (1)이미지 grounded 대화 작업은 질문에 응답하거나(Antol et al., 2015; Das et al., 2017; Kottur et al., 2019) 특정 이미지와 관련된 자연스러운 대화를 만드는 것이 중심이 된다(Mostafazadeh et al., 2017; Shuster et al., 2020; Meng et al., 2020; Zheng et al., 2022).
    • (2) 반대로 이미지 sharing 대화 작업은 제공된 대화 컨텍스트와 의미론적으로 일치하는 이미지를 선택하는 데 중점을 둔다(Zang et al., 2021; Feng et al., 2023; Lee et al., 2023c). 이미지 공유 대화 작업의 방법을 사용하여 다중 모드 대화를 생성한 다음 이미지 기반 대화 작업으로 평가한다.
  • Synthetic Evaluation Benchmark; 인간이 생성한 데이터가 부족하고 LLM이 인간 수준 주석의 품질에 가까워지고 있음을 관찰하면서(He et al., 2023; Lee et al., 2023a), 이러한 개발에서 영감을 얻은 연구가 급증했다. 따라서 일상적인 사회적 상호 작용에서 응답을 평가하고, Multi-modal 환경에서 응답을 조사하고, 특정 페르소나와 일치하는 응답을 평가하기 위한 대규모 대화 벤치마크를 보강하거나 합성하기 위해 LLM을 활용하기 시작했다(Kim et al., 2023). 이 paper는 LLM을 활용하여 데이터를 생성하지만 인간의 검증 및 편집을 통해 높은 품질을 보장한다.

[Pipeline]

  • Persona; MSC 데이터 세트(Xu et al., 2022)에서 4~5개의 문장을 포함하는 초기 페르소나 문장 pc를 선택하고, 이를 전체 페르소나 문 p로 확장하기 위해 gpt-3.5-turbo를 M으로 사용합니다(참조) 부록 A.1)의 예시 및 신속한 세부 정보. 생성된 진술은 일반적으로 개인의 이름, 나이 및 성별뿐만 아니라 목표, 과거 경험, 일상 습관 및 대인 관계 중 하나 이상의 요소에 대한 세부 정보를 포함한다(Gao et al., 2023a).
  • Temperal image graph; 대화에서 각 에이전트의 실제 경험을 활용하기 위해 각 에이전트에 대해 G라는 레이블이 붙은 시간적 이벤트 그래프를 구성한다. 이벤트 ei로 구성된 이 그래프 G는 지정된 페르소나 p에 M(text-davinchi-003) 조건을 적용하여 생성된다. 각 이벤트 ei는 발생 날짜 ti와 연관되어 있다. G에는 이벤트 ei ∈ G 간의 인과 관계를 설명하고 개인의 삶에서 이벤트의 자연스러운 연속을 반영하는 인과 관계 l = (ei, ej)가 포함된다. 각 G에 대해 추론 시간과 타임라인에서 시간적 및 인과 관계의 일관성 사이의 균형을 맞추는 반복 프로세스로 6개월에서 12개월의 시간 프레임에 걸쳐 최대 25개의 이벤트를 생성한다. 처음에는 작은 k = 3개의 이벤트 배치가 생성되고, 이는 반복적으로 입력 프롬프트로 사용되어 다음 k개의 이벤트 배치를 생성한다. 자세한 내용은 부록 A.2에서 참조.
  • Vertual agent architecture; 모든 에이전트 Li는 생성 에이전트 아키텍처의 모듈을 통합한다(Park et al., 2023). 에이전트는 (1) Reflect & Respond, (2) Image sharing & Image reaction 의 두 가지 기능을 가지고 있다. 에이전트는 대화의 맥락에서 Image sharing & Image reaction 기능을 신중하고 적절하게 사용하면서 Reflect & Respond 기능을 주로 사용하도록 요청된다.
  • Reflect & Respond; 각 에이전트가 reflect하고 respond하는 기본 프로세스에는 short-term memory와 long-term memory의 개념이 포함된다. 추론하는 동안 Li 에이전트는 인간이 최근 대화를 기억하는 방법과 동시에 장기 기억에서 distill된 중요한 경험을 recall하는 방법과 유사하게 장단기 기억 모두에 대한 응답 조건을 지정한다.
    • 각 세션 k 후에 각 에이전트는 요약 wk를 생성한 다음 단기 Hs에 저장하도록 요청한다. 이 요약 wk는 가장 최근 세션 대화 기록 hk와 이전 요약 wk-1 ∈ Hl 모두에 대해 M을 조건화하여 생성된다.
    • session k 내의 각각의 턴 j에 대해, 대화문 hkj의 single turn은 observation okj로 변환되고 long-term memory Hl에 저장된다.
    • 그런 다음 에이전트 Li는 ts k+1 날짜의 세션 k+1에서 최신 요약 wk, 검색된 관련 관찰에 기반한 반영, Hs ∈, 현재 세션 hk+1에서 진행 중인 대화 기록 및 페르소나 문 p를 기반으로 응답을 생성한다.
    • 마지막 세션과 현재 세션 사이에 발생하는 G에서 발생하는 이벤트의 하위 집합에 대한 에이전트의 응답을 추가로 조건화함으로써 대화에서 Long-term temporal narratives를 유도한다. {e ∈ G |tsk < tsk+1}. 부록 A.2.1의 자세한 내용을 참조.
  • Image sharing & Image reaction
  • Human verification & editing

[Temporal Event graph]

3.2절에 요약된 바와 같이, 주어진 페르소나 요약을 기반으로 인과적으로 연결된 이벤트로 구성된 이벤트 그래프를 생성하기 위해 반복 프로세스를 사용한다. 이벤트 그래프의 구성, 이벤트 특성 및 이벤트 간의 인과 관계를 설명하기 위한 기본 프롬프트가 그림 6에 나와 있다.

  • 먼저, 기본 프롬프트는 이벤트 그래프 초기화에 대한 프롬프트와 함께 사용되어 주어진 성격과 관련된 세 개의 독립적인 이벤트를 생성한다.
  • 그런 다음 기본 프롬프트는 그래프에 이미 존재하는 이벤트 중 하나 이상에 의해 발생하는 이벤트를 계속 생성하기 위해 이벤트의 반복 생성에 대한 프롬프트와 결합된다. 그림 7의 페르소나와 해당 시간 이벤트 그래프의 예를 참조.

 

[Prompts for temporal event graph generation]

  • Base prompt for event graph generation
Let's write a graph representing events that occur in a person's life based on a short summary of their personality. Nodes represent events and edges represent the influence of past sub-events on a current event. - The graph is represented in the form of a json list. - Each entry is a dictionary containing the following keys: "event", “date", "caused_by", "id".
- The "event" field contains a short description of the event.
- The “date" field contains a date.
- The "id" field contains a unique identifier for the event.
- The "caused_by" field represents edges and is a list of "id" of existing events that have caused this event. Events in the "caused_by" field should occur on dates before the event they have caused. Generate as many causal connections as possible.
- An example of a causal effect is when the event "started a vegetable garden" causes "harvested tomatoes".
- Events can be positive or negative life events.
  • Additional prompt for event graph initialization
For the following input personality, generate three independent events E1, E2 and E3 aligned with their personality. Events can be positive or negative life events and should reflect evolution in the person's relationships, state of mind, personality etc.
  • Additional prompt for iterative generation and causal events
For the following input personality, generate new events that are caused by one or more EXISTING events. Events can be positive or negative life events and should reflect evolution in the person's relationships, state of mind, personality etc. Do not repeat existing sub-events. Start and end your answer with a square bracket.
  • Prompts for generating summaries
In previous interactions, {previous_summary}. The current time and date are {current_date_and_time}. {speaker_1_name} and {speaker_2_name} talked today and had the following conversation: {session} Summarize the interactions between {speaker_1_name} and {speaker_2_name} so far. Include key details about both speakers and include time references wherever possible.
  • Prompts for generating observations
Write a concise and short list of all possible OBSERVATIONS about each speaker that can be gathered from the CONVERSATION. Each observation should contain a piece of information about the speaker. The OBSERVATIONS should be objective factual information about the speaker that can be used as a database about them. Avoid abstract observations about the dynamics between the two speakers such as 'speaker is supportive', 'speaker appreciates' etc. Do not leave out any information from the CONVERSATION.
  • Prompts for image-response behavior
{speaker_1_persona}
{speaker_2_persona}

{speaker_1_name} says, {current_turn}, and shares a photo of {shared_image_caption_blip2}. Write the most natural question or comment {speaker_2_name} can include in their response.

 

[Experimental Setup]

  • Baselines; LOCOMO 데이터 세트의 대화는 각각 high-order reasoning 및 멀티모달 coreference resolution이 필요한 자연어 대화와 이미지로 구성됩니다. 초기 연구에서 LOCOMO의 이미지를 BLIP-2를 사용하여 생성된 캡션으로 대체하고(Li et al., 2023b), 이미지 캡션에 연결된 자연어 텍스트를 추론하기 위해, 최첨단 LLM을 사용하여 멀티모달 coreference resolution을 효과적으로 수행할 수 있음을 관찰했다. 따라서 질문 답변 및 이벤트 요약 작업에 대한 실험은 LLM을 사용하여 수행된다. 멀티모달 대화 생성 작업에 대한 실험에만 이미지를 직접 사용한다.
  • Event summarization; 두 가지 다른 구성으로 수행된 실험을 제시한다. Question-answer 작업에서 기본 및 긴 컨텍스트 설정을 모두 사용하지만, 요약은 특정 부분만 검색하는 것이 아니라 전체 대화에 대한 포괄적인 이해가 필요하기 때문에 RAG를 포함하는 것을 자제했다. Question-answer 작업과 비교하여 해당 접근 방식의 눈에 띄는 차이점은 컨텍스트를 처리하는 데 있습니다. 특히, 이전 세션의 요약을 만든 다음 해당 요약을 기반으로 사용하여 다음 세션의 요약을 생성한다(Chang et al., 2023). 또한 입력 및 출력에 대한 단일 컨텍스트 내 demonstration을 사용하여 요약에 대한 중요한 이벤트만 선택하도록 모델을 안내한다. 

 

[Evaluation benchmark]

  • Event summarization task; 대화는 개인의 삶에서 발생하는 사건의 시간적 순서를 반영하여 페르소나 p에 LLM을 조건화하여 구성된 시간적 사건 그래프 G를 기반으로 생성된다. 대화 에이전트는 인과 관계와 G의 사건 순서를 이해할 뿐만 아니라 필요에 따라 이러한 사건을 다시 설명해야한다. 에이전트의 event dynamics을 평가하기 위해 에이전트에게 지정된 기간 내에 사건을 요약하도록하고 에이전트의 요약을 G의 사건과 비교하는 사건 요약 작업을 소개한다. LOCOMO에서 해석하는 event는 기존의 연구 논문 요약 벤치마크(Li et al., 2023a), 영화 대본(Chen et al., 2022), 책(Krysci ´nski et al. ´, 2022), 이메일(Zhang et al., 2021b)과 달리 대화에 존재하는 시간적 및 인과적 핵심 참조로 인해 요약하기 어려운 삶의 사건 목록에 주석이 촘촘하게 달려 있다. BLEU(Papineni et al., 2002) 및 ROGUE(Lin, 2004)와 같은 기존 메트릭은 요약의 사실적 정확성을 강조하기 때문에 해당 필요를 충족시키는 것이 아니라 참조와 생성된 요약 간의 어휘적 유사성에 초점을 맞춘다. 이러한 맥락에서 참조와 가설을 모두 atomic facts로 분해하여 생성된 텍스트의 사실성을 평가하는 방법인 FactScore(Min et al., 2023)를 사용한다. 이를 통해 다음 두 가지를 측정하도록 한다.
    • (1) G에 해당하는 내용 내의 atomic fact의 수를 세어 요약된 내용의 precision 측정;
    • (2) G의 원자 사실이 내용 내에 얼마나 포괄적으로 나타나는지를 판단하여 요약된 내용의 recall 측정;
    • (3) 계산된 precision와 recall로부터 도출된 F1 점수를 제시

[Experimental Step]

  • Event summarization; 질문 답변 작업의 기본 및 긴 컨텍스트 설정을 사용한 실험을 제시하지만, 요약에는 특정 부분만 검색하는 것이 아니라 전체 대화에 대한 포괄적인 이해가 필요하기 때문에 RAG를 포함하는 것은 자제합니다. incremental summarization, 즉 이전 세션의 요약을 반복적으로 만든 다음 해당 요약을 기반으로 사용하여 후속 세션을 요약한다(Chang et al., 2023).

[Limitation]

Hybrid human-machine generated data.

Language.

Closed-source LLMs.

Evaluation of long-form NLG.

'Papers > KG' 카테고리의 다른 글

[Review] Text-to-Graph via LLM:pre-training, prompting, or tuning?  (1) 2024.01.30