본문 바로가기

Papers/Metric

[Review] FACTSCORE: Fine-grained Atomic Evaluation ofFactual Precision in Long Form Text Generation

[Abstract]

(1) 문장 생성에는 지원되는 정보와 지원되지 않는 정보가 혼합되어 있어 품질에 대한 binary judgement가 부적절한 경우가 많고, (2) 인간 평가에는 시간과 비용이 많이 들기 때문에 대규모 언어 모델(LM)에서 생성된 긴 형식 텍스트의 사실성을 평가하는 것은 쉬운 일이 아니다. 이 논문에서는 한 세대를 일련의 원자 사실로 나누고 신뢰할 수 있는 지식 소스가 지원하는 atomic fact의 비율을 계산하는 새로운 평가인 FACTSCRE를 소개합니다. 여러 최신 상용 LM(InstructGPT, ChatGPT, 검색 증강 퍼플렉시티AI)에서 생성된 사람들의 biography에 대한 FACTSCRE를 얻기 위해 광범위한 인간 평가를 수행하고, 이러한 정밀한 점수(예: ChatGPT는 58%만 달성)의 필요성을 보여주는 새로운 분석을 보고한다. 인간 평가에는 비용이 많이 들기 때문에 검색을 사용하여 FACTSCRE를 추정하는 자동화 모델과 오류율이 2% 미만인 강력한 언어 모델도 소개한다. 마지막으로, 이 자동화된 메트릭을 사용하여 인간이 평가할 경우 26,000달러가 소요되는 최신 LM 13개 세트에서 6,500세대를 평가하며, 다양한 결과가 있다. GPT-4와 ChatGPT는 공개 모델보다 사실적이며, 비쿠나와 알파카는 최고의 공개 모델 중 일부이다. FACTSCRE는 파이프 설치 팩트스코어를 통해 공개적으로 사용할 수 있다. (https://github.com/shmsw25/FActScore)

 

[Related works]

  • Factual precision in text generation; 텍스트 생성의 사실적 정밀도는 NLP에서 활발한 연구 분야였다. 대부분의 이전 연구는 대화와 같은 특정 문제에 대해 supervised 모델의 사실적 정밀도를 연구하거나(Shuster et al., 2021), 단답형 질문 답변에 중점을 둔다(Kadavath et al., 2022; Kandpal et al., 2022; Mallen et al., 2023; Nori et al., 2023). 보다 최근의 연구는 단답형을 넘어 텍스트 생성의 사실적 정밀도를 연구했습니다. Lee et al.(2022)은 generation에서 명명된 엔티티가 주제의 기사에 나타나는지 여부와 같은 프록시 메트릭을 사용하여 사실적 정밀도를 평가한다. 일련의 동시 작업은 모델에서 제공하는 인용(귀인)의 정밀도를 검증합니다(Gao et al., 2022; Liu et al., 2023a; Yue et al., 2023; Gao et al., 2023). Manakul et al.(2023)의 concurrent work은 지식 소스를 사용하지 않고 LM 세대의 사실적 오류 식별을 자동화합니다. 우리는 섹션 4의 기준 추정기로 그들의 방법을 사용한다. 대조적으로, 이 작업 (1)은 검색이 있거나 없는 다양한 최첨단 LM에서 훨씬 더 긴 텍스트 생성을 고려하고, (2) 인간 전문가와 인간에 밀접하게 접근하는 자동화된 평가자를 통해 세분화된 평가를 제공하고, (3) 대규모 LM 세트에 적용한다.
  • Fact Verification; 이 paper는 위키피디아나 과학 문헌과 같은 대규모 지식 소스에 대해 청구 문장이 자동으로 확인되는 사실 검증에 대한 이전 작업(Thorne et al., 2018; Wadden et al., 2020)과 밀접한 관련이 있다. 대부분의 문헌은 single, atomic claim을 가정하며, 때로는 주변 맥락으로 모델링됩니다(Nakov et al., 2018; Mihaylova et al., 2019; Shaar et al., 2022). atomic facts로의 분해를 통해 더 긴 문장이나 텍스트를 검증하는 작업(Fan et al., 2020; Wright et al., 2022; Chen et al., 2022; Kamoi et al., 2023)도 있다. 사실 검증 문헌과 이 작업의 주요 차이점은 문장 수준의 사human-written annotation보다는 긴 형식의 model-generated sentence에 초점을 맞추고 있다는 것입니다.
  • Model-based Evaluation; 이전 작업에서는 학습된 모델을 사용하여 자동화된 평가 점수를 정의했다(Zhang et al., 2020; Liu et al., 2023b). 여기에는 QA 또는 NLI를 사용하여 요약과 소스 문서 간의 일관성을 고려하는 요약에 모델 기반 평가가 포함된다(Krysinski et al., 2020; Wang et al., 2020; Fabri et al., 2022; Deutsch et al., 2021; Laban et al., 2022). 우리는 이 작업에서 영감을 얻어 정보 조각이 대규모 텍스트 말뭉치에서 지원되는지 여부를 고려하여 LM 생성의 사실적 정밀도를 평가한다.

[Limitation]

  • Scope of FACTScore; 많은 LM이 (주관적이고 모호한 것보다는) 객관적이고 구체적인 사실로 biogrraphy를 생성할 수 있고 위키피디아는 이에 대한 높은 적용 범위를 가지고 있기 때문에 모든 실험은 사람 biography와 위키피디아에 초점을 맞추고 있다. FACTSCORE는 지식 소스가 뉴스 기사 모음일 수 있는 최근 사건에 대한 텍스트 또는 지식 소스가 과학 문헌 모음일 수 있는 과학적 발견에 대한 텍스트와 같은 더 넓은 영역에 적용될 수 있다. Appendix B.5에 개념 증명을 제시하고 향후 작업을 위해 추가 연구를 남긴다. 섹션 3.1에서 만든 가정으로 인해 FACTSCORE는 사실이 더 미묘하고 개방적이며 논쟁 가능한 경우(Chen et al., 2019; Xu et al., 2023) 또는 텍스트가 자주 서로 충돌하는 지식 소스와 함께(Wadden et al., 2022)에 적용되지 않는다. 또한 FACTSCORE는 미묘하고 의도적 또는 암묵적 속임수를 포함하는 인간이 작성한 텍스트에 적합하지 않을 수 있다.
  • Limitation in our estimator; 인간에 근접하고 대규모 LM 세트에 대해 일관된 순위를 제공하지만 개개인의 판단에서 완벽하지 않으며, the best variance는 생성된 문장이 사람이 작성한 텍스트에 얼마나 가까운지와 언어적 복잡성에 달려 있다. 향후 작업에서는 모델 생성의 분포가 Estimator의 성능에 어떻게 영향을 미치는지 조사하고 추정기를 더욱 개선할 수 있습니다.
  • Beyond factual precision; FACTSCORE는 한 세대의 각 정보가 신뢰할 수 있는 지식 소스에 의해 실제로 지원되는지 여부와 같은 사실적 정확성에 초점을 맞추고 있는데, 이는 광범위한 사실성 문제의 한 측면일 뿐이다. 예를 들어, FACTSCREE는 사실적 recall, 즉 생성 내 정보의 범위를 고려하지 않는다. FACTSCORE는 너무 자주 응답하지 않거나 더 적은 사실을 생성하는 모델에 불이익을 주지 않는데, 이는 정확성과 리콜 사이에 본질적인 상충 관계가 있기 때문에 불공정할 수 있습니다. 또한, precision과 recall 사이의 경계가 종종 흐릿한데, 예를 들어, 생성 문장 내 모든 정보가 지원되더라도 입력 프롬프트에 올바르게 응답하는 것으로 간주되기 위해 언급했어야 하는 중요한 정보를 놓칠 수 있습니다(표 6). 향후 작업을 위해 사실성에 대한 보다 총체적인 평가를 남겼으며, 기권 비율 및 평균 atomic fact 수와 함께 FACTSCORE를 활용하여 보고할 것을 권장한다(섹션 4.3에서 설명한 바와 같이).