본문 바로가기

Papers/Metric

(3)
[Review] FACTSCORE: Fine-grained Atomic Evaluation ofFactual Precision in Long Form Text Generation [Abstract] (1) 문장 생성에는 지원되는 정보와 지원되지 않는 정보가 혼합되어 있어 품질에 대한 binary judgement가 부적절한 경우가 많고, (2) 인간 평가에는 시간과 비용이 많이 들기 때문에 대규모 언어 모델(LM)에서 생성된 긴 형식 텍스트의 사실성을 평가하는 것은 쉬운 일이 아니다. 이 논문에서는 한 세대를 일련의 원자 사실로 나누고 신뢰할 수 있는 지식 소스가 지원하는 atomic fact의 비율을 계산하는 새로운 평가인 FACTSCRE를 소개합니다. 여러 최신 상용 LM(InstructGPT, ChatGPT, 검색 증강 퍼플렉시티AI)에서 생성된 사람들의 biography에 대한 FACTSCRE를 얻기 위해 광범위한 인간 평가를 수행하고, 이러한 정밀한 점수(예: ChatG..
[Review] GRADE: Automatic Graph-Enhanced Coherence Metric for Evaluating Open-Domain Dialogue System GRADE: Automatic Graph-Enhanced Coherence Metric for Evaluating Open-Domain Dialogue Systems, 2020, EMNLP [Abstract] Topic-level graph를 활용해, Turn-level이 아닌 Dialog-level에서의 Metric을 계산하는 방식 제안 -. K-hop neighboring -. hop의 weight 활용 [Architecture] BERT로 context-response의 pair를 encoding ConceptNet으로 pair의 topic-level dialog graph 생성 후 inference 1,2 모두를 입력받아 MLP로 최종 score 계산 [Metric] Utterance-level ..
Generation 정량 평가 Metric 참고 reference: A Comprehensive Assessment of Dialog Evaluation Metrics, https://arxiv.org/abs/2106.03706 A Comprehensive Assessment of Dialog Evaluation Metrics Automatic evaluation metrics are a crucial component of dialog systems research. Standard language evaluation metrics are known to be ineffective for evaluating dialog. As such, recent research has proposed a number of novel, dialog-speci..