참고 reference: A Comprehensive Assessment of Dialog Evaluation Metrics, https://arxiv.org/abs/2106.03706
A Comprehensive Assessment of Dialog Evaluation Metrics
Automatic evaluation metrics are a crucial component of dialog systems research. Standard language evaluation metrics are known to be ineffective for evaluating dialog. As such, recent research has proposed a number of novel, dialog-specific metrics that c
arxiv.org
Metric 이름 | 적용 방법 |
ADEM | RNN 모델 생성 response에 활용되는 metric으로 MSE 기반 측정 https://github.com/Yoctol/ADEM |
RUBER | Cosine 유사도와 dialog history에 적절한지 ranking loss를 계산하여 RNN 기반 예측 https://github.com/gmftbyGMFTBY/RUBER-and-Bert-RUBER |
BERT-RUBER | RUBER의 RNN을 BERT로 교체 https://github.com/gmftbyGMFTBY/RUBER-and-Bert-RUBER |
PONE | Negative example에 대한 응답 측정 https://github.com/gmftbyGMFTBY/PONE |
MAUDE | Noise Contrastive Estimation (NCE)를 학습해서 negative response에 대한 모델 응답 측정 |
DEB | 관련되거나 관련되지 않은 응답을 BERT 기반 측정 |
GRADE | Dialog history에 대해 RUBBER 기반 graph를 만들어 측정(turn-level) https://github.com/li3cmz/GRADE |
DynaEval | Dialog-level에서 그래프 구조로 모델 성능 측정 https://github.com/e0397123/DynaEval |
USR | 여러 모델을 학습시켜 각각의 항목을 평가 -. LM) fluency 평가 -. Retrieval Model) 답변 연관성 평가 -. Fact-to-response Model) 지식적절성 평가 |
USR-H | -. VUP(Valid Utterance prediction): 문법성 평가 -. NSP: sensibleness 평가 -. MLM: 적절성 평가 |
DialogRPT | 여러 GPT2 모델을 앙상블해서 평가 https://github.com/golsun/DialogRPT |
Deep AM-FM | -. AM(Adequacy Metric): BERT 기반 semantic similarity 측정 -. FM(Fluency metric): 확률값의 similarity 측정 https://github.com/e0397123/deep-amfm |
HolisticEval | GPT2를 활용해 Context coherence, language fluency, response diversity, logical self consistency 학습 후 측정 |
FED | DialoGPT를 활용해 utterance의 likelihood를 학습 및 측정 |
FlowScore | DialoFlow(CFM, SIM, RGM으로 학습된 모델) 기반 dialog가 history에 기반하고 있는지 품질 평가 https://github.com/ictnlp/DialoFlow/tree/main/FlowScore |
FBD | FT 없이 RoBERTa를 활용해 Distribution-wise difference를 평가 |
BERTScore | Token embedding으로 F1 score 계산 https://github.com/lovit/KoBERTScore |
BLUERT | Pre-trained BERT를 MSE loss로 FT해서 synthetic data 생성 https://github.com/google-research/bleurt |
QuestEval | QG 기반으로 QA의 사실성 평가 https://github.com/ThomasScialom/QuestEval |
BERTScore, BLUERT, QuestEval의 경우, 대화보다는 번역, 요약 등 일반적인 generation 평가에 활용되는 방식
* STS(Semantic Textual Similarity) 지표에 활용되는 Pearson 상관계수
- STS를 계산하기 위해, Reference-generation의 결과를 비교한 human 및 model의 결과를 비교하게 됌
- 이 때, 이 두 결과의 일치성을 활용하기 위해 주로 MSE 또는 Pearson 상관계수를 사용하여, 값이 얼마나 일정하게 나오는지를 확인함
- 그러나 의미적인 유사성을 고려하지 못하며, outlier에 예민하여 결과값이 왜곡되는 경향이 있음