Rageval 介绍
https://github.com/gomate-community/rageval
Rageval是一个用于评估RAG系统的工具。该评估包括六个子任务,包括查询重写、文档排名、信息压缩、证据验证、答案生成和结果验证。
生成任务
生成任务是基于RAG中检索模块提供的上下文来回答问题。通常情况下,上下文可以是从压缩器中提取/生成的文本片段,或者从重新排列器中提取的相关文档。在这里,我们将生成任务中使用的度量标准分为两类,即答案正确性和答案基础性。
答案正确性
通过将生成的答案与基准答案进行比较来评估正确性。以下是一些常用的度量标准:
答案F1正确性 答案NLI正确性 答案EM正确性 答案Bleu分数 答案Ter分数 答案chrF分数 答案Disambig-F1 答案Rouge正确性 答案准确度 答案LCS比率 答案编辑距离
答案基础性
通过将生成的答案与提供的上下文进行比较来评估基础性(也称为事实一致性)。以下是一些常用的度量标准:
答案引文精度 答案引文召回 上下文拒绝率
改写任务
重写任务旨在将用户问题重新表述为一组查询,使它们更适合RAG中的搜索模块。
检索任务
搜索任务是从知识库中检索相关文档。
上下文充分性:这类度量标准是通过将检索到的文档与基准上下文进行比较来评估充分性。 上下文相关性:这类度量标准是通过将检索到的文档与基准答案进行比较来评估相关性。
评测数据集
ASQA基准测试
ASQA数据集是一个包含事实性问题和长格式答案的问答数据集。该基准测试评估了数据集中答案的正确性。
| Model | Retriever | Metric | |||
| String EM | Rouge L | Disambig F1 | D-R Score | ||
| gpt-3.5-turbo-instruct | no-retrieval | 33.8 | 30.2 | 30.7 | 30.5 |
| mistral-7b | no-retrieval | 20.6 | 31.1 | 26.6 | 28.7 |
| llama2-7b-chat | no-retrieval | 21.7 | 30.7 | 28.0 | 29.3 |
| solar-10.7b-instruct | no-retrieval | 23.0 | 24.9 | 28.1 | 26.5 |
ALCE基准测试
ALCE是用于自动语言模型引文评估的基准测试。ALCE包含三个数据集:ASQA、QAMPARI和ELI5。
| Dataset | Model | Method | Metric | |||||
| retriever | prompt | MAUVE | EM Recall | Claim Recall | Citation Recall | Citation Precision | ||
| ASQA | llama2-7b-chat | GTR | vanilla(5-psg) | - | 33.3 | - | 55.9 | 80.0 |
| DPR | vanilla(5-psg) | - | - | - | - | - | ||
| Oracle | vanilla(5-psg) | - | - | - | - | - | ||
| ELI5 | llama2-7b-chat | BM25 | vanilla(5-psg) | - | - | 11.5 | 26.6 | 74.5 |
| Oracle | vanilla(5-psg) | - | - | - | - | - | ||
文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




