1. 评估检索增强生成(RAG)系统的三个关键指标是什么?
检索增强生成(RAG)系统的三个关键评估指标为:
- 上下文相关性:评估检索到的文档与输入查询的匹配程度。高上下文相关性确保检索到的信息切题,并充分涵盖查询内容。
- 忠实度:衡量生成的响应与检索到的文档之间的一致性。忠实度确保输出不编造信息,且完全源自所提供的上下文。
- 答案相关性:评估生成的响应解决用户查询的有效性。它强调答案的完整性、清晰度和实用性。
这些指标为评估 RAG 系统性能提供了全面的框架。
2. 为何在 RAG 中需分别评估检索和生成组件?
分别评估检索和生成组件很重要,原因如下:
- 独立洞察:隔离各组件影响,更易识别检索或生成中的瓶颈与弱点。
- 针对性优化:可聚焦改进任一组件,如微调检索算法提升精度,或优化语言模型以获更准确响应。
- 错误诊断:助于区分因检索不相关所致错误与不准确或幻觉性响应引发的错误。
- 系统模块化:许多 RAG 系统模块化,不同检索和生成组件可集成。分开评估确保兼容性与最优性能。
3. RAG 系统中常用于评估检索过程的指标有哪些?
检索评估常用指标包括:
- Precision@K:前 K 个检索结果中相关文档比例,注重排名最高文档质量。
- Recall@K:衡量前 K 个结果中检索到的相关文档总数占全部相关文档的比例,突出检索全面性。
- 平均倒数排名(MRR):聚焦排名列表中首个相关文档位置,奖励更早检索到相关文档的系统。
- 归一化折损累计增益(nDCG):平衡检索文档的相关性与排名,对相关文档排名过低的系统予以惩罚。
- F1 分数:将精确率与召回率合并为单一指标,平衡准确性与全面性。
这些指标确保从相关性、覆盖度和排名方面评估检索过程。
4. 什么是真值数据,为何它在 RAG 评估中至关重要?
真值数据指用作评估模型性能标准的标注或参考数据,通常包含:
- 输入查询的正确答案。
- 特定查询预期检索