大模型评估指标
1.基础评估指标
参考klu.ai和Microsoft.com的评估指标列表如下:https://klu.ai/glossary/llm-evaluation
类别 |
度量 |
描述 |
用户参与度和效用指标 |
访问 |
访问LLM应用程序功能的用户数 |
提交 |
提交提示词的用户数 |
|
响应 |
LLM应用程序生成没有错误的响应 |
|
观看 |
用户查看LLM的响应信息次数 |
|
点击 |
用户点击LLM响应中的参考文档(如有参考文档的话) |
|
用户交互指标 |
用户接受率 |
用户接受大模型响应内容的概率,例如,在对话场景中包含正面、负面或者建议的反馈) |
LLM会话数 |
每个用户的LLM平均会话数 |
|
活跃天数 |
每个用户使用LLM功能的活动天数 |
|
交互计时 |
编写提示词、发送再到大模型响应之间的平均时间,以及每次花费的时间 |
|
模型答复质量 |
提示和响应长度 |
提示词和响应内容的平均长度 |
编辑距离度量 |
用户提示之间以及LLM响应和保留内容之间的平均编辑距离测量用作提示细化和内容定制的指标 |
|
用户反馈和用户留存 |
用户反馈 |
带有有“大拇指向上、向下”的反馈数 |
每日/每周/每月活跃用户 |
在特定时间段内访问LLM应用程序功能的用户数 |
|
用户回访率 |
在前一周/月使用此功能的用户在本周/月继续使用此功能的百分比 |
|
性能度量指标 |
每秒请求数(并发) |
LLM每秒处理的请求数 |
每秒处理Token数 |
计算LLM响应流期间每秒输出的Tokens |
|
第一次输出Token的时间 |
从用户提交提示词到第一次流式输出令牌的时间,以多次重复测量 |
|
错误率 |
不同类型错误的错误概率,如401错误、429错误。 |
|
可靠性 |
成功请求占总请求(包括错误或失败请求)的百分比 |
|
延迟时间 |
从提交请求到收到响应之间的平均处理持续时间 |
|
成本度量指标 |
GPU/CPU利用率 |
在请求返回错误(OpenAI 返回429错误编码,表示过多请求)之前的Token总数 |
LLM呼叫成本 |
每次调用需要花费的成本 |
|
基础设施成本 |
存储、网络、计算资源等成本 |
|
运维成本 |
包括:运行、维护、技术支持、监控、记录、安全措施等方面的成本 |
2.RAI指标
对于LLM来说,评价其是否存在道德、偏见、伦理等潜在风险,十分重要。RAI(Responsible AI)指标主要用于评价LLM是否是一个负责任的大模型。评价可以促进基于LLM的应用具有公平性、包容性和可靠性。
参考:https://www.microsoft.com/en-us/ai/responsible-ai
潜在伤害类别 |
样本评价数据集的伤害描述 |
有害内容 |
自残 |
憎恨 |
|
性行为 |
|
暴力 |
|
公平 |
|
攻击 |
|
系统失控,导致有害内容 |
|
合规性 |
版权 |
隐私和安全 |
|
第三方内容监管 |
|
与高度监管领域相关的建议,例如医疗、金融和法律 |
|
的恶意软件的生成 |
|
危害安全系统 |
|
幻觉 |
无根据的内容:非事实 |
无根据的内容:冲突 |
|
基于共同世界知识的幻觉 |
|
其他 |
透明度 |
问责制:生成内容缺乏出处(生成内容的来源和更改可能无法追踪) |
|
服务质量(QoS)差异 |
|
包容性:刻板印象,贬低,或过度和低估社会群体 |
|
可靠性和安全性 |
3.基于应用场景的评估指标
不同的行业对LLM的要求不相一致,因此对LLM的评价指标也会有所差别。在大模型行业落地过程中,根据应用场景定制评价指标体系对最终应用效果至关重要。例如:在医疗领域,关乎人命,大模型应用在疾病、用药、诊断等方面准确性的要求会更高;在金融方面,大模型在逻辑推理、计算等方面的能力就很重要;而在“闲聊”应用场景,就相对的专业性、严谨性没有那么严格。
4.文档摘要能力评估指标
类型 |
度量 |
描述 |
参考资料 |
基于重叠的度量 |
BLEU |
BLEU评分是一种基于精度的衡量标准,范围从0到1。值越接近1,预测越好。 |
|
ROUGE |
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一套用于评估自然语言处理中自动摘要和机器翻译软件的度量标准和附带的软件包。 |
||
ROUGE-N |
测量候选文本和参考文本之间的n-gram(n个单词的连续序列)的重叠。它根据n-gram重叠计算精度,召回率和F1分数。 |
https://github.com/google-research/google-research/tree/master/rouge |
|
ROUGE-L |
测量候选文本和参考文本之间的最长公共子序列(LCS)。它根据LCS的长度计算精确率、召回率和F1分数。 |
https://github.com/google-research/google-research/tree/master/rouge |
|
METEOR |
一种机器翻译评估的自动度量,其基于机器生成的翻译和人类生成的参考翻译之间的单字匹配的广义概念。 |
||
基于语义相似性的度量 |
BERTScore |
利用BERT中预先训练的上下文嵌入,并通过“余弦相似度”匹配候选句子和参考句子中的单词。 |
|
MoverScore |
基于上下文向量和距离的文本生成评估。 |
https://paperswithcode.com/paper/moverscore-text-generation-evaluating-with |
|
擅长总结 |
SUPERT |
无监督多文档摘要评估和生成。 |
|
BLANCBlanc |
摘要质量的无引用度量,用于衡量在访问和不访问摘要的情况下屏蔽语言建模性能的差异。 |
||
FactCC |
文摘文本摘要的事实一致性评价指标 |
||
其他 |
Perplexit y (困惑) |
在分析文本样本时,困惑度是语言模型预测准确性的统计指标。简而言之,它衡量了模型在遇到新数据时的“惊讶”程度。较低的困惑值表示模型对文本分析的预测准确度较高。 |
5.问答样本评估指标
QA评估指标主要用于衡量基于LLM的应用系统在解决用户问答方面的有效性。
度量 |
描述 |
参考资料 |
QAEval |
基于问答的度量,用于估计摘要的内容质量。 |
https://github.com/danieldeutsch/sacrerouge/blob/master/doc/metrics/qaeval.md |
QAFactEval |
基于QA的事实一致性评价。 |
|
QuestEval |
一种NLG指标,用于评估两个不同的输入是否包含相同的信息。它可以处理多模式和多语言输入。 |
6.实体识别指标
实体识别(NER)是对文本中特定实体进行识别和分类的一种任务。评估NER,对于确保信息的准确提取,对需要精确实体识别的应用系统非常重要。
度量 |
描述 |
参考资料 |
分类度量指标 |
实体级别或模型级别的分类指标(精度、召回率、准确性、F1分数等)。 |
|
解释评估指标 |
主要思想是根据实体长度、标签一致性、实体密度、文本的长度等属性将数据划分为实体的桶,然后在每个桶上分别评估模型。 |
https://github.com/neulab/InterpretEvalhttps://arxiv.org/pdf/2011.06854.pdf |
7.文本转SQL
通过大模型实现文本转SQL,在一些对话式的数据分析、可视化、智能报表、智能仪表盘等场景中经常被用到,文本转SQL是否有效性取决于LLM能否熟练地概括各种自然语言问题,并灵活地构建新的SQL查询语句。想要确保系统不仅在熟悉的场景中表现良好,并且在面对不同的语言表达风格的输入、不熟悉的数据库结构和创新的查询格式时还依然表现出准确性。需要全面评估文本到SQL系统方面能否发挥作用。
度量 |
描述 |
Exact-set-match accuracy (EM) |
EM根据其相应的基本事实SQL查询来评估预测中的每个子句。然而,一个限制是,存在许多不同的方式来表达SQL查询,以达到相同的目的。 |
Execution Accuracy (EX) |
EX根据执行结果评估生成的答案的正确性。 |
VES (Valid Efficiency Score) |
VES是一个用于测量效率以及所提供SQL查询的通常执行正确性的度量标准。 |
8.RAG系统
RAG(Retrieval-Augmented Generation)是一种自然语言处理(NLP)模型架构,它结合了检索和生成方法的元素。通过将信息检索技术与文本生成功能相结合来增强大语言模型的性能。评估RAG检索相关信息、结合上下文、确保流畅性、避免偏见对提高满足用户满意度至关重要。有助于识别系统问题,指导改进检索和生成模块。
度量 |
描述 |
Faithfulness |
事实一致性:根据给定的上下文测量生成的答案与事实的一致性。 |
Answer relevance |
答案相关性:重点评估生成的答案与给定提示的相关性。 |
Context precision |
上下文精确度:评估上下文中存在的所有与实况相关的项目是否排名更高。 |
Context relevancy |
语境关联:测量检索到的上下文的相关性,根据问题和上下文计算。 |
Context Recall |
上下文召回率:测量检索到的上下文与样本答案(被视为基本事实)的一致程度。 |
Answer semantic similarity |
答案语义相似度:评估生成的答案和基础事实之间的语义相似性。 |
Answer correctness |
答案正确性:衡量生成的答案与地面实况相比的准确性。 |
五、一些评估基准
通用大模型具有多功能性,如:聊天、实体识别(NER)、内容生成、文本摘要、情感分析、翻译、SQL生成、数据分析等。下面收集了一些对这些大模型的评估基准。
基准 |
描述 |
参考资料 |
GLUE基准 |
GLUE(General Language Understanding Evaluation)提供了一组标准化的各种NLP任务,以评估不同大语言模型的有效性。 |
|
SuperGLUE基准 |
提供比起GLUE更具挑战性、多样化,更全面的任务。 |
|
HellaSwag |
评估LLM完成句子的能力。 |
https://rowanzellers.com/hellaswag/ https://github.com/rowanz/hellaswag/tree/master/hellaswag_models#submitting-to-the-leaderboard |
TruthfulQA |
评测模型的回答是否真实性。 |
|
MMLU |
评估LLM可以处理大规模多任务的能力。 |
|
ARC |
AI2数据集分为两个分区:“简单”和“挑战”,其中后一个分区包含需要推理的更困难的问题。大多数问题有4个答案选择,1%的问题有3个或5个答案选择。 |
QAEval是什么 如何计算?
QAEval 是什么?
QAEval 是一个用于评估问答系统的自动化评估方法,特别是在自然语言处理(NLP)领域中。它主要用于评估一个系统生成的答案的质量,通过比较系统的答案与人类提供的参考答案。QAEval 通过多种指标来评估答案的相关性和信息的完整性。如何计算 QAEval?
QAEval 的计算通常涉及以下几个步骤:1. 生成问题:从参考文本中自动生成问题,这些问题通常围绕文本中的关键信息点构建。
2. 生成答案:使用问答系统来回答这些问题,生成答案。
3. 评估答案:将生成的答案与人类生成的参考答案进行比较。这一步通常涉及多个子指标,如:
- 精确度:评估系统答案中正确信息的比例。
- 召回率:评估系统答案覆盖参考答案中信息的程度。
- F1分数:精确度和召回率的调和平均,提供一个单一的性能度量。
实际应用
在实际应用中,QAEval 可以通过以下方式实现:- 自动问答生成:使用算法从给定的文本中提取关键句子或信息点,并围绕这些信息点生成问题。
- 答案生成与评估:使用问答系统回答这些问题,并将答案与人工准备的标准答案进行比较。
- 综合评分:根据比较结果,计算各种评估指标,如精确度、召回率和F1分数,以及可能的其他指标如BLEU或ROUGE分数。
注意事项
- 问题的质量:自动生成的问题的质量直接影响评估的准确性。问题需要足够具体且与文本内容紧密相关。
- 参考答案的质量:高质量的参考答案是进行有效评估的关键。参考答案应全面覆盖问题的所有可能答案。
- 评估工具的选择:选择合适的评估工具和指标对于获得有意义的评估结果至关重要。
评估答案:将生成的答案与人类生成的参考答案进行比较。这一步通常涉及多个子指标,如:
精确度:评估系统答案中正确信息的比例。
召回率:评估系统答案覆盖参考答案中信息的程度。
F1分数:精确度和召回率的调和平均,提供一个单一的性能度量。 ==》具体如何量化计算呢?
1. 精确度 (Precision)
精确度是指系统生成答案中正确信息的比例。具体计算方法如下:- True Positives (TP): 系统答案中正确的信息点数。
- False Positives (FP): 系统答案中错误的信息点数。 Precision=TPTP+FPPrecision=TP+FPTP
2. 召回率 (Recall)
召回率是指系统答案覆盖参考答案中信息的程度。具体计算方法如下:- True Positives (TP): 系统答案中正确的信息点数。
- False Negatives (FN): 参考答案中的信息点未被系统答案覆盖。 Recall=TPTP+FNRecall=TP+FNTP
3. F1分数 (F1 Score)
F1分数是精确度和召回率的调和平均,提供一个单一的性能度量。计算公式如下: F1 Score=2×Precision×RecallPrecision+RecallF1 Score=2×Precision+RecallPrecision×Recall实际操作步骤
为了进行这些计算,你需要首先定义和标注以下内容:- 参考答案:由人类专家提供,包含对于给定问题正确的所有可能答案。
- 系统答案:由问答系统生成的答案。
注意事项
- 信息点的定义:确保信息点的定义清晰且一致,以便准确匹配。
- 语义匹配:在进行信息点匹配时,考虑使用高级的NLP工具来理解语义相似性,而不仅仅是字面匹配。
- 多样性和全面性:确保参考答案足够全面,覆盖所有可能的正确信息点,以便进行有效的评估。
通过这种方法,可以量化地评估问答系统的性能,特别是其在理解和生成答案方面的能力。
如果是有1000个问答,那么是统计这1000个回答的信息点,并计算TP、FP、TN、FN吗?
是的,如果有1000个问答对,整个评估过程涉及对这1000个问题的每一个问题的答案进行分析,统计信息点,并计算每个问题的True Positives (TP), False Positives (FP), True Negatives (TN), 和 False Negatives (FN)。然而,在问答系统的评估中,通常不涉及True Negatives (TN)的计算,因为这个指标在问答系统中不容易定义,主要关注的是TP, FP, 和FN。步骤概述
1. 问题和答案的准备:- 准备1000个问题及其对应的参考答案。
- 使用问答系统生成这1000个问题的答案。
- 对于每个参考答案和系统生成的答案,标注出所有的关键信息点。
- 对于每个问题,比较系统答案和参考答案中的信息点。
- 确定哪些信息点是正确匹配的(TP),哪些是系统错误添加的(FP),以及哪些是系统遗漏的(FN)。
- 对所有1000个问题,累计TP, FP, 和FN的数量。
- 根据累计的TP, FP, 和FN计算整体的精确率(Precision)、召回率(Recall)和F1分数。
计算公式
- 精确率 (Precision): Precision=Total TPTotal TP+Total FPPrecision=Total TP+Total FPTotal TP
- 召回率 (Recall): Recall=Total TPTotal TP+Total FNRecall=Total TP+Total FNTotal TP
- F1分数 (F1 Score): F1 Score=2×Precision×RecallPrecision+RecallF1 Score=2×Precision+RecallPrecision×Recall
注意事项
- 一致性:确保信息点的标注在所有问题中保持一致,以便公平地评估系统的性能。
- 细致分析:对于表现不佳的问题,进行详细分析,找出系统的弱点和错误模式。
- 改进和迭代:使用评估结果来指导问答系统的进一步开发和改进。
通过这种方法,可以对问答系统的整体性能进行全面的评估,了解系统在实际操作中的表现,并找到改进的方向。
QAFactEval 如何计算?
QAFactEval 是一个评估问答系统的工具,特别是用于评估系统生成的答案在事实准确性方面的表现。这种评估方法主要关注于答案中的事实信息是否准确、完整,并且与参考答案或真实世界的事实相符合。
计算 QAFactEval 的步骤
1. 准备数据:- 问题集:选择或创建一个包含多个问题的数据集。
- 参考答案:为每个问题准备一个或多个准确的参考答案,这些答案应包含正确的事实信息。
- 使用待评估的问答系统回答问题集中的每个问题,记录系统的答案。
- 从系统答案和参考答案中提取关键事实。这通常需要自然语言处理工具,如命名实体识别(NER)或关键短语提取。
- 比较系统答案中的事实与参考答案中的事实。这包括检查事实的存在性(是否被提及)和准确性(是否正确无误)。
- 精确度 (Precision):系统答案中正确事实的比例。
- 召回率 (Recall):参考答案中的事实被系统答案正确覆盖的比例。
- F1分数 (F1 Score):精确度和召回率的调和平均值。
具体计算公式
- 精确度 (Precision): Precision=Number of correct facts in system answersTotal number of facts in system answersPrecision=Total number of facts in system answersNumber of correct facts in system answers
- 召回率 (Recall): Recall=Number of correct facts in system answersTotal number of facts in reference answersRecall=Total number of facts in reference answersNumber of correct facts in system answers
- F1分数 (F1 Score): F1 Score=2×Precision×RecallPrecision+RecallF1 Score=2×Precision+RecallPrecision×Recall
注意事项
- 事实的定义:明确什么构成一个“事实”,并确保在提取和匹配过程中保持一致性。
- 工具的选择:选择合适的NLP工具来提取和比较事实,这对于评估的准确性至关重要。
- 多样性和全面性:确保参考答案足够全面,覆盖所有可能的正确事实,以便进行有效的评估。
QuestEval 如何计算?
QuestEval 是一个评估生成文本(如问答系统的回答或文本生成任务的输出)质量的自动化指标。它通过生成问题和答案来评估文本的信息完整性和准确性。QuestEval 的核心思想是,如果生成的文本能够用来生成问题,这些问题的答案又能被正确回答,那么这段文本就被认为是高质量的。
计算 QuestEval 的步骤
1. 文本输入:- 对于问答系统,输入是一个问题和系统生成的答案。
- 对于文本生成任务,输入是系统生成的文本。
- 从输入的文本(系统的回答或生成的文本)中自动生成问题。这些问题应该能够覆盖文本中的关键信息点。
- 使用同一个系统或另一个专门的问答系统来回答这些自动生成的问题。
- 对于问答系统,参考答案通常是针对原始问题的标准答案。
- 对于文本生成任务,参考答案可能是原始文本或相关信息源。
- 将系统生成的答案与参考答案进行比较,评估其准确性和完整性。
- 使用自然语言处理工具计算生成的问题和答案之间的一致性、相关性和准确性。
- 常用的评估指标包括BLEU、ROUGE和BERTScore等,这些指标可以帮助评估文本的语义相似性。
实现细节
- 问题生成器:使用先进的NLP模型(如T5, GPT等)来生成与文本内容相关的问题。
- 答案生成器:同样使用NLP模型来生成问题的答案。
- 评估模块:使用文本相似度评估工具(如BLEU, ROUGE, BERTScore)来比较生成答案与参考答案的相似度。
注意事项
- 生成问题的质量:问题的质量对评估结果有重大影响。问题需要准确反映文本的关键内容。
- 答案的准确性:生成的答案需要准确地回答生成的问题,这是评估生成文本质量的关键。
- 综合评估:QuestEval 提供了一个综合评估框架,但应与其他评估指标结合使用,以获得更全面的评估结果。
Exact-set-match accuracy (EM) 如何计算?
Exact Match (EM) 或 Exact-set-match accuracy 是一种常用于评估问答系统的指标,特别是在机器阅读理解任务中。它衡量的是系统生成的答案与参考答案是否完全一致。
计算 Exact Match 的步骤
1. 答案标准化:- 在比较之前,通常需要对答案进行标准化处理,以消除大小写、空格、标点符号等外在因素的影响。例如,将所有字符转换为小写,去除多余的空格和标点符号。
- 对于每个问题,将系统生成的答案与参考答案进行直接比较。
- 如果系统答案与参考答案在标准化后完全一致,则认为这个问题的答案是正确的。
- 计算所有问题中答案完全匹配的比例。 Exact Match (EM)=Number of questions with exact matchesTotal number of questionsExact Match (EM)=Total number of questionsNumber of questions with exact matches
示例
假设有一个问答任务包含以下三个问题及其答案:- 问题1: What is the capital of France?
- 参考答案: Paris
- 系统答案: paris
- 问题2: Who wrote Hamlet?
- 参考答案: William Shakespeare
- 系统答案: Shakespeare
- 问题3: What is the boiling point of water?
- 参考答案: 100 degrees Celsius
- 系统答案: 100 degrees Celsius
注意事项
- 答案的多样性:在某些情况下,一个问题可能有多个正确答案。这时,系统答案需要与参考答案集中的任何一个答案完全匹配才算正确。
- 标准化的重要性:正确的标准化处理对于准确计算EM至关重要,因为它可以消除不必要的差异。
- 评估的局限性:EM是一个严格的评估标准,它不考虑部分正确的答案。因此,它通常与其他指标(如F1分数)结合使用,以获得更全面的性能评估。
Execution Accuracy (EX) 如何计算?
Execution Accuracy (EX) 是一种评估问答系统的指标,特别是在涉及到基于知识库或数据库的问答系统中。这种指标衡量的是系统生成的查询是否能正确执行并返回正确的结果。计算 Execution Accuracy 的步骤
1. 查询生成:- 对于每个问题,问答系统需要生成一个查询(通常是SQL查询或其他数据库查询语言),这个查询将被用来从知识库或数据库中检索信息。
- 执行系统生成的查询,并记录查询的执行结果。
- 将查询结果与预期的正确结果进行比较。这通常需要有一个标准答案或正确的结果集作为参考。
- 对所有问题,统计查询正确执行并返回正确结果的次数。 Execution Accuracy (EX)=Number of correct executionsTotal number of queriesExecution Accuracy (EX)=Total number of queriesNumber of correct executions
示例
假设有一个基于数据库的问答系统,处理以下三个问题:- 问题1: "列出所有在2020年发布的电影。"
- 生成的查询: SELECT * FROM movies WHERE year = 2020
- 执行结果: 返回了所有2020年的电影列表
- 正确结果: 返回了所有2020年的电影列表
- 问题2: "谁是《肖申克的救赎》的导演?"
- 生成的查询: SELECT director FROM movies WHERE title = 'The Shawshank Redemption'
- 执行结果: 返回了正确的导演名字
- 正确结果: 返回了正确的导演名字
- 问题3: "哪些电影的票房超过1亿美元?"
- 生成的查询: SELECT * FROM movies WHERE box_office > 100000000
- 执行结果: 返回了部分正确的电影列表
- 正确结果: 返回了所有票房超过1亿美元的电影列表
注意事项
- 查询的准确性:生成的查询需要语法正确且逻辑准确,以确保能够正确执行。
- 结果的完整性:返回的结果需要与正确的结果完全一致,包括所有正确的记录且不包含错误的记录。
- 系统的健壮性:系统应能处理各种复杂的查询,并准确返回结果。
Execution Accuracy 是一个重要的指标,特别是在问答系统需要与数据库交互时。它不仅衡量了查询的准确性,还考察了系统在实际操作中的有效性。
实体级别或模型级别的分类指标 如何计算?
在自然语言处理(NLP)中,实体级别或模型级别的分类指标主要用于评估实体识别(Named Entity Recognition, NER)任务或其他分类任务的性能。这些指标包括精确率(Precision)、召回率(Recall)和F1分数(F1 Score)。下面是这些指标的计算方法:
精确率 (Precision)
精确率是指在所有模型识别为特定类别的实例中,正确识别的比例。对于实体识别,它衡量的是正确识别的实体数占模型识别出的总实体数的比例。 Precision=True Positives (TP)True Positives (TP) + False Positives (FP)Precision=True Positives (TP) + False Positives (FP)True Positives (TP)召回率 (Recall)
召回率是指在所有真实为特定类别的实例中,被模型正确识别的比例。对于实体识别,它衡量的是正确识别的实体数占所有真实实体数的比例。 Recall=True Positives (TP)True Positives (TP) + False Negatives (FN)Recall=True Positives (TP) + False Negatives (FN)True Positives (TP)F1分数 (F1 Score)
F1分数是精确率和召回率的调和平均,通常用于在精确率和召回率之间取得平衡,特别是当两者之间存在权衡时。 F1 Score=2×Precision×RecallPrecision+RecallF1 Score=2×Precision+RecallPrecision×Recall实体级别的计算
在实体级别的评估中,一个实体被视为正确识别的条件通常是实体的边界和类型都必须完全匹配。例如,如果一个实体“纽约”被标注为地点,模型也必须将“纽约”完整地识别为地点才算一个真正例(TP)。模型级别的计算
在模型级别的评估中,通常会计算模型在所有类别上的平均精确率、召回率和F1分数。这可以通过对每个类别单独计算这些指标,然后取平均值来实现。在某些情况下,也可以计算加权平均,其中每个类别的权重与其在数据集中的出现频率成比例。注意事项
- 边界匹配:在实体识别中,正确的边界识别是评估的关键部分。
- 类别匹配:实体不仅要在边界上匹配,其类别也必须正确。
- 数据不平衡:在存在类别不平衡的数据集中,单纯的精确率和召回率可能不足以全面反映模型的性能,此时F1分数尤为重要。
实体级别的计算 举一个完整的例子呢
让我们通过一个具体的例子来说明如何在实体识别(Named Entity Recognition, NER)任务中计算实体级别的精确率(Precision)、召回率(Recall)和F1分数(F1 Score)。
示例场景
假设我们有一段文本:“苹果公司位于加利福尼亚州的库比蒂诺。” 我们的任务是识别出所有的组织(ORG)和地点(LOC)实体。真实标注(Ground Truth)
- 组织(ORG): ["苹果公司"]
- 地点(LOC): ["加利福尼亚州", "库比蒂诺"]
系统输出
- 组织(ORG): ["苹果"]
- 地点(LOC): ["加利福尼亚州", "库比蒂诺"]
计算步骤
1. 真正例(True Positives, TP):系统正确识别的实体数。- 对于地点(LOC),系统正确识别了“加利福尼亚州”和“库比蒂诺”。
- 对于组织(ORG),系统没有完全正确识别“苹果公司”,只识别了“苹果”。
- 对于组织(ORG),“苹果”是一个不完整的实体,因此可以视为一个FP。
- 对于组织(ORG),由于“苹果公司”没有被完整识别,这算作一个FN。
计算指标
- 精确率(Precision): PrecisionLOC=22=1.0(完全正确)PrecisionLOC=22=1.0(完全正确) PrecisionORG=01=0.0(因为“苹果”不完整)PrecisionORG=10=0.0(因为“苹果”不完整)
- 召回率(Recall): RecallLOC=22=1.0(完全正确)RecallLOC=22=1.0(完全正确) RecallORG=01=0.0(“苹果公司”未完整识别)RecallORG=10=0.0(“苹果公司”未完整识别)
- F1分数(F1 Score): F1LOC=2×1.0×1.01.0+1.0=1.0F1LOC=2×1.0+1.01.0×1.0=1.0 F1ORG=2×0.0×0.00.0+0.0=0.0(由于分母为0,实际应用中可能需要特殊处理)F1ORG=2×0.0+0.00.0×0.0=0.0(由于分母为0,实际应用中可能需要特殊处理)
结论
在这个例子中,系统在地点识别上表现完美,但在组织识别上完全失败。这种计算方法强调了实体的完整性和精确匹配的重要性,对于评估NER系统的实际效能非常关键。QAEval 是什么?
QAEval 是一个用于评估问答系统的自动化评估方法,特别是在自然语言处理(NLP)领域中。它主要用于评估一个系统生成的答案的质量,通过比较系统的答案与人类提供的参考答案。QAEval 通过多种指标来评估答案的相关性和信息的完整性。如何计算 QAEval?
QAEval 的计算通常涉及以下几个步骤: 1. 生成问题:从参考文本中自动生成问题,这些问题通常围绕文本中的关键信息点构建。 2. 生成答案:使用问答系统来回答这些问题,生成答案。 3. 评估答案:将生成的答案与人类生成的参考答案进行比较。这一步通常涉及多个子指标,如:- 精确度:评估系统答案中正确信息的比例。
- 召回率:评估系统答案覆盖参考答案中信息的程度。
- F1分数:精确度和召回率的调和平均,提供一个单一的性能度量。
实际应用
在实际应用中,QAEval 可以通过以下方式实现:- 自动问答生成:使用算法从给定的文本中提取关键句子或信息点,并围绕这些信息点生成问题。
- 答案生成与评估:使用问答系统回答这些问题,并将答案与人工准备的标准答案进行比较。
- 综合评分:根据比较结果,计算各种评估指标,如精确度、召回率和F1分数,以及可能的其他指标如BLEU或ROUGE分数。
注意事项
- 问题的质量:自动生成的问题的质量直接影响评估的准确性。问题需要足够具体且与文本内容紧密相关。
- 参考答案的质量:高质量的参考答案是进行有效评估的关键。参考答案应全面覆盖问题的所有可能答案。
- 评估工具的选择:选择合适的评估工具和指标对于获得有意义的评估结果至关重要。