首页 > 其他分享 >自动评估基准 | 设计你的自动评估任务

自动评估基准 | 设计你的自动评估任务

时间:2024-12-26 21:32:49浏览次数:2  
标签:prompt 基准 任务 自动 测试 数据 模型 评估

设计你的自动评估任务

这是 自动评估基准 系列文章的第二篇,敬请关注系列文章:

  • 基础概念
  • 设计你的自动评估任务
  • 一些评估测试集
  • 技巧与提示

选择数据集

做评估时,你可以选择现有的数据集 (参考 一些评估数据集 页面) 作为测试集,也可以设计自己的数据集。有一点非常重要,请注意:评估的结果与评估的数据集质量高度相关

使用现有的数据集

这部分强烈建议仔细阅读!

数据集需要注意的问题

样本是由谁创建的?
在我看来,按照样本的标注员素质高低,数据集质量大致排名如下:专家构建数据集 > 付费标注数据集 > 众包数据集 > MTurk 数据集。
你可以在数据集的说明文档 (data card) 找到标注员的统计信息,可以帮助理解数据集语言多样性。

  • 样本是否经过其他标注员或作者的审核?
    你需要先弄明白:

    • 不同标注员标注结果是否一致?
    • 完整数据集是否经过作者审核?
      标注员通常不是目标语言的母语使用者(例如 AWS Mechanical Turk),否则可能会出现拼写错误、语法错误或无意义的答案。
  • 是否给标注员提供了明确的数据创建指导?
    换句话说,数据集样本间的标注标准是否一致?

检查样本

随机抽取 50 个样本进行人工检查:

  • 检查质量
    • 问题是否明确且不含歧义?
    • 对应的回答是否正确?( 例如:TriviaQA 的每个问题通常包含多个标准答案,有时这些答案会相互冲突。 )
    • 信息是否完整?( 例如: MMLU 有许多问题中缺少参考示意图。 )
  • 检查与任务相关性
    • 样本问题是否是 LLM 特定评估任务的问题类型?
    • 样本是否与测试用例相关?

数据集样本数量同样重要 (以确保自动评估基准结果在统计上显著,一般至少需要 100 个测试样本)。

设计自己的数据集

有 3 种设计方法:

整合数据

要使用自己的测试集评估模型执行特定任务的能力,可以从不同的现成数据源整理和聚合。实际上有许多评估测试集都是以这种方式构建的,例如 MATH 和 LSAT 就聚合了人工评估数据集。当然在整理数据时,请遵循上文的质量与任务相关性检查步骤。

人工标注

关于 人工标注 的内容,本指南有一整个篇幅详细介绍,可以自行点击 Using human annotators 阅读。

合成数据

  • 使用 LLM 合成
    这部分可以参考 HF 员工的 Cosmopedia 博客!虽然此篇主要研究如何构建训练集,但想法和技术同样适用于构建测试集。
    合成的测试集仍需手动检查 (遵循上文步骤)。

  • 基于规则合成
    如果任务允许,这个绝佳的方法几乎可以无限获取测试样本,并且避免数据污染。
    参考 NPHardEvalDyValMuSR, BabiQA 等。

选择推理方法

除了测试集,还需要选择合适的推理方法。

对于多项选择问答任务 (通常用于测试模型的知识储备或消除歧义的能力),使用对数概率 (MCQA) 非常有效。

  • 优势:
    • 可以保证所有模型都能获取正确答案。
    • 能够提供模型 “置信度” 代理 (以及校准)。
    • 评估速度快,尤其是单 token 预测任务时 (选择索引 A/B/C/D 或 Yes/No 等)。
    • 允许获取小模型在任务表现上的信号。
  • 劣势:

对于测试模型流畅性、推理或回答问题能力的任务,使用 QA 生成非常有效。

  • 优势:
    • 与人类关心的点一致,即 LLM 生成文本是否流畅的能力。
  • 劣势:
    • 可能存在评分困难 (见下面的 度量标准 部分)。
    • 成本比对数似然评估稍高,尤其是需要采样的任务。

选择 prompt

Prompt 设计关键问题:

  • 提供给模型的关于任务的信息量大小
  • 如何向模型提供信息

MCQA 或 QA 任务的通用 prompt 设计范式一般包含以下几个部分:

  • 任务 prompt (可选):描述任务。
  • 上下文:为问题提供额外的背景信息。
    • 例如: 对于内容总结或信息提取任务,可以提供内容来源
  • 问题:prompt 的核心内容。
  • 对于多项选择评估任务,可以增加选项。
  • 连接词 (问题上下文选项等)。

定义 prompt 时需要注意:

  • 在语义等价的 prompt 中,即使非常微小的变化也可能导致巨大差异的结果 (详见 Troubleshooting reproducibilityDifferent prompt 部分),并且 prompt 格式也可能对特定模型的输出造成影响。
    • 如何缓解这一问题:
      • 高成本方法:使用不同的 prompt 变体进行多次评估。
      • 低成本方法:使用多种 prompt 格式分别分配给多个等效难度的测试样本进行单次评估。
  • 在 prompt 中提供示例可以帮助模型输出遵循预期格式,示例可以通过连接词添加至 prompt。
  • 注意模型可能倾向于对特定的 prompt 格式过拟合。
    • 这篇论文 对此有更详尽的探讨,文中展示了一些模型因在测试集 格式 上过拟合而导致的评估分数过高的情况。
    • 我们特别观察到,在 Open LLM Leaderboard 2 上, Llama 3.2 和 Qwen 2.5 出于这个原因已经不再提供 few-shot 示例的 prompt 格式。
  • 对于一些测试任务的指标,你可能希望模型的输出限制在一个小范围。
    可以跳转 Model inference and evaluation 页面的 Constraining model outputs 部分了解更多信息。

选择评估指标

如果你关注 对数概率 评估,那么你期望的度量指标会很简单:准确率 (选择最佳选项的频率)。如果在这个基础上你还想要进行标准化 (通过长度、字符、token 或 PMI),那么度量指标就会变成困惑度 (perplexity)、召回率或 F1 分数。

对于 生成式 评估,你期望的度量指标范围会更广。
为此你需要:

  1. 确定生成结果的度量顺序,是直接拿生成结果比较,还是先使用某种方式进行标准化。
    • 标准化如果设计不当,评估结果会有失偏颇 (参考这篇 博客)。但总的来说,它们都能在任务层面提供信号。
    • 标准化对某些特定任务 (例如数学能力评估) 非常重要,因为你可能需要从格式化输出中提取有效的结果。
    • 如果你想要通过添加机制 (如思维链) 来评估准确率,那么标准化同样重要,因为你需要将推理轨迹从实际结果中去除。
  2. 确定生成结果与参考答案的比较方式。
    你可以采用任意的比较方法。评估匹配程度的有:精确匹配、前缀匹配等;评估摘要和翻译能力的有:ROUGE、BLEU、n-gram 等。更多评价指标可以点击 这个页面 查看,我会在后续更新关于在何时使用哪种指标的章节。

总的来说,选择哪种评价指标取决于你的任务内容。对于某些领域 (如医疗、聊天机器人),你可能不想要评估平均性能,而是需要评估 最差表现 (如医疗知识输出质量、如果输出不实的后果等)。( 可以查看 这篇博客 深入了解 )

智能新任务:功能性测试是什么?

对于代码领域,显然仅评估生成代码的语义是不够的,必须测试代码实际运行情况。所以需要专门设计一个功能性测试:对于给定 prompt 生成的代码段,测试并评估其是否能正确通过单元测试。

这种功能性测试方法极具前景,因为:

  • 使得生成测试用例更容易 (大部分情况下都可以基于规则生成测试用例)
  • 减少过拟合
  • 可以评估模型的特定主动能力

不过很多新奇的想法需要一些创造性的工作才能实现!

IFEval 是一个不错的例子,它是用来测试模型指令遵循能力的评估基准,通过创建多个格式化指令 ( 例如:添加指定数量的特殊符号,仅将一句话字母大写,等等 ) 并严格测试生成结果的遵循与否。功能性测试的想法仍需更多的工作来扩展到其他的特征测试上!


英文原文: https://github.com/huggingface/evaluation-guidebook/blob/main/translations/zh/contents/automated-benchmarks/designing-your-automatic-evaluation.md

原文作者: clefourrier

译者: SuSung-boy

审校: adeenayakup

标签:prompt,基准,任务,自动,测试,数据,模型,评估
From: https://www.cnblogs.com/huggingface/p/18634204

相关文章

  • spring专题笔记(六):bean的自动装配(自动化注入)-根据名字进行自动装配、根据类型进行自动
    目录一、根据名字进行自动装配--byName二、根据类型进行自动装配byType本文章主要是介绍spring的自动装配机制,用代码演示spring如何根据名字进行自动装配、如何根据类型进行自动装配。代码演示,通俗易懂。一、根据名字进行自动装配--byNameUserService类中调用了UserD......
  • python的网页自动化工具DrissionPage
    一直以来用的都是Python+Selenium实现自动化。直到发现了DrissionPage,实际用过之后写脚本速度提高了100%,执行效率提高了50%。代码简洁,功能强大,Selenium代码迁移也很丝滑。 概述基于python的网页自动化工具。既能控制浏览器,也能收发数据包。可兼顾浏览器自动化的便利性和re......
  • 多微同时发朋友圈,还可以自动跟圈!
    无论是微商、自媒体运营者,还是企业营销人员,都将朋友圈视为重要的宣传渠道。但是手动在多个账号之间发圈,真的很累!今天,就来给大家介绍一款神器,它可以帮助你轻松实现多微信同时发朋友圈,并提供更多便捷功能,让你告别繁琐,高效运营!1、一键多号同时发圈它支持批量选择微信账号,一键全......
  • SpringBoot 自动装配原理
    原文链接:https://javaguide.cn/system-design/framework/spring/spring-boot-auto-assembly-principles.html作者:Miki-byte-1024&Snailclimb每次问到SpringBoot,面试官非常喜欢问这个问题:“讲述一下SpringBoot自动装配原理?”。我觉得我们可以从以下几个方面回答:......
  • Springboot课程教学评估数据分析93o9j(程序+源码+数据库+调试部署+开发环境)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表教师,学生,教学评价,课程评价开题报告内容一、选题背景与意义随着互联网技术的不断发展和普及,教育行业正经历着前所未有的变革。其中,Springboot作为Java应用开......
  • 【自动控制原理】第三章 线性系统的时域分析法(教材版)
    1.线性系统时间响应的性能指标1.1. 典型输入信号时域表达式拉普拉斯变换单位阶跃函数单位斜坡函数单位加速度函数单位脉冲函数正弦函数1.2.动态性能指标动态过程系统在典型信号输入下,系统的输出量从初始状态到最终状态的响应过程。......
  • C++ 自动化编译步骤 msys2
    本文主要讲述,在windows操作系统中,在mingw64环境下,使用python脚本来简化编译步骤。结果展示我们只需要一个简单的b命令,就可以完成cmake的一些重复性的编译操作。在之前,我们需要手动输入这些命令rm-f-rbuildmkdirbuildcmake-G"MinGWMakefiles"..mingw32-make步骤......
  • 自动评估基准 | 基础概念
    基础概念这是自动评估基准系列文章的第一篇,敬请关注系列文章:基础概念设计你的自动评估任务一些评估测试集技巧与提示注:本文内容与我写的通用评估博客存在部分重叠什么是自动评估基准?自动化基准测试通常按照以下方式工作:你希望了解你的模型在某些方面的表现。这些......
  • Vue.js组件开发-图片加载失败自动显示默认图片
    在Vue.js组件开发中,处理图片加载失败并自动显示默认图片可以通过Vue的指令和事件绑定来实现这一功能。示例:展示如何在图片加载失败时自动显示默认图片:<template><div><!--使用:src绑定图片的URL,并使用@error事件处理加载失败--><img:src="imageSrc......
  • 龙哥量化:如何把文华6技术指标转化为量化模型策略,自动化程序交易(TB交易开拓者)
    如果您需要代写技术指标公式,请联系我。龙哥QQ:591438821龙哥微信:Long622889也可以把您的通达信,文华技术指标改成TB交易开拓者、金字塔、文华8的自动交易量化策略下图是唐奇安的趋势策略。 这是趋势策略非常明显的特点,在震荡区连续亏损,在趋势区大幅盈利。核心代码也很简......