首页 > 其他分享 >人工评估 | 技巧与提示

人工评估 | 技巧与提示

时间:2024-12-19 14:42:24浏览次数:4  
标签:偏差 技巧 人工 模型 任务 评估 标注

技巧与提示

这是 人工评估 系列文章的第三篇《技巧与提示》,全系列包括:

  • 基础概念
  • 人工标注员
  • 技巧与提示

建议阅读本文之前先阅读 "Using human annotators" 部分。本文将介绍使用人工标注构建评估数据集时的一些实用建议。

任务设计

  • 简单至上:标注任务避免不必要的复杂。将标注员的认知负担降低到最低有助于确保他们保持专注,从而提高标注质量。

  • 检查信息:标注任务避免引入不必要的信息。仅提供任务必需的信息即可,确保不对标注员产生额外偏见。

  • 内容简化:事物的展示位置和方式差异都可能导致额外的工作量和认知负担,进而影响标注质量。例如文本和任务在同一个页面展示就能避免不必要的滚动操作,再或者多个串行任务结合时可以按顺序展示。请仔细思考你的标注工具中所有内容的展示方式,看看是否还有简化空间。

  • 测试设置:任务设计以及标注指引完成之后,确保先在少量样本上自行测试通过,再邀请整个标注团队参与,并根据需要进行迭代。

标注过程

  • 独立标注:为避免标注员的个人偏见在团队内传播而导致结果偏差,标注员在任务过程中应做到:不互相帮助、不借鉴答案。标注指引的对齐原则应贯穿任务始终,需使用独立数据集培训新标注员或者采用标注间一致性指标来保证整个标注团队的结果一致。

  • 版本一致:如果标注文档需要重大更新 (例如,定义或指令更改、添加或删除标签),则要决定是否对已标注的数据进行迭代,最少也得对更改的数据集进行版本追踪,可以使用如 guidelines-v1 的元数据值。

混合人机标注

人工标注固然优势很大,但有时候标注团队会受到一些限制,如时间和资源。此时,可以部分利用模型来提高标注效率。

  • 模型辅助标注:可以使用模型的预测或生成结果作为预标注,来避免标注团队从零开始。需要注意的是这可能会引入模型偏差,例如模型的准确率较低时反而会增加标注工作量。

  • 监督模型评估:可以将模型评估 (参考 “Model as a judge” 页面) 和人工监督的方法论相结合来对结果进行验证或丢弃。需要注意引入的偏差 (参考 “人工评估的优劣势” 部分)。

  • 识别边缘案例:为使任务更加高效,可以先用一组模型初步判断,待模型意见偏差过大或正反平局时再引入人工监督员。同样需要注意引入的偏差 (参考 “人工评估的优劣势” 部分)。

端到端教程

如果你想完整的构建自己的评估任务,可以参考 Argilla 出品的 实用评估教程,文中详细介绍了使用 Argilladistilabel 进行合成数据、人工评估等来构建特定领域的评估任务。构建完成后可以使用 lighteval 库进行评估。


原文链接: https://github.com/huggingface/evaluation-guidebook/blob/main/contents/human-evaluation/using-human-annotators.md

作者: clefourrier

译者: SuSung-boy

审校: adeenayakup

标签:偏差,技巧,人工,模型,任务,评估,标注
From: https://www.cnblogs.com/huggingface/p/18617221

相关文章

  • 【数据分析:超实用的pandas语法技巧(一)】
    前言:......
  • 基于 SSM 与 Vue 构建的电脑测评系统:提升评估精准度
    3系统分析3.1可行性分析通过对本基于SSM框架的电脑测评系统实行的目的初步调查和分析,提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。3.1.1技术可行性本基于SSM框架的电脑测评系统采用JAVA作为开发语言,SSM框架,......
  • 未来3-5年产品岗的逆袭法宝!人工智能AI产品经理入门到进阶,全链路学习指南
    相识即缘分:希望针对【AI产品经理】这个领域,整理一些可学习参考的内容和案例,经过我2个多月的整理和制作,也链接了不少圈内的产品好朋友获取的干货资源。终于给大家准备好了**【AI产品经理知识库】里面几乎涵盖了目前AI人工智能产品经理,**需要掌握的基础入门和进阶内容**......
  • 人工智能与基因编辑技术在高效作物培育中的应用
    一、引言在当今科技飞速发展的时代,人工智能(AI)和基因编辑技术成为了推动农业变革的两大关键力量。随着全球人口的不断增长和对粮食需求的日益增加,培育高效作物成为解决粮食安全和可持续发展问题的重要途径。人工智能和基因编辑技术的结合为实现这一目标带来了前所未有的机遇。......
  • PM2.5(细颗粒物)是空气质量监测中的一个重要指标,主要是指空气中直径小于或等于2.5微米的
    PM2.5英文全称:PM2.5代表ParticulateMatter2.5。ParticulateMatter(PM) 指的是悬浮在空气中的微小固体颗粒或液滴。2.5 表示这些颗粒的直径为 2.5微米或更小。PM2.5简称:PM2.5是常用来表示直径为2.5微米或更小的颗粒物的缩写。这个术语广泛应用于环境科学、空......
  • 《C++与 Armadillo:线性代数助力人工智能算法简化之路》
    在人工智能领域,线性代数运算可谓是构建各类模型与算法的基石。从神经网络中的矩阵乘法、向量运算,到数据处理中的特征分解、奇异值分解等,无一不依赖高效且精准的线性代数计算。而C++作为一种强大且高效的编程语言,在人工智能开发中有着独特的地位。Armadillo库的出现,则为在......
  • 拿到一篇论文,如何查看该论文提交到arXiv上的时间【科研小技巧】
    1、打开arXiv官方网站:https://arxiv.org/。2、在右上角的搜索框输入要检索的文章标题并进行检索,以UnderstandingDiffusionModels:AUnifiedPerspective这篇论文为例。3、检索到文章后,可以看到文章标题的正上方有个[Submittedon25Aug2022],表示该文章在2022年8月25日提......
  • 数据结构维护技巧(长期更新)
    拜谢lxl维护函数复合大概是每个位置上有一个函数\(f(x)\),给出\([L,R]\)和初值\(v\),算\(f_R(f_{R-1}(\dotsf_L(v)\dots))\)。有个东西叫插入-标记-回收算法。首先将所有询问离线,然后拿扫描线扫一遍序列。维护一个集合\(S\),存每个询问的结果。插入:扫到\(i\)后,如果这个地方是......
  • 2025年最新Instagram防封攻略:常见封号原因及预防技巧
      Instagram作为全球最大的社交媒体平台之一,对于内容创作者和品牌来说,是不可忽视的营销渠道。然而,账号安全问题始终是用户关注的焦点。本文将深入探讨2025年Instagram账号被封的常见原因,并提供有效的预防技巧,帮助你保护账号安全,避免不必要的麻烦。一、常见封号原因1.短时......
  • 2025年最新Instagram防封攻略:常见封号原因及预防技巧
      Instagram作为全球最大的社交媒体平台之一,对于内容创作者和品牌来说,是不可忽视的营销渠道。然而,账号安全问题始终是用户关注的焦点。本文将深入探讨2025年Instagram账号被封的常见原因,并提供有效的预防技巧,帮助你保护账号安全,避免不必要的麻烦。一、常见封号原因1.短时......