首页 > 其他分享 >人工评估 | 人工标注员

人工评估 | 人工标注员

时间:2024-12-13 13:31:39浏览次数:4  
标签:指南 人工 任务 筛选 评估 标注

人工标注员

这是 人工评估 系列文章的第二篇《人工标注员》,全系列包括:

  • 基础概念
  • 人工标注员
  • 技巧与提示

推荐阅读 这篇综述 的第三章,介绍了许多数据标注质量管理的实践经验。如果你追求的是生产级的质量,并且具备实施条件,那么请继续阅读吧!

Best_annotation_practices

无论项目规模多大,一旦定义了具体的评估任务和打分细则,请注意:

  • 选择合适的标注员,如果可能的话提供经济激励
    你可能希望参与任务的标注员具有以下品质:
  1. 符合特定的人口统计特征。
    例如:母语是测试目标语言、较高的教育水平、特定领域的专业知识、多样化的地域背景等。
    根据评估任务不同,对标注员统计特征需求也不一样。
  2. 提供高质量标注。
    有些任务中筛选合适的标注员很重要,比如近期有一种任务是检查回答是否是 LLM 生成的。
    个人认为,除非你众包标注员有强烈的自我驱动意识,否则一般还是支付合理的费用更好。
  • 设计标注准则
    请务必深入思考制定标注准则,非常值得花费大量时间去做!我们在制作 GAIA 数据集时的耗时最多的地方就是这里。

  • 迭代标注
    很多时候标注员会误解标注指南 (他们的想法可能比你想象的更模棱两可),所以要做好多轮迭代标注的准备,来不断改进直到达到你的需求。

    • 质量检查手动筛选
      你需要仔细检查答案的质量 (检查标注员间的答案一致性),并筛选出质量最优、相关性最高的答案。

你也可以使用专用工具来构建高质量标注数据集,如 Argilla

深入阅读推荐链接:

原文链接: https://github.com/huggingface/evaluation-guidebook/blob/main/contents/human-evaluation/using-human-annotators.md

作者: clefourrier

译者: SuSung-boy

审校: adeenayakup

标签:指南,人工,任务,筛选,评估,标注
From: https://www.cnblogs.com/huggingface/p/18604738

相关文章

  • 人工智能大语言模型起源篇(二),从通用语言微调到驾驭LLM
    上一篇:《人工智能大语言模型起源篇(一),从哪里开始》(5)Howard和Ruder于2018年发表的《UniversalLanguageModelFine-tuningforTextClassification》,https://arxiv.org/abs/1801.06146这篇论文从历史的角度来看非常有意思。尽管它是在原始的《AttentionIsAllYouNeed》变......
  • 计算机毕业设计Python+知识图谱大模型AI医疗问答系统 健康膳食推荐系统 食谱推荐系统
    温馨提示:文末有CSDN平台官方提供的学长联系方式的名片!温馨提示:文末有CSDN平台官方提供的学长联系方式的名片!温馨提示:文末有CSDN平台官方提供的学长联系方式的名片!作者简介:Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO......
  • 计算机毕业设计Python+知识图谱大模型AI医疗问答系统 健康膳食推荐系统 食谱推荐系统
    温馨提示:文末有CSDN平台官方提供的学长联系方式的名片!温馨提示:文末有CSDN平台官方提供的学长联系方式的名片!温馨提示:文末有CSDN平台官方提供的学长联系方式的名片!作者简介:Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO......
  • 2024年如何通过Risk Matrix进行项目风险评估?有效管理风险的方法
    在项目管理中,风险评估和管理是至关重要的环节。随着时间的推移,新的挑战不断涌现,我们需要更加高效和精准的方法来应对项目风险。2024年,RiskMatrix(风险矩阵)成为了众多项目管理者青睐的工具,它能够帮助我们系统地评估风险,并制定有效的风险管理策略。一、RiskMatrix简介Ris......
  • 人工智能那么火~如今AI的工业应用场景都有哪些?
    在春日的和煦阳光下,老李在儿子李三的陪同下缓步穿行于曾经喧嚣的工厂车间,目睹了这座工厂从劳动密集型向技术密集型的华丽转变。昔日,工人们汗流浃背,操作着沉重的机械;而今日,智能机器人正井然有序地执行任务,精准而高效。这一切的变迁,都源自于人工智能(AI)技术的悄然渗透,它如同一股无......
  • 【论文研读】只用大模型写代码就够了?复旦发布ClassEval,首次评估LLMs类级别代码生成能
    【导读】最近很多企业和校园学生开始使用大模型编程。但是有多少人知道大模型的实际代码生成能力?这篇文章提出了一个新颖的代码生成基准测试ClassEval,专注于类级别的代码生成,这是现有基准测试中较少涉及的领域。文章详细描述了ClassEval的构建过程,并通过实验评估了11种最先......
  • 人工智能时代,财务人的自救指南
        在人工智能迅猛发展的当下,财务领域正经历着深刻变革。财务、会计这类与算数紧密相关的职业首当其冲,受到人工智能的强烈冲击。    就拿商场、门店来说,收银工作已从人工转变为机器操作。以往收银时需一件件扫码,如今只需将商品全部放入识别箱,就能批量扫码并快......
  • 光伏逆变器负载何进行负载测试和性能评估?
    光伏逆变器是光伏发电系统的关键设备,它将太阳能电池板产生的直流电转换为交流电,供给电网或用户使用。为了保证光伏逆变器的正常运行和提高其性能,需要进行负载测试和性能评估。以下是进行负载测试和性能评估的方法:负载测试的目的:负载测试主要是为了检验光伏逆变器在不同负载条件......
  • 【会议征稿 | EI高录用会议推荐】计算机科学、通信、图像、人工智能、算法、应用技术
    【会议征稿|EI高录用会议推荐】计算机科学、通信、图像、人工智能、算法、应用技术、电子信息工程等多领域…【会议征稿|EI高录用会议推荐】计算机科学、通信、图像、人工智能、算法、应用技术、电子信息工程等多领域…文章目录【会议征稿|EI高录用会议推荐】计......
  • 强化学习(人工智能) —— DDPG、TD3、SAC、SQL算法是不是Actor-Critic算法?
    强化学习算法是人工智能领域发展最为强劲的一个分支,但是很多人都将注意力放在了算法模型的发展上而忽略了其基本理论上的一些概念,本文就讨论一下强化学习算法的一些基本概念的界定上。来源:https://ai.stackexchange.com/questions/39545/why-is-soft-q-learning-not-an-acto......