首页 > 其他分享 >让 LLM 来评判 | 选择 LLM 评估模型

让 LLM 来评判 | 选择 LLM 评估模型

时间:2025-01-14 15:32:14浏览次数:1  
标签:偏差 prompt 评判 LLM 文本 模型 评估

基础概念

这是 让 LLM 来评判 系列文章的第一篇,敬请关注系列文章:

  • 基础概念
  • 选择 LLM 评估模型
  • 设计你自己的评估 prompt
  • 评估你的评估结果
  • 奖励模型相关内容
  • 技巧与提示

什么是评估模型?

评估模型 (Judge models) 是一种 用于评估其他神经网络的神经网络。大多数情况下它们用来评估生成文本的质量。

评估模型涵盖的范围很广,从小型的特定分类器 (例如 “垃圾邮件分类器”) 到大型的 LLM,或大而广、或小而专。使用 LLM 作为评估模型时,需要提供一个 prompt 来解释对模型评分的细则 (例如:请对语句流畅度从 0 到 5 评分,0 分表示完全不可理解,…)。

使用模型作为评估工具可以对文本中复杂和细微的特性有效的评估。
例如精确匹配预测文本和参考文本的任务,只能评估模型预测正确事实或数字的能力。但要评估更开放性的经验能力 (如文本流畅水平、诗词文学质量或输入忠实程度) 则需要更复杂的评价工具。

这就是评估模型最初的切入点。

它们通常用于三大任务。

  • 为生成文本打分:使用预先定义的评分标准与范围来评估文本的某些属性 (如流畅度、有害性、一致性、说服力等)。
  • 成对比较:对比模型的两个输出,以选出在给定属性上表现更好的文本。
  • 计算文本相似度:用于评估参考文本和模型输出的匹配程度。

注:本文目前主要关注 LLM + prompt 的评估方法。不过建议你还是了解一下简单分类器评估模型的工作原理,因为这种方法在许多测试用例中都具有稳定的表现。最近也出现了一些新的有前景的方法,例如奖励模型作为评估模型 (在 这篇报告 中提出,本指南中也简单写了一篇 文章 介绍奖励模型)。

LLM 评估模型的优劣势:

优势:

  • 客观性:与人类相比,LLM 评估模型在自动化地做出经验性判断时更加客观。
  • 规模化和可复现:LLM 评估模型可以在非常大规模数据上做评估,并且评估结果可以复现。
  • 成本较低:与支付人工标注员报酬相比,由于无需训练新模型,只要使用现有的高质量 LLM 和 prompt 就可以进行评价任务,因此评估模型成本较低。
  • 与人类判断对齐:LLM 评估结果在一定程度上与人类的判断具有相关性。

劣势:

  • LLM 评估模型看似客观,实际上具有更难被检测到的 隐藏偏差,这是因为我们无法主动地发掘这些偏差 (参考 [model-as-a-judge/Tips and tricks] 章节)。此外,缓解人类偏差可以通过设计一些内容具体或统计稳健的调查问卷的方式 (这在社会学领域已有近百年的研究),而缓解 LLM 偏差的方式就没那么成熟了。另外,使用 LLM 评估 LLM 可能会产生 “回音室效应”,即潜移默化地加强了模型的固有偏差。
  • LLM 评估模型虽然具有规模化优势,但同时也会生成大量的数据需要仔细检查。例如模型可以生成思维路径或数据推理,但产生的结果需要更多的分析。
  • LLM 评估模型在通常情况下便宜,但在某些具体任务中如需获取质量更高的评估结果而聘请专家级人工标注员,那么成本会相应增加。

如何开始?


英文原文: https://github.com/huggingface/evaluation-guidebook/blob/main/translations/zh/contents/model-as-a-judge/basics.md

原文作者: clefourrier

译者: SuSung-boy

审校: adeenayakup

标签:偏差,prompt,评判,LLM,文本,模型,评估
From: https://www.cnblogs.com/huggingface/p/18670887

相关文章

  • 京东广告生成式召回基于 NVIDIA TensorRT-LLM 的推理加速实践
    作者:京东零售陈航0000生成式推荐系统优势介绍推荐系统的主要任务是根据用户的历史行为预测其兴趣点,并向其推荐相应的商品。传统的推荐系统在处理用户请求时,会触发多个召回模块(包括热门商品召回、个性化召回、深度召回等),以召回大量候选商品。随后,系统通过相对简单的粗排模型对......
  • 初学者怎么入门大语言模型(LLM)?
    大语言模型(LLM)是一门博大精深的学科,涉及到高等数学、python编程、PyTorch/Tensorflow/Onnx等深度学习框架……然而奇妙的是,越是看上去难得要死、一辈子都学不完的技术,入门起来却越是容易。正如阿瑟·克拉克的名言:足够先进的科技看上去与魔法无异。大语言模型先进得如同魔法......
  • LLM大模型入门必读免费白皮书《从头训练大模型最佳实践》免费pdf分享
    本书介绍《CurrentBestPracticesforTrainingLLMsfromScratch》是由Weights&Biases(W&B)提供的一份关于从头开始训练大型语言模型(LLMs)的权威指南。这份白皮书深入剖析了LLMs训练的最佳实践,内容覆盖了从数据收集与处理、模型架构选择、训练技巧与优化策略,到模型评估......
  • ​​【LLM】为什么最新的 LLM 采用 MoE(专家混合)架构
    专业化必不可少医院里挤满了专家和医生,他们各有专长,解决着独特的问题。外科医生、心脏病专家、儿科医生——各种专家齐心协力提供护理,经常合作为患者提供所需的护理。我们可以通过人工智能做到同样的事情。人工智能中的混合专家(MoE)架构被定义为不同“专家”模型的混合或......
  • AI教学分析课堂质量评估系统
    AI教学分析课堂质量评估系统能够实时监测课堂教学活动的诸多细节,AI教学分析课堂质量评估系统通过现场的监控摄像机可精准捕捉师生的面部表情,分析其情绪状态,从而判断学生对课程内容的兴趣程度以及教师的情绪投入情况。同时,借助先进的语音识别功能,系统能实时转录课堂上的师生对话,分......
  • 招聘人力资源专员,HR应该如何考察评估候选人?
    人力资源部门是企业的组织核心支柱,其主要作用是吸引、发展和保留人才,而人力资源专员作为这一职能的关键执行者,一定要具备更强的专业能力和个人素质。那么,究竟如何利用人才测评工具来考察候选人,选到更专业的人力资源专员呢?明确评估标准HR一定要清楚地知道人力资源专员的具体......
  • LLM大模型实践10-聊天机器人
    大型语言模型带给我们的激动人心的一种可能性是,我们可以通过它构建定制的聊天机器人(Chatbot),而且只需很少的工作量。在这一章节的探索中,我们将带你了解如何利用会话形式,与具有个性化特性(或专门为特定任务或行为设计)的聊天机器人进行深度对话。像ChatGPT这样的聊天模型实际......
  • 机器学习模型评估指标
    模型的评估指标是衡量一个模型应用于对应任务的契合程度,常见的指标有:准确率(Accuracy):正确预测的样本数占总样本数的比例。适用于类别分布均衡的数据集。精确率(Precision):在所有被预测为正类的样本中,实际为正类的比例。高精确率意味着较少的假正例。召回率(Recall):......
  • AI项目依赖安全分析评估
    场景自动化漏洞检测与分析代码扫描与漏洞识别:AI可以快速扫描项目依赖的代码库,利用机器学习算法识别潜在的安全漏洞。通过对大量已知漏洞代码模式的学习,AI能够准确地检测出类似的安全问题,提高漏洞检测的效率和准确性。漏洞优先级排序:在检测到多个漏洞时,AI可以根据漏洞的严重程度、......
  • 【IEEE复现】配电网可靠性评估用于分配优化模型:一种非仿真的线性规划方法(Matlab代码实
     ......