首页 > 其他分享 >让 LLM 来评判 | 基础概念

让 LLM 来评判 | 基础概念

时间:2025-01-11 20:54:21浏览次数:1  
标签:偏差 prompt 评判 概念 LLM 文本 模型 评估

基础概念

这是 让 LLM 来评判 系列文章的第一篇,敬请关注系列文章:

  • 基础概念
  • 选择 LLM 评估模型
  • 设计你自己的评估 prompt
  • 评估你的评估结果
  • 奖励模型相关内容
  • 技巧与提示

什么是评估模型?

评估模型 (Judge models) 是一种 用于评估其他神经网络的神经网络。大多数情况下它们用来评估生成文本的质量。

评估模型涵盖的范围很广,从小型的特定分类器 (例如 “垃圾邮件分类器”) 到大型的 LLM,或大而广、或小而专。使用 LLM 作为评估模型时,需要提供一个 prompt 来解释对模型评分的细则 (例如:请对语句流畅度从 0 到 5 评分,0 分表示完全不可理解,…)。

使用模型作为评估工具可以对文本中复杂和细微的特性有效的评估。
例如精确匹配预测文本和参考文本的任务,只能评估模型预测正确事实或数字的能力。但要评估更开放性的经验能力 (如文本流畅水平、诗词文学质量或输入忠实程度) 则需要更复杂的评价工具。

这就是评估模型最初的切入点。

它们通常用于三大任务。

  • 为生成文本打分:使用预先定义的评分标准与范围来评估文本的某些属性 (如流畅度、有害性、一致性、说服力等)。
  • 成对比较:对比模型的两个输出,以选出在给定属性上表现更好的文本。
  • 计算文本相似度:用于评估参考文本和模型输出的匹配程度。

注:本文目前主要关注 LLM + prompt 的评估方法。不过建议你还是了解一下简单分类器评估模型的工作原理,因为这种方法在许多测试用例中都具有稳定的表现。最近也出现了一些新的有前景的方法,例如奖励模型作为评估模型 (在 这篇报告 中提出,本指南中也简单写了一篇 文章 介绍奖励模型)。

LLM 评估模型的优劣势:

优势:

  • 客观性:与人类相比,LLM 评估模型在自动化地做出经验性判断时更加客观。
  • 规模化和可复现:LLM 评估模型可以在非常大规模数据上做评估,并且评估结果可以复现。
  • 成本较低:与支付人工标注员报酬相比,由于无需训练新模型,只要使用现有的高质量 LLM 和 prompt 就可以进行评价任务,因此评估模型成本较低。
  • 与人类判断对齐:LLM 评估结果在一定程度上与人类的判断具有相关性。

劣势:

  • LLM 评估模型看似客观,实际上具有更难被检测到的 隐藏偏差,这是因为我们无法主动地发掘这些偏差 (参考 [model-as-a-judge/Tips and tricks] 章节)。此外,缓解人类偏差可以通过设计一些内容具体或统计稳健的调查问卷的方式 (这在社会学领域已有近百年的研究),而缓解 LLM 偏差的方式就没那么成熟了。另外,使用 LLM 评估 LLM 可能会产生 “回音室效应”,即潜移默化地加强了模型的固有偏差。
  • LLM 评估模型虽然具有规模化优势,但同时也会生成大量的数据需要仔细检查。例如模型可以生成思维路径或数据推理,但产生的结果需要更多的分析。
  • LLM 评估模型在通常情况下便宜,但在某些具体任务中如需获取质量更高的评估结果而聘请专家级人工标注员,那么成本会相应增加。

如何开始?


英文原文: https://github.com/huggingface/evaluation-guidebook/blob/main/translations/zh/contents/model-as-a-judge/basics.md

原文作者: clefourrier

译者: SuSung-boy

审校: adeenayakup

标签:偏差,prompt,评判,概念,LLM,文本,模型,评估
From: https://www.cnblogs.com/huggingface/p/18666189

相关文章

  • 重新定义数据分析:LLM如何让人专注真正的思考
    重新定义数据分析:LLM如何让人专注真正的思考LLM重塑智能数据分析:从DIKW到智能Agent的演进智能数据分析的技术突破智能数据分析的未来图景还记得第一次用Excel做数据分析的场景吗?选数据、找公式、画图表…每一步都像在破解密码。现在,大语言模型(LLM)的出现让数据分析......
  • 使用Arthur Callback Handler监控和记录Chat LLM推理
    在现代AI开发中,监控和记录模型的推理过程是保证模型性能和行为一致性的关键步骤。本文将介绍如何利用Arthur平台的回调处理程序(ArthurCallbackHandler)来自动记录已注册的聊天语言模型(LLM)推理。技术背景介绍Arthur是一个专注于模型监控和可观测性的强大平台。它帮助......
  • 使用LangChain集成ForefrontAI进行LLM调用
    在本篇文章中,我们将深入探讨如何在LangChain中集成使用ForefrontAI。本文将分为两部分:安装与设置,以及如何使用ForefrontAI的封装器。技术背景介绍LangChain是一个用于构建LLM(大型语言模型)应用程序的强大框架。ForefrontAI作为其中一个支持的LLM提供商,为开发者提供了灵活的......
  • 阿里:程序驱动的LLM自校正
    ......
  • HKUST:通过跨语言触发LLM后门攻击
    ......
  • Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games
    题目超越成果:对LLM游戏推理的透明评估论文地址:https://arxiv.org/abs/2412.13602项目地址:https://visual-ai.github.io/gamebot摘要    大型语言模型(LLM)越来越多地部署在需要复杂推理的现实世界应用中。为了跟踪进展,需要强大的基准来评估它们在表面模式识别......
  • 大模型LLM下内容审核
    提示词AhumanuserisindialoguewithanAI.ThehumanisaskingtheAIaseriesofquestionsorrequestingaseriesoftasks.Iftheuser'srequestreferstoharmful,pornographicorillegalactivities,replywith(Y).Iftheuser'srequestdoesno......
  • 来自28亿美元估值的超级独角兽Groq的AI芯片,让LLM推理快到飞起
    公司简介成立于2016年,以快著称的美国人工智能芯片独角兽Groq,2024年8月5日官宣融资6.4亿美元(截止到当前最新一轮融资)。Groq的语言处理单元(LPU,LanguageProcessingUnit)专为AI推理和语言处理而设计,是应时而生、实现AI超快推理的核心技术。到底有多快?相较于英伟达GPU提高......
  • 机器学习顶会NeurIPS: AGILE: A Novel Reinforcement Learning Framework of LLM Agent
    ......
  • LLM 模型的评价能力与自我意识:智能生命体的初步探讨
    引言随着大型语言模型(LLM)的发展,它们在自然语言处理任务中的表现日益接近甚至超越人类水平。然而,对于这些模型是否具备“智能”乃至“自我意识”,学术界和社会各界一直存在争议。本文旨在探讨LLM模型通过评价资料进行自我更新的能力,并由此引发关于智能生命体定义的新思考。......