大语言模型学习-10.模型评测

书生浦语大模型实战营学习笔记7

视频教程特别像广告，所以这篇博客参考了很多其他内容给大家参考，主要是下面几个页面：

https://zhuanlan.zhihu.com/p/641416694
https://www.cnblogs.com/justLittleStar/p/17845341.html
https://zhuanlan.zhihu.com/p/682617717

模型的自动评测技术可以分为rule-based和model-based两大类：

rule-based方法：
- benchmark以客观题为主，例如多选题，被测的LLM通过理解context/question，来指定最佳答案。解析LLM的response，与标准答案做对比
- 计算metric（accuracy、rouge、bleu等）
model-based方法：
- 裁判员模型（e.g. GPT-4、Claude、Expert Models/Reward models）
- LLM Peer-examination

评价指标

rule-based：

BLEU、ROUGE、ROUGE-L、METEOR、CIDEr、CLEU(中文版BLEU)、ChrF、ChrF++
EM（Exact Match，问答系统）、F1（准确率、召回率）、F1α（准确率与召回率加权调和平均数）、MCC（二分类）、GPS（gender parity score）、MRR和NDCG（信息检索相关的Acc，归一化折损累积增益，是一种用于评估搜索引擎结果排序质量的方法。它衡量了搜索结果的相关性和排名顺序，通过对每个结果的相关性进行折扣，使排名靠前的结果对总分数的贡献更大。nDCG 的值在 0 到 1 之间，值越大表示排序质量越好）、Distinct（Distinct 是一种用于评估自然语言生成模型的评估方法，它衡量了生成文本中不同 n-gram 的数量和比例。
代码评估：目前用的最多的是pass@k

基于模型的评估：

裁判员模型

GPT-4、Claude、Qwen-Max等（产品APIs）
PandLM、Auto-J (tuned from LLM, like LLaMA)
Reward models (Ranking learning)

测评数据集

数据集	描述	评价指标	样例
MMLU	MassiveMultitaskLanguageUnderstanding一个多任务数据集，由各种学科的多项选择题组成。涵盖STEM、人文、社科等领域。包括57个子任务，包括初等数学、美国历史、计算机科学、法律等等。	Accuracy	Question: In 2016, about how many people in the United States were homeless?A. 55,000B. 550,000C. 5,500,000D. 55,000,000Answer: B
TriviaQA	阅读理解数据集，包含超过65万个问题-答案-证据三元组。其包括95K个问答对，由冷知识爱好者提供 + 独立收集的事实性文档撰写	EM(ExactMatch)F1 (word-level)	（问题-答案-证据文档）
MATH	12500道数学题，每道包含step-by-step solution	Accuracy
HumanEval	HumanEval (Hand-Written Evaluation Set)一个手写的问题解决数据集，要求根据给定的问题和代码模板，生成正确的代码片段。包含164个高质量的问题，涵盖五种编程语言：Python, C++, Java, Go, 和 JavaScript。	pass@k

标签：10,based,https,F1,模型,LLM,com,浦语
From： https://www.cnblogs.com/xiangcaoacao/p/18149608

AI视频分析技术的常用开源模型及TSINGSEE青犀AI视频识别分析能力介绍
AI视频分析技术是指利用人工智能技术来对视频数据进行分析和处理的技术。开源模型是指可以免费获取和使用的代码模型，可以帮助开发人员快速构建和部署AI视频分析应用程序。以下是一些业内常用的用于AI视频分析技术的开源模型：OpenCV：OpenCV是一个用于计算机视觉和机器学习的开源计......
LED驱动程序改造-基于总线设备驱动模型
目前我们基于LED驱动学习了两种编写Linux驱动程序的方法，分别是传统的方法和上下分层的基于面向对象的方法。其中基于上下分层的面向对象的驱动编写方法还可以进一步细化，把下层进行左右分离，针对使用同一芯片的不同开发板，可以抽象出一个针对芯片的GPIO引脚操作的文件，针对不同的开发......
2024激活Typora，最新版本的1.8.10.0可用
原文https://blog.csdn.net/m0_58416529/article/details/136098186目前最新版本1.8.10.0也是可以实现激活的注：免修改注册表、不用修改时间，更不需要破解补丁01、下载&安装Typora从官网下载最新版本的Typora，并安装02、激活Typora找到Typora安装目录，依次找到这个文件r......
深度解读《深度探索C++对象模型》之数据成员的存取效率分析（三）
接下来我将持续更新“深度解读《深度探索C++对象模型》”系列，敬请期待，欢迎关注！也可以关注公众号：iShare爱分享，自动获得推文和全部的文章列表。前面两篇请通过这里查看：深度解读《深度探索C++对象模型》之数据成员的存取效率分析（一）深度解读《深度探索C++对象模型》之数据成员的......
Delphi10.3如何将ListBox1项，拖动到右边Memo1当前输入项
01]ListBox1的DragMode设置为dmAutomatic02】Memo1的OnGragOver事件和OnDragDrop事件 procedureTForm8.Memo1DragOver(Sender,Source:TObject;X,Y:Integer;State:TDragState;varAccept:Boolean);beginifTListBox(Source)=ListBox1thenAccept:=true;end;......
洛谷题单指南-动态规划1-P1064 [NOIP2006 提高组] 金明的预算方案
原题链接：https://www.luogu.com.cn/problem/P1064题意解读：用固定钱数购买最大价值的物品。解题思路：背包问题，背包问题里的体积相当于物品价格，价值相当于价格*重要度物品分为主件、附件，主件最多有0/1/2个附件，要选附件必须选相应主件，因此在递推计算dp[j]总价格j能购买的最大价......
LORS：腾讯提出低秩残差结构，瘦身模型不掉点 | CVPR 2024
深度学习模型通常堆叠大量结构和功能相同的结构，虽然有效，但会导致参数数量大幅增加，给实际应用带来了挑战。为了缓解这个问题，LORS（低秩残差结构）允许堆叠模块共享大部分参数，每个模块仅需要少量的唯一参数即可匹配甚至超过全量参数的性能。实验结果表明，LORS减少解码器70%的参数后仍......
34天【代码随想录算法训练营34期】第八章贪心算法 part03 (● 1005.K次取反后最大化
1005.K次取反后最大化的数组和classSolution:deflargestSumAfterKNegations(self,nums:List[int],k:int)->int:nums.sort(key=lambdax:abs(x),reverse=True)foriinrange(len(nums)):ifnums[i]<0andk>0:......
LED车灯IC降压恒流驱动AP5103大功率95%高效率深度调光摩托车灯芯片
产品描述AP5103是一款效率高，稳定可靠的LED灯恒流驱动控制芯片，内置高精度比较器，固定关断时间控制电路，恒流驱动电路等，特别适合大功率LED恒流驱动。AP5103采用ESOP8封装，散热片内置接SW脚，通过调节外置电流检测的电阻值来设置流过LED灯的电流，支持外加电压线性调光，最大电......
记录真实项目中遇到的bug--010：支付截止bug
T10：支付截止bug：1.优先级：T22.前提条件：已到截止时间，用户A未刷新页面3.预期结果：用户A点击支付宝，提示：支付已截止，并返回dashboard页面4.实际结果：用户A点击支付宝展示空白页5.缺陷跟踪：bug同步产品，告知先放着，只记录，不更改。6.总结：跟支付策略有关，无法修改原因：浏览器禁止用户在做异......

模型评测-书生浦语大模型实战营学习笔记7&大语言模型10

大语言模型学习-10.模型评测

书生浦语大模型实战营学习笔记7

评价指标

测评数据集

相关文章

赞助商

阅读排行