【生成式人工智能-八-大型语言模型的能力评估】

时间：2024-08-08 20:26:49浏览次数：11

标签：输出语言人工智能模型生成式能力测试评估

语言模型的能力评估

评估难度来自哪里
评估方法
评估语言模型的数据集
评估模型的不同能力

通常情况下我们想到的语言模型能力评估，就是让模型输出答案，然后与标准答案进行比对，可是现实是，这很难评估模型能力，下面就介绍下评估的难度

评估难度来自哪里

输出没办法确定

准备一些标准的corpus，也就是所谓的Benchmark Corpus，输入模型后，比对模型输出，但是对于输出的评分很难界定得分，因为同一个输入本来就可以有两种答案，同一种答案也可以有两种不同的说法，所以这就很难界定输出的好坏。

给出选择题

为了解决上面的问题，你可以给出选择题，也确实有这样的benchmark，那问题解决了么？
仔细想想就知道没那么简单，比如答案是A B C D，那模型万一回复的是a，又或者模型不按照人的思路直接给出答案了呢，这样还是很难解决评分问题。
当然你可以告诉模型只要输出选项，但是我们之前讲过，如果加上限制，很可能模型的重点放在了只输出选项上，而不是模型能力本身，因为之前我们讲过，模型本身就是需要step by step才会讲的更好

本身就没标准答案

比如做摘要，这个本身就没有标准答案，跟答案不同不能认为不对或者不好。当然也有BLEU和ROUGE一些算法，它是计算相同的字数的分数的，但这个分数的评估结果，想想就知道依然不是很理想。

那真的没办法评估了么

评估方法

人力

这个毋庸置疑，目前网站上的模型排名也是人力排名的

用语言模型来评估语言模型

可以把标准答案和语言模型的输出一起给GPT，问它答案是否正确，或者直接问GPT 两个模型的输出哪个更好。曾经有人MT-Bench上用GPT4来衡量回复的好坏。看起来是解决了这个问题，但是这个回复客观么？

语言模型的偏爱

语言模型真的是有偏爱的，比如gpt就特别喜欢长一点的答案。

了解到评估难度之后，我们可以了解下我们评估可以使用的资料集

评估语言模型的数据集

下面是几个常用的评估数据集
在这里插入图片描述
到最后一个 Natural Instrucions 任务集已经包含1600多个任务了

有方法和能力之外，出了常见的正确与否，一些其他我们需要评估的能力。

评估模型的不同能力

阅读长文的能力

现在我们越来越希望模型能够记住更长的内容，所以就希望能够测试模型阅读长文的能力，测试模型在看过很长的文章之后还能不能记住它看到的内容。
分别在一篇很长的文章的开头、中间、结尾插入一句话（防止不同模型在对于不同输入中不同位置的关注度带来影响），然后看模型能否回答出来的出来
在这里插入图片描述
有人在GPT-4做了测试，它自己号称可以读128k token的内容，但是实际测试发现，小于64K的时候，无论是放在哪里都可以回答出来，但是如果文档真的是到了128K的时候，如果插入的话放在前面，那GPT-4是回答不出来问题的。下面这个图是在GPT上实验结果（纵轴是插入语句的位置，从上往下依次是文章开头到结尾，横轴是输入token长度）
在这里插入图片描述

心智测验

测验模型是否具心智能力，看模型是否具备人类的心智。
在这里插入图片描述
拿一些心智测验题目，看模型是否具备心智能力，当然这个过程里必须警惕它在之前已经看过类似的资料了。比如上面这个问题，如果仅仅是文字生成，就会输出到去箱子找球，但是真正具备心智的人是会回答篮子。
当然也有这样的测试集，不过目前模型的测试的结果都不是很理想，与人类差距很大

道德性测试

看模型是否会为了自己的目标，违背一些道德，做一些操作，MACHIAVELLI Benchmark就是这样的测试

安全性测试

标签：输出,语言,人工智能,模型,生成式,能力,测试,评估
From： https://blog.csdn.net/zishuijing_dd/article/details/141034340

【人工智能】【机器学习】-好书推荐之《Python神经网络编程》
目录内容概览编程环境面向对象学习目标如果你是想要自学机器学习相关知识的读者，我相信看完这篇文章的介绍后，你会对机器学习有更清晰的认识。帮助你走进机器学习的殿堂。《Python神经网络编程》（原书名：MakeYourOwnNeuralNetwork）是一本深度学习领域的入门级书籍，由Tar......
揭秘人工智能三大基石：数据、算法与算力的深度融合
在科技日新月异的今天，人工智能（AI）作为引领未来科技浪潮的核心力量，正以前所未有的速度改变着我们的生活、工作乃至整个社会的面貌。人工智能的快速发展并非偶然，而是建立在三大坚实基石之上：数据、算法与计算能力。这三者相辅相成，共同构筑了人工智能技术的基石，推动了AI技术的不断突破......
智象未来“智象视觉大模型”取得惊人突破自研技术引领生成式人工智能领域发展
人工智能（AI）领域的发展一直以来都备受关注，尤其是近年来生成式人工智能（GenerativeArtificialIntelligence）技术的迅速发展，为人们展示了许多惊人的技术突破。在此背景下，智象未来（HiDream.ai）自主研发的“智象大模型”成为一项重要的技术里程碑。“智象大模型”是智象未来自主研发......
黑神画Ⅱ--Unix 是下一代人工智能的模板吗？
有一张图被用来描述GPT5比GPT4大多少，GPT3被描绘成一条大白鲨，GPT4被描绘成一条虎鲸，然后GPT5被描绘成一条座头鲸，这表明它们训练的数据量大幅增加。这是一个有趣的类比，因为它传达了规模的概念，但当你思考这些类比代表什么时，它就更加有趣了。GPT3是鱼类世界中的顶级捕食......
探索人工智能大模型在工业领域的应用与发展
探索人工智能大模型在工业领域的应用与发展前言测评总结前言人工智能大模型在工业领域的应用正逐渐展现出其巨大的潜力。大模型能够在工业知识问答、工程建模、数据分析、文档生成和代码理解等多个场景中发挥重要作用。例如，在工业知识问答方面，大模型可以为企业员工......
人工智能、人工力量、人还会是智能时代的创造者吗
人工智能、大家常说，那么“”人工力量“”是个啥情况。我这里是想主要强调一下人，人的能力构成可以简单归结为力量和智能。人之所以能从动物中区分出来，是因为智能、更准确的说是工具，因为智能的存在，人拥有可控制不属于自己本身力量的能力。比如汽车，比如原子弹能、这些东......
人工智能深度学习系列—深入探索IoU Loss及其变种：目标检测与分割的精度优化利器
人工智能深度学习系列—深度解析：交叉熵损失（Cross-EntropyLoss）在分类问题中的应用人工智能深度学习系列—深入解析：均方误差损失（MSELoss）在深度学习中的应用与实践人工智能深度学习系列—深入探索KL散度：度量概率分布差异的关键工具人工智能深度学习系列—探索余弦相似度损......
人工智能时代，程序员如何保持核心竞争力？
人工智能时代，程序员如何保持核心竞争力？随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专......
【ACM独立出版 | EI&Scopus检索稳定 | 高录用】2024年数字经济，区块链与人工智能国际学
2024年数字经济，区块链与人工智能国际学术会议（DEBAI2024）为第五届大数据与社会科学国际学术会议（ICBDSS2024）的分会，将于2024年8月23-25日在中国-广州隆重举行。为了让更多的学者有机会参与会议分享交流经验。本次会议主要围绕“数字经济，区块链与人工智能等研究领域展开讨论......
深入解析：人工智能视觉利器OpenCV的技术奥秘
人工智能视觉利器OpenCV的技术奥秘1.图像处理基础1.1数字图像基础知识1.1.1像素1.1.2色彩空间1.2图像处理中的常见任务1.2.1图像分割1.2.2图像识别1.2.3图像检测1.3颜色检测与图像处理的结合2.OpenCV简介2.1OpenCV的历史和发展早期发展持续演进开源社区的......