阿里云PAI大模型评测最佳实践

时间：2024-06-19 13:29:19浏览次数：19

作者：施晨、之用、南茵、求伯、一耘、临在

背景信息

内容简介

在大模型时代，随着模型效果的显著提升，模型评测的重要性日益凸显。科学、高效的模型评测，不仅能帮助开发者有效地衡量和对比不同模型的性能，更能指导他们进行精准地模型选择和优化，加速AI创新和应用落地。因此，建立一套平台化的大模型评测最佳实践愈发重要。本文为PAI大模型评测最佳实践，旨在指引AI开发人员使用PAI平台进行大模型评测。借助本最佳实践，您可以轻松构建出既能反映模型真实性能，又能满足行业特定需求的评测过程，助力您在人工智能赛道上取得更好的成绩。最佳实践包括如下内容：

如何准备和选择评测数据集
如何选择适合业务的开源或微调后模型
如何创建评测任务并选择合适的评价指标
如何在单任务或多任务场景下解读评测结果

平台亮点

PAI大模型评测平台，适合您针对不同的大模型评测场景，进行模型效果对比。例如：

不同基础模型对比：Qwen2-7B-Instruct vs. Baichuan2-7B-Chat
同一模型不同微调版本对比：Qwen2-7B-Instruct 在私有领域数据下训练不同 epoch 版本效果对比
同一模型不同量化版本对比：Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8

考虑到不同开发群体的特定需求，我们将以企业开发者与算法研究人员两个典型群体为例，探讨如何结合常用的公开数据集（如MMLU、C-Eval等）与企业的自定义数据集，实现更全面准确并具有针对性的模型评测，查找适合您业务需求的大模型。最佳实践的亮点如下：

端到端完整评测链路，无需代码开发，支持主流开源大模型，与大模型微调后的一键评测；
支持用户自定义数据集上传，内置10+通用NLP评测指标，一览式结果展示，无需再开发评测脚本；
支持多个领域的常用公开数据集评测，完整还原官方评测方法，雷达图全景展示，省去逐个下载评测集和熟悉评测流程的繁杂；
支持多模型多任务同时评测，评测结果图表式对比展示，辅以单条评测结果详情，方便全方位比较分析；
评测过程公开透明，结果可复现。评测代码开源在与ModelScope共建的开源代码库eval-scope中，方便细节查看与复现：GitHub - modelscope/eval-scope: A streamlined and customizable framework for efficient large model evaluation and performance benchmarking

前提条件

已开通PAI并创建了默认工作空间。具体操作，请参见开通PAI并创建默认工作空间。
如果选择自定义数据集评测，需要创建OSS Bucket存储空间，用来存放数据集文件。具体操作，请参见控制台创建存储空间。

使用费用

PAI大模型评测依托于PAI-快速开始产品。快速开始是PAI产品组件，集成了众多AI开源社区中优质的预训练模型，并且基于开源模型支持零代码实现从训练到部署再到推理的全部过程，给您带来更快、更高效、更便捷的AI应用体验。
快速开始本身不收费，但使用快速开始进行模型评测时，可能产生DLC评测任务费用，计费详情请参见DLC计费说明。
如果选择自定义数据集评测，使用OSS存储，会产生相关费用，计费详情请参见OSS计费概述。

场景一：面向企业开发者的自定义数据集评测

企业通常会积累丰富的私有领域数据。如何充分利用好这部分数据，是企业使用大模型进行算法优化的关键。因此，企业开发者在评测开源或微调后的大模型时，往往会基于私有领域下积累的自定义数据集，以便于更好地了解大模型在私有领域的效果。对于自定义数据集评测，我们使用NLP领域标准的文本匹配方式，计算模型输出结果和真实结果的匹配度，值越大，模型越好。使用该评测方式，基于自己场景的独特数据，可以评测所选模型是否适合自己的场景。以下将重点展示使用过程中的一些关键点，更详细的操作细节，请参见模型评测产品文档。

1. 准备自定义评测集

1.1. 自定义评测集格式

基于自定义数据集进行评测，需要提供JSONL格式的评测集文件
文件格式：使用question标识问题列，answer标识答案列。
文件示例：评测,单击,模型,任务,阿里,PAI,数据
From： https://blog.csdn.net/weixin_48534929/article/details/139791287

【SkiaSharp绘图05】SKPaint详解（三）之ImageFilter(颜色、组合、膨胀、移位、光照、反射
文章目录ImageFilterCreateColorFilter颜色滤镜CreateCompose滤镜组合CreateDilate膨胀滤镜CreateDisplacementMapEffect移位映射CreateDistantLitDiffuse光照CreateDistantLitSpecular反射光照CreateDropShadow阴影效果CreateDropShadowOnly只阴影效果CreateErod......
部署监控公司电脑桌面并截图保存至阿里云OSS（定时功能）
importsocketimportuuidimportscheduleimportdatetimeimportpyautoguiimportloggingimportoss2importctypesimportosimporttimeimportshutil#阿里云OSS配置信息access_key_id='your_id'access_key_secret='your_secret'bucket_na......
希望六月：参加阿里云 PolarDB 与「AI函数计算」动手活动，送博客园T恤
没想到今年六月是园子与阿里云的推广合作季，同时有好几个推广项目在合作，比如：阿里云开发者社区有奖征文活动，期待您出文相助「指间灵动，快码加编」：阿里云通义灵码，再次降临博客园阿里云618创新加速季，5亿补贴享不停，上云礼包抢先领再加上今天发布的PolarDB与AI函数计算动手活动......
Oracle数据库修复利器：DBMS_REPAIR包详解与实战
在Oracle数据库中，数据文件的完整性和稳定性对于系统的正常运行至关重要。然而，由于各种原因（如硬件故障、软件错误等），数据文件有时会出现损坏，导致数据丢失或系统崩溃。为了应对这种情况，Oracle提供了DBMS_REPAIR包，这是一个强大的工具，可以帮助我们发现、标识并修复数据文件中的坏块。......
1、docker-安装-阿里云镜像加速-docker工作流程和底层原理
1、访问官网：https://docs.docker.com/get-docker/2、卸载旧版本：yumremovedocker\docker-client\docker-client-latest\docker-common\docker-latest\docker-latest-lo......
如何免费试用阿里云的视频画质增强服务50元额度
上文有说到阿里云有画质增强的服务，我也试了，确实画质提升不少。本文讲解如何免费试用视频画质增强服务。首先我们得有一个阿里云的账号，大家自行注册：https://www.aliyun.com/ 注册好后我们打开阿里云的视频生产工作台，点击开通：https://vision.console.aliyun.com/cn-shangha......
阿里也出手了！Spring CloudAlibaba AI问世了
写在前面在之前的文章中我们有介绍过SpringAI这个项目。SpringAI是Spring官方社区项目，旨在简化JavaAI应用程序开发，让Java开发者想使用Spring开发普通应用一样开发AI应用。而SpringAI主要面向的是国外的各种大模型接入，对于国内开发者可能不太友好。于是乎，SpringCl......
【华为OD】D卷真题100分：阿里巴巴找黄金宝箱(II) C语言代码实现[思路+代码]
【华为OD】2024年C、D卷真题集：最新的真题集题库C/C++/Java/python/JavaScript【华为OD】2024年C、D卷真题集：最新的真题集题库C/C++/Java/python/JavaScript-CSDN博客JS、Java、C、python、C++代码实现：【华为OD】D卷真题100分：阿里巴巴找黄金宝箱(II)JavaScript代码实现[思......
读取超7100MB/s最高仅51度的长江存储PC411 SSD！雷神MIX PRO迷你机评测
一、前言：搭载长江存储SSD和酷睿Ultra5125H处理器的雷神迷你机英特尔酷睿Ultra系列移动处理器发布半年之后，搭载它的各路迷你主机陆续出现在消费者面前。最近，雷神带来了全新的MIXPro迷你机，它就搭载了酷睿Ultra5125H处理器，还有广受好评的长江存储PC411SSD。先说SSD！现在我......
17岁中专女生勇夺2024阿里全球数学赛12名好成绩，今天，站在程序员的视角，我们来聊聊数学对
大家好，我是程序员陶朱公，一个认真生活，总想超越自己的程序员。前言相信这两天，大家都刷屏到了一个比较热度的新闻——17岁中专女生在今年这届阿里举办的全球数赛中，勇夺第12名的好成绩。↓↓↓看到这里，可能有小伙伴会觉得有点疑惑：又不是第一名，不明白第12名的她，为什么会引起社会......