opencompass评测InternLM1.8B

时间：2024-09-14 22:52:22浏览次数：22

标签：评测 InternLM1.8 -- internlm2 8b opencompass AI chat model

1 配置 opencompass环境

git clone -b 0.2.4 https://github.com/open-compass/opencompass
pip install -e . -i https://mirrors.163.com/pypi/simple/
pip install -r requirements.txt -i https://mirrors.163.com/pypi/simple/
pip install protobuf -i https://mirrors.163.com/pypi/simple/
pip install modelscope -i https://mirrors.163.com/pypi/simple/

2 下载模型

from modelscope import snapshot_download
model_dir = snapshot_download('Shanghai_AI_Laboratory/internlm2_5-1_8b-chat',cache_dir='./model')

3 查看可用配置项

python tools/list_configs.py internlm ceval

opencompass评测InternLM1.8B_大模型

4 修改测试文件

4.1 代码形式

修改`configs/models/hf_internlm/hf_internlm2_chat_1_8b.py文件：

from opencompass.models import HuggingFaceCausalLM

models = [
    dict(
        type=HuggingFaceCausalLM,
        abbr='internlm2-1.8b-hf',
        path="/data/coding/model/Shanghai_AI_Laboratory/internlm2_5-1_8b-chat",
        tokenizer_path='/data/coding/model/Shanghai_AI_Laboratory/internlm2_5-1_8b-chat',
        model_kwargs=dict(
            trust_remote_code=True,
            device_map='auto',
        ),
        tokenizer_kwargs=dict(
            padding_side='left',
            truncation_side='left',
            use_fast=False,
            trust_remote_code=True,
        ),
        max_out_len=100,
        min_out_len=1,
        max_seq_len=2048,
        batch_size=8,
        run_cfg=dict(num_gpus=1, num_procs=1),
    )
]

执行run.py：

python run.py --datasets ceval_gen --models hf_internlm2_chat_1_8b --debug

4.2 命令行形式

python run.py --datasets ceval_gen --hf-path /data/coding/model/Shanghai_AI_Laboratory/internlm2_5-1_8b-chat --tokenizer-path /data/coding/model/Shanghai_AI_Laboratory/internlm2_5-1_8b-chat --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 2048 --max-out-len 16 --batch-size 4 --num-gpus 1 --debug

5 执行结果

opencompass评测InternLM1.8B_大模型_02

标签：评测,InternLM1.8,--,internlm2,8b,opencompass,AI,chat,model
From： https://blog.51cto.com/Laccoliths/12019250

阿里云文档智能解析——大模型版能力最佳实践与体验评测
一、引言随着数字化转型的深入，企业对于非结构化数据的处理需求日益增长。阿里云推出的文档智能解析服务旨在帮助企业快速高效地将各类文档转化为结构化信息，从而提升业务效率。本文旨在通过实际应用案例，对阿里云文档智能解析服务中的“文档解析（大模型版）”进行全面评测，并提出改......
火山引擎VeDI核心产品DataTester再进化，A/B大模型应用评测功能上线
更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群近日，火山引擎A/B测试产品DataTester上线了A/B大模型应用评测功能。此次升级不仅强化了模型上线前的基础能力评测，还新增了针对线上使用场景的全面、系统检测与评估机制，为企业在模型应用的全周期管......
评测AI写毕业论文软件排行榜前十名的网站
在当今信息爆炸的时代，AI智能写作工具已经成为我们写作过程中的得力助手。特别是对于学术论文的撰写，这些工具不仅能够提高写作效率，还能帮助用户生成高质量的文稿。以下是五款值得推荐的AI智能写论文软件，其中特别推荐千笔-AIPassPaper。千笔-AIPassPaper千笔-AIPassPaper是一款......
利用AI驱动智能BI数据可视化-深度评测Amazon Quicksight（三）
简介随着生成式人工智能的兴起，传统的BI报表功能已经无法满足用户对于自动化和智能化的需求，今天我们将介绍亚马逊云科技平台上的AI驱动数据可视化神器–Quicksight，利用生成式AI的能力来加速业务决策，从而提高业务生产力。借助Quicksight中集成的AmazonQ的创作功能，业务分析......
内存延迟对Zen5游戏性能影响有多大！为何首发评测我们会用技嘉X670E AORUS XTREME主板
一、前言：为什么我们会一直使用技嘉X670E主板做锐龙处理器首发评测很多同学一直好奇，为什么我们在各种锐龙平台的评测中都会优先使用技嘉X670主板？也有同学很疑惑，为什么海外媒体的游戏性能测试，锐龙79700X连i7-14700K都打不过，而在我们这里却与i9-14900K旗鼓相当？主要原因是Zen5架构......
利用AI驱动智能BI数据可视化-深度评测Amazon Quicksight（一）
项目简介随着生成式人工智能的兴起，传统的BI报表功能已经无法满足用户对于自动化和智能化的需求，今天我们将介绍亚马逊云科技平台上的AI驱动数据可视化神器–Quicksight，利用生成式AI的能力来加速业务决策，从而提高业务生产力。借助Quicksight中集成的AmazonQ的创作功能，业务......
【最新华为OD机试E卷-支持在线评测】通过软盘拷贝文件(200分)多语言题解-(Python/C/Ja
......
【C#生态园】构建交互式界面利器：C#命令行解析库全方位评测
C#命令行利器：选择最适合你的命令行解析器前言在现代软件开发中，命令行解析器库是不可或缺的工具，它们为开发人员提供了简单、高效地处理命令行参数和构建交互式命令行界面的方法。本文将介绍几个用于C#的优秀命令行解析器库，分别探讨它们的核心功能、使用场景、安装配置以及A......
适合科研的团队协作工具：8款实用评测
本文介绍的8款工具如下：1.Worktile；2.PingCode；3.蓝湖；4.智方科研管理系统；5.九云办公；6.和鲸ModelWhale；7.有道云协作；8.Maxhub。在科研项目中，团队协作软件的选择总是让人头疼。市面上有太多工具，不知道哪款更适合自己？每个软件都宣传自己效率高、功能全，但真正好用的又有多少？相信很多科......
828华为云征文｜华为云Flexus X实例MySQL性能加速评测及对比
目录前言一、Flexus云服务器X介绍1.1Flexus云服务器X实例简介1.2Flexus云服务器X实例特点1.3Flexus云服务器X实例场景需求二、Flexus云服务器X购买2.1FlexusX实例购买2.2购买MySQL加速镜像2.3重置密码2.4 登录服务器三、FlexusX实例加速MySQL测试3.1sys......