• 2024-11-16nternLM Camp4 L1G600 OpenCompass 评测书生大模型实践
    本任务需要使用30%A100开发机文章目录前言一、使用OpenCompass评测浦语API1.环境配置2.模型配置3.数据集配置4.运行评测二、评测本地模型1.环境配置2.数据集下载3.加载本地模型进行评测三、将本地模型通过部署成API服务再评测前言本博客是第四期书生大模型
  • 2024-11-14书生实战营第四期-基础岛第六关-OpenCompass 评测书生大模型实践
    基础任务一、使用OpenCompass评测浦语API 1、创建用于评测conda环境condacreate-nopencompasspython=3.10condaactivateopencompasscd/rootgitclone-b0.3.3https://github.com/open-compass/opencompasscdopencompasspipinstall-e.pipinstall
  • 2024-11-12书生大模型实战营第四期 L1G6000 OpenCompass 评测书生大模型实践
    评测书生大模型实践文章目录评测书生大模型实践前言评测API模型前言OpenCompass提供了API模式评测和本地直接评测两种方式。其中API模式评测针对那些以API服务形式部署的模型,而本地直接评测则面向那些可以获取到模型权重文件的情况。参考:https://github.
  • 2024-10-17OpenCompass: 全面评估大语言模型的开源平台
    opencompassOpenCompass:全面评估大语言模型的开源平台OpenCompass是一个功能强大、灵活易用的大语言模型(LLM)评估平台,由上海人工智能实验室开发并开源。它支持对100多个数据集上的广泛模型进行全面评估,为研究人员和开发者提供了一个统一的评估框架。主要特点多样化模型支
  • 2024-09-28day8[OpenCompass 评测 InternLM-1.8B 实践]
    环境配置创建开发机和conda环境数据准备评测数据集启动评测(10%A1008GB资源)使用命令行配置参数法进行评测评测完成后,将会看到:
  • 2024-09-27【基础岛·第6关】OpenCompass 评测 InternLM-1.8B 实践
    目录1.概览2.环境配置2.1创建开发机和conda环境2.2安装——面向GPU的环境安装3.数据准备3.1评测数据集3.2InternLM和ceval相关的配置文件4.启动测评4.1使用命令行配置参数法进行评测4.2使用配置文件修改参数法进行评测1.概览在OpenCompass中评估一个模型通常包括
  • 2024-09-14opencompass评测InternLM1.8B
    1配置opencompass环境gitclone-b0.2.4https://github.com/open-compass/opencompasspipinstall-e.-ihttps://mirrors.163.com/pypi/simple/pipinstall-rrequirements.txt-ihttps://mirrors.163.com/pypi/simple/pipinstallprotobuf-ihttps://mirrors.163.c
  • 2024-08-01LLM evaluation
     TinyEvalhttps://github.com/datawhalechina/tiny-universe/tree/main/content/TinyEvalhttps://huzixia.github.io/2024/05/29/eval/https://meeting.tencent.com/user-center/shared-record-info?id=8b9cf6ca-add6-477b-affe-5b62e2d8f27e&from=3   首先,根据目标数
  • 2024-07-26OpenCompass 评测 InternLM-1.8B 实践
    1.进入https://opencompass.org.cn/home,点击在线测评,创建在线测评2.选择internlm2-chat-1.8b模型,与MMLU数据集,开始测评3.查看测评结果
  • 2024-07-16OpenCompass - 大模型评测
    文章目录一、关于OpenCompass概览组成评测对象工具架构能力维度设计思路通用能力学科综合能力知识能力推理能力理解能力语言能力安全能力评测方法客观评测主观评测(即将发布)特点路线图
  • 2024-06-10书生·浦语大模型实战营 第七节课 OpenCompass 大模型评测实战(内容扩展)
    读前感:对这个章节实际上并没有特别多的兴趣,可能在为了评估自己训练的RAG或FT时可以用到。读后感:本章节内容扩展比较多,在教程之外,手把手重新做了一整套的数据集并进行了测试。有兴趣的可以关注一下。学过之后才深刻感受到大模型的测试评估是大模型应用的基础,只未来必不可少
  • 2024-06-09OpenCompass大模型测评实战学习笔记
    一、OpenCompass介绍:评测相关:评测意义:研究评测对于我们全面了解大型语言模型的优势和限制至关重要;研究评测有助于指导和改进人类与大型语言模型之间的协同交互;研究评测可以帮助我们更好地规划大型语言模型未来的发展;评测能了解不同语言模型之间的性能、舒适性和安全性,能够帮