首页 > 其他分享 >LLM evaluation

LLM evaluation

时间:2024-08-01 23:50:36浏览次数:20  
标签:github https evaluation LLM opencompass Eval com

 

TinyEval

https://github.com/datawhalechina/tiny-universe/tree/main/content/TinyEval

https://huzixia.github.io/2024/05/29/eval/

https://meeting.tencent.com/user-center/shared-record-info?id=8b9cf6ca-add6-477b-affe-5b62e2d8f27e&from=3


    首先,根据目标数据集的任务类型指定合理的评测metric.
    根据目标数据的形式总结模型引导prompt.
    根据模型初步预测结果采纳合理的抽取方式.
    对相应的pred与anwser进行得分计算.

opencompass

https://opencompass.org.cn/home

Large Model Evaluation System
Shanghai AI Laboratory
Open-source, efficient, and comprehensive
large model evaluation system and open platform

C-Eval

https://opendatalab.com/OpenDataLab/C-Eval/tree/main

https://hub.opencompass.org.cn/dataset-detail/C-Eval

New NLP benchmarks are urgently needed to align with the rapid development of large language models (LLMs). We present C-Eval, the first comprehensive Chinese evaluation suite designed to assess advanced knowledge and reasoning abilities of foundation models in a Chinese context. C-Eval comprises multiple-choice questions across four difficulty levels: middle school, high school, college, and professional. The questions span 52 diverse disciplines, ranging from humanities to science and engineering. C-Eval is accompanied by C-Eval Hard, a subset of very challenging subjects in C-Eval that requires advanced reasoning abilities to solve. We conduct a comprehensive evaluation of the most advanced LLMs on C-Eval, including both English- and Chinese-oriented models. Results indicate that only GPT-4 could achieve an average accuracy of over 60%, suggesting that there is still significant room for improvement for current LLMs. We anticipate C-Eval will help analyze important strengths and shortcomings of foundation models, and foster their development and growth for Chinese users.
Meta Data

The data set has

    Question: The body of the question
    A, B, C, D: The options which the model should choose from
    Answer: (Only in dev and val set) The correct answer to the question
    Explanation: (Only in dev set) The reason for choosing the answer.

Example

Question: 对于UDP协议,如果想实现可靠传输,应在哪一层实现____
A. 数据链路层
B. 网络层
C. 传输层
D. 应用层
Answer: D

 

lmdeploy

https://lmdeploy.readthedocs.io/zh-cn/latest/benchmark/evaluate_with_opencompass.html

https://opencompass.readthedocs.io/zh-cn/latest/advanced_guides/evaluation_turbomind.html

 

issue with openai

https://github.com/open-compass/opencompass/discussions/1100

https://github.com/open-compass/opencompass/issues/673

 

dataset

https://github.com/open-compass/opencompass/releases/tag/0.2.2.rc1

https://zhuanlan.zhihu.com/p/669291064

 

LVLM

https://mmbench.opencompass.org.cn/home

https://github.com/open-compass/VLMEvalKit

https://github.com/open-compass/MMBench/tree/main/samples

 

标签:github,https,evaluation,LLM,opencompass,Eval,com
From: https://www.cnblogs.com/lightsong/p/18337819

相关文章

  • 微软GraphRAG框架源码解读(LLMs)
    1.引言这几天微软开源了一个新的基于知识图谱构建的检索增强生成(RAG)系统:GraphRAG。该框架旨在利用大型语言模型(LLMs)从非结构化文本中提取结构化数据,构建具有标签的知识图谱,以支持数据集问题生成、摘要问答等多种应用场景。GraphRAG的一大特色是利用图机器学习算法针对数据......
  • 论文翻译:Evaluating Reading Comprehension Exercises Generated by LLMs: A Showcase
    EvaluatingReadingComprehensionExercisesGeneratedbyLLMs:AShowcaseofChatGPTinEducationApplicationshttps://aclanthology.org/2023.bea-1.52.pdfhttps://aclanthology.org/2023.bea-1.52/文章目录由大型语言模型(LLMs)生成的阅读理解练习评估:教育应用......
  • 论文阅读:Evaluating Reading Comprehension Exercises Generated by LLMs: A Showcase
    EvaluatingReadingComprehensionExercisesGeneratedbyLLMs:AShowcaseofChatGPTinEducationApplicationshttps://aclanthology.org/2023.bea-1.52.pdfhttps://aclanthology.org/2023.bea-1.52/这篇论文探讨了如何利用预训练的大型语言模型(LLMs),特别是OpenAI的......
  • 使用 LCEL 构建简单的LLM应用程序
    摘要:本文是对自己学习基于LangChain学习LLM开发的记录,根据LangChain官网使用LCEL构建了一个简单的LLM应用程序。1.获取各个LLM模型的api。比如OPENAI、讯飞星火大模型等。本文使用讯飞星火大模型进行开发。使用OPENAI的api显示超额,但是明明有18美元的余额,如果读者知道的话请解......
  • LLM-文心一言:以太坊2.0架构
    以太坊2.0的架构是一个复杂且不断发展的系统,旨在解决以太坊1.0存在的性能瓶颈和扩展性问题。以下是以太坊2.0架构的主要组成部分和阶段:信标链(BeaconChain):信标链是以太坊2.0的核心组成部分,它负责协调整个网络并管理权益证明(PoS)协议。信标链本身不存储任何状态信息、DApps或其他......
  • 基于 LLM 制作了一个 SQL 方言转换器,未来的某天我可能会用上
    事件起因,公司有从sqlserver转mysql的打算,源码里有不少sqlserver的语句,没有啥批量修改的好方法,人力解决最稳妥,所以基于大模型制作了一个方言转换器项目基于.NET6MVC+Bootstrap简单页面就没有去build前端了,jquery字符串拼接一把梭项目已开源:https://github.com/MayDay-wpf/SQ......
  • Fotify扫描问题Dynamic Code Evaluation:Code Injection
    在使用fotify代码扫描时,程序中JavaScript的eval()函数使用的地方会报DynamicCodeEvaluation:CodeInjection,解释为动态代码评估、代码注入,Web开发中。这两种风险都可能导致严重的安全问题.其安全问题大致描述为1、动态执行的代码可能会包含恶意代码,导致安全漏洞......
  • RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow、Anythi
    RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐1.MaxKBMaxKB=MaxKnowledgeBase,是一款基于LLM大语言模型的开源知识库问答系统,旨在成为企业的最强大脑。它能够帮助企业高效地管理知识,并提供智能问答功能。想象一......
  • 深度 | LLM会吃了开发人员吗?
    目录达摩克利斯之剑——大模型的时代期待新的超级开发个体史上四次工业革命和同时代的工人们LLM会吃了开发人员吗?不,其实并没有那么危险a.智能化编程由来已久b.进化后的AI编程可以做什么c.智能化AI编程的“月之暗面”d.AI编程vs程序员开发者们,站起来武装......
  • 大语言模型LLM资料
    模型:有趣的是,当参数规模超过一定水平时,这个更大的语言模型实现了显著的性能提升,并出现了小模型中不存在的能力,比如上下文学习。为了区别于PLM(预训练语言模型),这类模型被称为大型语言模型(LLMs)。模型LLM的涌现能力被正式定义为「在小型模型中不存在但在大型模型中出现的......