1、模型评测的Why, What How?为什么要做模型评测,评测什么,以及怎样评测。
2、模型评测的Why?
- 用户:可以知道那个模型好,便于选择
- 开发者:知道模型的能力边界,以便提升
3、What
- 知识、语言、推理
- 长文本生成、Agent工具的使用能力
- 情感、认知
- 垂直领域:如医疗
4、How
- 基座模型 VS 微调模型
- 主管评测 VS 客观评测
5、评测框架
- Stanford
- Berkeley
- HuggingFace
- 北京智源
6、OpenCompass:Meta唯一推荐
7、大模型评测面临的挑战
标签:What,评测,训练营,书生,How,开源,VS,Why,模型 From: https://www.cnblogs.com/littlesuccess/p/18021171