今天学习的内容是大模型评测,是针对具有标准答案的客观问题,我们可以我们可以通过使用定量指标比较模型的输出与标准答案的差异,并根据结果衡量模型的性能。同时,由于大语言模型输出自由度较高,在评测阶段,我们需要对其输入和输出作一定的规范和设计,尽可能减少噪声输出在评测阶段的影响,才能对模型的能力有更加完整和客观的评价。
首先加载数据集模型,通过gitub镜像下载
启动模型评测得到结果
标签:输出,评测,客观,模型,标准答案,笔记,gitub From: https://blog.51cto.com/u_16507376/9386314