文章目录
题目
M3KE:面向中文大型语言模型的海量多层次多学科知识评估基准
论文地址:https://arxiv.org/abs/2305.10263
项目地址:https://github.com/tjunlp-lab/M3KE
摘要
大型语言模型最近在跨任务泛化、指令跟随等多个方面取得了巨大进步。全面评估大型语言模型在多个任务中的能力非常重要。在本文中,我们提出了 M3KE,一种大规模多层次多学科知识评估基准,旨在通过测试中文大型语言模型在零样本和少样本环境下的多任务准确性来衡量它们获得的知识。我们从 71 个任务中收集了 20,477 个问题。我们的选择涵盖了中国教育体系的所有主要层次,从小学到大学,以及各种学科,包括人文、历史、政治、法律、教育、心理学、科学、技术、艺术和宗教。所有问题都是有四个选项的多项选择题,因此保证了标准化和统一的评估过程。我们在提出的基准上评估了许多最先进的开源中文大型语言模型。这些模型的大小从 335M 到 130B 参数不等。实验结果表明,它们的表现明显差于 GPT-3.5,后者在 M3KE 上的准确率达到 ∼ 48%。
简介
大型语言模型 (LLM),近年来取得了显著进展,尤其是 ChatGPT1 的发布,人们普遍认为它彻底改变了自然语言处理领域并改变了人工智能和社会一般来说,LLM 通过自监督学习在大量未标记数据上进行训练,涵盖了百科全书、新闻、书籍、社交媒体等多种类型。许多研究表明,LLM 能够获得多种类型和主题的广泛知识。在 LLM 中引出并应用所获得的知识到下游任务的范式已经从微调转变为指令调优。早期的 LLM 通常采用微调,然而,由于微调后的 LLM 通常是针对特定任务的,并且参数效率不高,因此缺乏跨任务泛化能力,因为通常需要在下游任务上更新所有预训练的 LLM 参数。随着 LLM 达到数十亿个参数的规模,出现了一种更有效的引出知识的替代方法,即情境学习 (ICL) ,它仅使用提示中连接的几个演示示例。为了增强 LLM 对各种下游任务的跨任务泛化能力,有人提出了通过多任务学习进行指令调优。在指令调优中,不同任务的指令不同,但形式统一。监督微调 (SFT) 和从人类反馈中进行强化学习 (RLHF)是成功的指令调整方法,它们不仅实现了对未见指令的泛化,而且还使 LLM 与人类价值观和意图保持一致。
随着 LLM 中知识获取和应用能力的不断快速发展,一个自然而然的问题出现了,那就是我们如何评估这些知识。传统的单任务评估基准已不再适合评估它们。像 GLUE、SuperGLUE和 BIG-bench这样的多任务基准聚合了多个 NLP 任务来评估 LLM,但这也不足以评估 LLM 获取的知识。为了解决这个问题,Hendrycks 等人提出了 MMLU,这是一种广泛使用的基准,用于测试 LLM 的知识获取和应用能力,它使用人类倾向于在零样本和少样本设置中评估 LLM 的多个学科的测试问题。由于MMLU是英语基准,因此不能直接用于衡量使用其他语言数据训练的LLM。即使将其翻译成其他语言,就像评估GPT-4(OpenAI,2023)时使用的方式一样,不同语言之间的知识仍然存在差距,因为它们通常具有不同的教育体系和知识结构。
与英语LLM类似,中文LLM最近也取得了快速进展。然而,一个符合中国教育体系的大规模知识评估基准来衡量中国LLM是当务之急。为了弥补这一差距,我们提出了 M3KE,这是一个大规模多层次多学科知识评估基准,旨在通过测试中国LLM在零样本和少样本设置下的多任务准确性来衡量中国LLM获得的知识。M3KE 包含从 71 个任务中收集的 20,477 个问题。特别是,与最近的基准 MMCU和 AGIEval不同,M3KE 涵盖了中国教育体系的所有主要层次,从小学到大学,以及各种学科,包括人文、历史、政治、法律、教育、心理学、科学、技术、艺术和宗教。所有问题都是有四个选项的多项选择题,从而确保了标准化和统一的评估过程。表 1 显示了 M3KE 与其他相关基准的比较。
使用 M3KE,我们测试了最近发布的中国LLM,以跟踪中国LLM在知识获取和应用方面的进展。评估的模型要么是在海量数据上预先训练的,要么是使用 SFT 或 RLHF 预先训练 + 微调的。模型大小从 335M 到 130B 参数不等。通过大量实验,我们观察到大多数评估的中文 LLM 具有接近随机机会的准确性,即使是对于小学任务也是如此。
基于开源 BLOOM构建的 SFT 模型获得了最佳性能,比 GPT-3.5-turbo 的准确性低 14.8 分。我们的主要贡献总结如下。
- 我们提出了 M3KE,这是针对中文 LLM 的知识评估基准,迄今为止涵盖了与中国教育体系一致的最多任务。
- 我们已经针对 GPT-3.5-turbo 测试了各种开源中文 LLM,模型大小从 335M 到 130B 不等。
- 我们分析了每个模型在零样本和五样本设置下在不同主题集群和教育水平上的表现。
相关工作
中文大型语言模型。近年来,中文 LLM 迅速发展,紧随其后的是英语同行的努力,例如 GPT-3 、Gopher、LLaMA。中文 LLM,例如具有 200B 参数的 Pangu-α、具有 245B 参数的 Yuan 1.0、具有 260B 参数的 ERNIE 3.0 Titan,已经在包含 180B 到 329B 的 token 的中文文本数据上进行了训练。这些模型是在工业界开发的,通常不开源。随着开源LLM项目的成功基于LLaMA,最近出现了ChatGLM-6B2、MOSS3、Phoenix等中文版本。这些模型通常包含不到200亿个参数,并根据从GPT-3.5模型中提炼或以自我指导的方式学习的指令进行监督微调。
基准。在训练过程中获取和应用知识的能力是衡量LLM的重要指标。然而,现有的评估基准通常是为评估各种NLP任务上的LLM而设计的,而不是为知识获取和应用评估而量身定制的。为了全面衡量LLM的知识,提出了MMLU,它收集了人类学习的57个任务的多项选择题。
由于使用的教育体系不同,一方面,中文LLM的知识可能不会在翻译成中文的MMLU版本中体现,例如,中医、中国法律体系。另一方面,MMLU中要评估的知识可能不存在于用于训练中文LLM的中文文本数据中。我们的工作与M3KE同时开发的3个数据集有关。MMCU是一个中国基准,评估医学、教育、法律和心理学四个领域的知识。AGIEval是一个双语基准,用于衡量高中毕业生LLM在中国高考和美国大学入学考试任务上的能力。 DomMa是另一个侧重于特定领域知识的中国基准。与这些基准相比,M3KE 是一个全面的中国基准,涵盖了中国教育体系的主要阶段,从小学到大学,涵盖的学科类别更广泛,例如艺术、宗教、中医和古典文学。
M3KE
M3KE 涵盖中国教育的主要阶段,包括小学、中学、高中、大学和专业考试,以及多个任务如图1所示,详细科目见附录A。我们从公共网站收集和整理多项选择题。为确保问题的质量和全面性,我们尽可能选择入学考试题目。对于小学、初中和高中教育水平,我们根据中国学生相应的入学考试选择科目。对于大学水平,我们根据中国硕士研究生全国联考选择科目。
除了中国主要教育体系下的科目外,我们还收集了综合任务以扩大M3KE的知识覆盖范围,包括计算机等级考试、古汉语、小说和中国国家公务员考试,涵盖常识、艺术、宗教等。总共有71个任务和20,477个问题。我们将每个任务分为一个测试集和一个少样本集,其中少样本集包括每个任务的5个问题,用于少样本评估设置。测试集包含20,122个问题,每个任务至少包含100个问题。表 2 列出了 M3KE 的实例。
艺术与人文包括一系列学科,涵盖中文、文学、艺术和历史。这些学科侧重于对文学和文化文物的分析和解读,而不是实际应用。例如,小学的中文旨在评估学生的语言使用和文学欣赏能力。适合7-13岁学生的语法知识,例如同义词和反义词的使用。历史研究涵盖了从古代到现代的中国和世界历史。M3KE还包含艺术科目,例如舞蹈、美术、音乐和电影,因为我们认为艺术是人类文化的一个重要方面,也应该与LLM相关。
表 2:M3KE 中的题例。加粗项目代表正确答案。从上到下,题例分别来自美术、刑法学、动物生理学和中国公务员考试题。
社会科学社会科学与艺术人文学科的不同之处在于,它们强调人文研究的实践方面,例如法律、政治、教育和心理学。这些科目主要在大学阶段教授。虽然思想政治课程也是中国中学和高中课程的一部分,但它们主要涉及道德教育。社会科学还包括经济和管理研究,其中大部分是中国这些领域研究生联合考试的问题。
这些研究包括本科阶段的微观经济学、宏观经济学、管理和逻辑学。自然科学自然科学包括工程、科学、医学和数学、物理、化学、生物等基础学科。这些科目往往需要很强的计算、分析和逻辑推理能力。根据中国教育体制的不同,同一科目在不同层次可能考查不同类型的知识。例如,小学数学主要考查基本的算术运算,而高中数学则涵盖更高级的数学概念,如序列、导数和几何。
其他类型的任务包括宗教、中国科举,以及专门的任务,如古汉语和小说推理任务。这些任务所需的知识并不局限于上述的单一水平或学科。中国科举涉及常识、人文、逻辑和其他领域的知识,我们可以将其视为对LLM综合知识的考查。同样,在小说任务中,这些问题涉及许多古典小说中的大量信息。
表3显示了M3KE的总体统计数据。上述四个学科集群的任务数量分别为12、21、31和7,问题数量分别为3,612、6,222、8,162和2,126。问题数量最多为425,最少为100。社会科学和自然科学的问题通常比艺术与人文等学科的问题长,而答案选项较短。
实验
我们在M3KE上评估了最近为中文开发的最先进的大型语言模型,试图了解和跟踪中国LLM在学习和应用海量数据知识方面的进展。评估模型评估的中国LLM可分为两类:仅预训练的模型和使用SFT / RLHF指令调整的模型。
对于前者,我们选择了 GLM-335M、GLM-10B、GLM-130B和 BLOOM-7.1B。对于后者,我们包括 ChatGLM-6B4 、 MOSS-SFT-16B5 、BELLE-7B其中 BELLE-7B 是基于 BLOOMZ-7.1B-MT (Muennighoff et al, 2022) 的 SFT 版本。我们使用了在 200K 和 2M 指令上微调的 BELLE 的两个变体,即 BELLE-7B0.2M6 和 BELLE-7B-2M7。我们还评估了 OpenAI 的 GPT-3.5-turbo8 作为参考。
所有模型都使用 n-shot 设置和统一提示进行测试,其中 n 是从 0 到 5 的整数。对于零样本设置(即 n = 0),为所有模型提供的统一提示是“请根据以下问题从‘A’、‘B’、‘C’、‘D’中选择正确的选项”。对于小样本设置(即 n > 0),统一的提示是“请根据以下示例和问题从‘A’、‘B’、‘C’、‘D’中选择正确的选项”。所有 LLM 的输入都由提示、问题、答案选项和后缀组成,即“正确的选项是:”。即使我们告诉模型在提示中只输出正确的答案选择指示符(即 2 fA; B; C; Dg),但并非所有模型都能遵循此指令。有时它们会同时输出答案选择和答案选择的理由(这两种类型的输出顺序是随机的)。因此,我们只保留输出答案选择指示符作为计算准确率的最终答案。
我们在表 4 中比较了各个模型在主题聚类方面的零样本准确率。对于预训练模型,准确率与模型大小呈明显的正相关关系,尽管参数为 130B 的模型与参数为 335M/7B/10B 的模型有不同的主干,但其表现明显优于参数为 335M/7B/10B 的模型。GPT-3.5-turbo 的准确率明显高于所评估的中文 LLM,这为目前开源中文 LLM 提供了一个上限。所有参数≤10B 的预训练 LLM 的准确率都低于随机准确率(即 25%),这表明这些模型获得的知识对于 M3KE 来说是不够的。此外,我们观察到用于 SFT 的指令数量是一个重要因素,因为使用 2M 指令微调的 BELLE 模型明显优于使用 0.2M 指令的模型。 GPT-3.5-turbo 的零样本性能远高于开源的: 对于预训练模型,少样本设置下的 ICL 显著提高了性能,并且预训练模型越小,获得的改进越大。
例外是 GLM-130B,其在 5 样本设置下的表现明显差于零样本设置。我们推测 GLM-130B 已经具备了无需示例即可理解问题的能力,因为它使用指令格式的实例作为预训练语料库的一部分,而演示可能会给模型的最终预测带来干扰。与零样本设置相比,SFT 模型的 5 样本结果好坏参半。我们发现,对于 ChatGLM-6B 和 BELLE-7B-2M,5-shot 比零样本设置更差,与在 GLM-130B 上观察到的结果相似。相比之下,5-shot 对 MOSS-SFT-16B 和 BELLE7B-0.2M 有积极影响。由于这些模型在模型大小、训练数据、指导数据等方面彼此不同,我们将对混合结果的深入分析留待未来工作。
我们最终在表 6 中提供了零样本设置下每个模型在不同教育水平上的结果,在表 7 中提供了少样本设置下每个模型在不同教育水平上的结果。有趣的是,我们观察到 LLM 在较低教育水平上的表现并不比高等教育水平高,即使是 GPT-3.5-turbo 也是如此。这表明,对于这些最先进的中国 LLM 来说,较低教育水平的任务仍然具有挑战性。
结论
我们提出了一个新的基准 M3KE,以评估中国LLM在中国教育体系的各个层次学习和应用多学科知识的能力。M3KE 包含 71 个任务和 20,447 个问题。我们发现所有评估过的最先进的开源中国法学硕士都明显落后于 GPT-3.5。我们希望这个基准可以用来跟踪和推动中国LLM的进一步发展。
标签:Multi,知识,M3KE,Knowledge,模型,样本,LLM,评估 From: https://blog.csdn.net/weixin_43961909/article/details/141175693