五、结果
我们对Llama 3进⾏了⼴泛的系列评估,研究了以下⽅⾯的性能:(1) 预训练语⾔模型,(2) 后训练语⾔模型,以及 (3) Llama 3的安全特性。我们在下⾯的各个⼩节中分别呈现这些评估的结果。
5.1 预训练语⾔模型
在本节中,我们报告了我们预训练的Llama 3(第3节)的评估结果,并将其与各种其他类似规模的模型进⾏了⽐较。我们尽可能地复制了竞争对⼿模型的结果。对于⾮Llama模型,我们报告了公开报告的最佳分数,或者(在可能的情况下)我们⾃⼰复制的结果。这些评估的具体情况,包括配置(如样本数量、指标)以及其他相关的超参数和设置,可以在我们这⾥的Github仓库中访问。此外,我们正在发布作为评估⼀部分⽣成的数据,并与公开可⽤的基准进⾏⽐较,这些可以在Huggingface这⾥找到。我们根据标准基准评估我们的模型质量:
(5.1.1) 标准基准,(5.1.2) 对多项选择题设置变化的鲁棒性,以及 (5.1.3) 对抗性评估。我们还进⾏了污染分析,以估计我们的评估在多⼤程度上受到训练数据污染的影响(第5.1.4节)。
5.1.1 标准基准
为了将我们的模型与当前的最先进技术进⾏⽐较,我们在表8中显⽰的⼤量标准基准评估上评估了Llama 3。这些评估涵盖了⼋个顶级类别:(1) 常识推理;(2) 知识;(3) 阅读理解;(4) 数学、推理和问
题解决;(5) ⻓⽂本环境;(6) 代码;(7) 对抗性评估;以及 (8) 综合评估。
实验设置。对于每个基准,我们计算了Llama 3以及其他各种类似规模的预训练模型的分数。在可能的情况下,我们使⽤我们⾃⼰的流程重新计算其他模型的数字。为了确保公平⽐较,我们选择我们计算的分数和该模型的报告数字之间的最佳分数,该模型具有可⽐或更保守的设置。你可以在这⾥找到我们评估设置的更多细节。对于⼀些模型,不可能(重新)计算基准值,例如,因为预训练模型未发布,或者API不提供对对数概率的访问。特别是,这对于所有与Llama 3 405B相当的模型都是如此。因此,我们不报告Llama 3 405B的类别平均值,这需要所有基准的所有数字都可⽤。
显著性值。在计算基准分数时,有⼏个来源的变异性会导致对模型在基准意图测量上的性能估计不精确,例如少量样本演⽰、随机种⼦和批量⼤⼩。这使得理解⼀个模型是否在统计上显著优于另⼀个模型变得具有挑战性。为此,我们报告了我们的分数以及来⾃基准数据选择的变异性的95%置信区间(CIs)。我们使⽤公式(Madaan等⼈,2024b)分析计算95%
其中S是⾸选基准分数,N是基准的样本量。我们注意到,因为基准数据的变异性不是唯⼀的变异性来源,这些95% CI是能⼒估计中实际变异性的下限。对于不是简单平均值的指标,省略了CIs。
8B和70B模型的结果。图12报告了Llama 3 8B和70B在常识推理、知识、阅读理解、数学和推理以及代码基准上的平均表现。结果显⽰,Llama 3 8B在⼏乎所有类别中都优于竞争模型,⽆论是按类别获胜率还是按类别平均表现来看。我们还发现,Llama 3 70B在⼤多数基准上⼤幅度优于其前⾝Llama 2 70B,例外的是可能已经饱和的常识基准。Llama 3 70B也优于Mixtral 8x22B。
所有模型的详细结果。表9、10、11、12、13和14展⽰了预训练的Llama 3 8B、70B和405B模型在阅读理解任务、编码任务、常识理解任务、数学推理任务和⼀般任务上的基准表现。这些表格将Llama 3的表现与类似规模的模型进⾏了⽐较。结果显⽰,Llama 3 405B在其类别中与其他模型表现相当。特别是,Llama 3 405B在很⼤程度上优于以前的开源模型。对于⻓⽂本环境,我们在第5.2节中展⽰了更全⾯的结果(包括像针堆中找针这样的探测任务)。
5.1.2 模型鲁棒性
除了在基准测试中的表现,鲁棒性是预训练语⾔模型质量的重要因素。我们研究了我们的预训练语⾔模型对多项选择题(MCQ)设置中设计选择的鲁棒性。先前的⼯作报告称,模型表现可能对这些设置中看似随意的设计选择敏感,例如,模型分数甚⾄排名可能会随着上下⽂⽰例的顺序和标签(Lu等⼈,2022;Zhao等⼈,2021;Robinson和Wingate,2023;Liang等⼈,2022;Gupta等⼈,2024)的变化⽽变化,提⽰的确切格式(Weber等⼈,2023b;Mishra等⼈,2022),或答案选择格式和顺序(Alzahrani等⼈,2024;Wang等⼈,2024a;Zheng等⼈,2023)。受此⼯作的启发,我们使⽤MMLU基准来评估我们的预训练模型对以下⽅⾯的鲁棒性:(1) 少量样本标签偏⻅,(2) 标签变体,(3) 答案顺序,和 (4) 提⽰格式:
• 少量样本标签偏⻅。按照Zheng等⼈(2023)和Weber等⼈(2023a)的⽅法,我们研究了四样本⽰例中标签分布的影响。具体来说,我们考虑以下设置:
- 所有少量样本⽰例具有相同的标签(A A A A);
- 所有⽰例具有不同的标签(A B C D);
- 只有两个标签存在(A A B B 和 C C D D)。
• 标签变体。我们还研究了模型对不同选择标记集的反应。我们考虑了Alzahrani等⼈(2024)提出的两组标记:即⼀组常⻅的语⾔独⽴标记($ & # @)和⼀组没有隐含相对顺序的稀有标记(œ § з ü)。我们还考虑了规标签的两个版本(A. B. C. D. 和 A) B) C) D))以及⼀个数字列表(1. 2. 3. 4.)。
• 答案顺序。按照Wang等⼈(2024a)的⽅法,我们计算了不同答案顺序下结果的稳定性。为此,我们根据固定的排列重新映射数据集中的所有答案。例如,对于排列A B C D,所有标签为A和B的答案选项保留其标签,所有标签为C的答案选项得到标签D,反之亦然。
• 提⽰格式。我们评估了五个任务提⽰中表现的差异,这些提⽰在提供的信息量上有所不同:⼀个提⽰简单地要求模型回答问题,⽽其他提⽰则断⾔模型的专业知识或应选择最佳答案。
图13展⽰了我们关于模型对标签变体(左侧)和少量样本标签偏⻅(右侧)的鲁棒性实验结果。结果显⽰,我们的预训练语⾔模型对多项选择题标签的变化和少量样本提⽰标签的结构⾮常鲁棒。特别是对于405B参数模型,这种鲁棒性尤为显著。
图14展⽰了我们对答案顺序和提⽰格式鲁棒性研究的结果。图中的结果进⼀步强调了我们预训练语⾔模型的性能鲁棒性,特别是Llama 3 405B模型。
5.1.3 对抗性基准
除了上述基准测试外,我们还在三个领域中的⼏个对抗性基准上进⾏评估:问答、数学推理和释义检测。这种测试探测了模型在特别创建的具有挑战性的任务上的能⼒,并且可能也会指出对基准测试的过度拟合。对于问答,我们使⽤对抗性SQuAD(Jia和Liang,2017)和Dynabench SQuAD(Kiela等⼈,2021)。对于数学推理,我们使⽤GSM-Plus(Li等⼈,2024c)。对于释义检测,我们使⽤PAWS(Zhang等⼈,2019)。
此处为图表(Figure 15)
我们使⽤的⾮对抗性基准测试是SQuAD(Rajpurkar等⼈,2016)⽤于问答,GSM8K⽤于数学推理,QQP(Wang等⼈,2017)⽤于释义检测。每个数据点代表⼀对对抗性和⾮对抗性数据集(例如QQP与PAWS配对),我们显⽰了类别内所有可能的配对。对⻆线⿊线代表了对抗性和⾮对抗性数据集之间的平等⸺位于线上将表明模型⽆论对抗性如何都有相似的表现。
在释义检测⽅⾯,⽆论是预训练还是后训练模型,似乎都没有受到PAWS构建时所考虑的那种对抗性的影响,这与前⼀代模型相⽐是⼀个实质性的进步。这⼀结果证实了Weber等⼈(2023a)的发现,他们也发现⼤型语⾔模型对⼏种对抗性数据集中发现的那种虚假相关性不太敏感。然⽽,对于数学推理和问答,对抗性表现显著低于⾮对抗性表现。这种模式对于预训练和后训练模型都是相似的。
5.1.4 污染分析
我们进⾏了污染分析,以估计基准测试分数在多⼤程度上可能受到预训练语料库中评估数据污染的影响。在以前的⼯作中,使⽤了⼏种不同的污染⽅法,具有各种不同的超参数⸺我们参考Singh等⼈(2024)的概述。这些⽅法中的任何⼀种都可能存在误报和漏报,如何最好地进⾏污染分析⽬前仍是⼀个开放的研究领域。在这⾥,我们主要遵循Singh等⼈(2024)的建议。
方法。具体来说,Singh等⼈(2024)建议基于哪种⽅法在“⼲净”数据集部分和整个数据集之间产⽣最⼤的差异来选择污染检测⽅法,他们称之为估计的性能提升。对于我们所有的评估数据集,我们基于8-gram重叠对⽰例进⾏评分,这种⽅法被Singh等⼈(2024)发现对许多数据集是准确的。我们认为如果数据集D的⼀个⽰例的令牌⽐例TD是⾄少在预训练语料库中出现⼀次的8-gram的⼀部分,则该⽰例被污染。我们为每个数据集单独选择TD,基于哪个值在三种模型⼤⼩上显⽰出最⼤的显著估计性能提升。
结果。在表15中,我们报告了所有关键基准测试中被认为是污染的评估数据的百分⽐,如上所述,以实现最⼤的估计性能提升。从表中,我们排除了结果不显著的基准测试的数字,例如,因为⼲净或污染的集合中⽰例太少,或者因为观察到的性能提升估计显⽰出极其不稳定的⾏为。在表15中,我们观察到对于⼀些数据集,污染有很⼤的影响,⽽对于其他数据集则没有。例如,对于PiQA和HellaSwag,污染的估计和性能提升的估计都很⾼。另⼀⽅⾯,对于Natural Questions,估计的52%污染似乎对性能⼏乎没有影响。对于SQuAD和MATH,低阈值产⽣⾼⽔平的污染,但没有性能提升。这表明污染对这些数据集要么没有帮助,要么需要更⼤的n来获得更好的估计。最后,对于MBPP、HumanEval、MMLU和MMLU-Pro,可能需要其他污染检测⽅法:即使使⽤更⾼的阈值,8-gram重叠也给出了如此⾼的污染分数,以⾄于⽆法获得良好的性能提升估计。
5.2 后训练语⾔模型
我们展⽰了我们的Llama 3后训练模型在不同能⼒基准测试中的结果。与预训练类似,我们正在发布作为评估⼀部分⽣成的数据,并与公开可⽤的基准进⾏⽐较,这些可以在Huggingface这⾥找到。我们评估设置的更多细节可以在这⾥找到。
基准测试和指标。表16包含了按能⼒组织的所有必要基准测试的概述。我们通过运⾏每个基准测试提⽰的精确匹配来对后训练数据进⾏去污染处理。除了标准的学术基准测试,我们还对不同能⼒进⾏了⼴泛的⼈类评估。详细信息在第5.3节中提供。
实验设置。我们采⽤了与预训练阶段类似的实验设置,并对Llama 3与其他相似规模和能⼒的模型进⾏⽐较分析。尽可能地,我们⾃⼰评估其他模型的性能,并与报告的数字进⾏⽐较,选择最佳分数。你可以在这⾥找到我们评估设置的更多细节。
5.2.1 ⼀般知识和指令遵循基准测试
我们在表2中对Llama 3在⼀般知识和指令遵循的基准测试中进⾏评估。
⼀般知识。我们利⽤MMLU(Hendrycks等⼈,2021a)和MMLU-Pro(Wang等⼈,2024b)来评估Llama 3在基于知识的问题回答⽅⾯的能⼒。对于MMLU,我们在没有CoT的5次射击标准设置下报告⼦任务准确性的宏观平均值。MMLU-Pro是MMLU的扩展,包含了更具挑战性、以推理为重点的问题,消除了嘈杂的问题,并将选项集从四个扩展到⼗个。鉴于其对复杂推理的专注,我们为MMLU-Pro报告5次射击CoT。所有任务都格式化为⽣成任务,类似于simple-evals(OpenAI,2024)。 如表2所⽰,我们的8B和70B Llama 3变体在两项⼀般知识任务上都优于其他类似⼤⼩的模型。我们的405B模型优于GPT-4和Nemotron 4 340B,Claude 3.5 Sonnet在更⼤的模型中领先。
指令遵循。我们通过IFEval(Zhou等⼈,2023)评估Llama 3和其他模型遵循⾃然语⾔指令的能⼒。IFEval包括⼤约500条“可验证指令”,如“⽤超过400字写”,可以通过启发式⽅法验证。我们在表2中报告在严格和宽松约束下提⽰级和指令级准确性的平均值。注意,所有Llama 3变体在IFEval中都优于可⽐模型。
5.2.2 熟练度考试
接下来,我们对模型进⾏了⼴泛的熟练度考试评估,这些考试最初是为测试⼈类⽽设计的。我们从公开可⽤的官⽅来源获取这些考试;对于⼀些考试,我们报告每个熟练度考试的不同考试集的平均分数。具体来说,我们平均:
- GRE:官⽅GRE练习测试1和2(来⾃教育测试服务);
- LSAT:官⽅预测试71、73、80和93;
- SAT:2018年版官⽅SAT学习指南中的8次考试;
- AP:每个科⽬的⼀次官⽅练习考试;
- GMAT官⽅GMAT在线考试。
这些考试中的问题包含多项选择题样式和⽣成问题。我们排除了附有图像的问题。对于包含多个正确选项的GRE考试,我们只有在模型选择了所有正确选项时才将输出视为正确。我们在每个考试有超过1个考试集的情况下使⽤少量射击提⽰进⾏评估。我们将分数按130-170的范围进⾏缩放,⽤于GRE,并报告所有其他考试的准确性。
我们的结果可以在表17中找到。我们观察到,我们的Llama 3 405B模型的表现与Claude 3.5 Sonnet和GPT-4 4o⾮常相似。我们的70B模型的表现更为令⼈印象深刻。它明显优于GPT-3.5 Turbo,在许多测试中击败了Nemotron 4 340B。
5.2.3 编码基准测试
我们评估Llama 3在多个流⾏的Python和多编程语⾔基准测试中的代码⽣成能⼒。为了衡量我们的模型在⽣成功能正确代码⽅⾯的有效性,我们使⽤pass@N指标,该指标评估在N次⽣成中⼀组单元测试的通过率。我们报告pass@1的结果。
Python代码⽣成。HumanEval(Chen等⼈,2021)和MBPP(Austin等⼈,2021)是Python代码⽣成的流⾏基准测试,专注于相对简单、⾃包含的函数。HumanEval+(Liu等⼈,2024a)是HumanEval的增强版本,其中⽣成了更多测试以避免误报。MBPP EvalPlus基础版本(v0.2.0)是从原始MBPP(训练和测试)数据集中的974个初始问题中精选出的378个结构良好问题的集合(Liu等⼈,2024a)。这些基准测试的结果在表18中报告。在这些基准测试的Python变体中,Llama 3 8B和70B优于类似⼤⼩的模型。对于最⼤的模型,Llama 3 405B、Claude 3.5 Sonnet和GPT-4o表现相似,GPT-4o显⽰出最强的结果。
多编程语⾔代码⽣成。为了评估Python之外的代码⽣成能⼒,我们报告了MultiPL-E(Cassano等⼈,2023)基准测试的结果,该基准测试基于从HumanEval和MBPP翻译的问题。表19中报告了⼀些流⾏编程语⾔的⼦集的结果。请注意,与表18中的Python对应项相⽐,性能有显著下降。
5.2.4 多语⾔基准测试
Llama 3⽀持8种语⾔⸺英语、德语、法语、意⼤利语、葡萄⽛语、印地语、西班⽛语和泰语,尽管底层的基础模型已经在更⼴泛的语⾔集合上进⾏了训练。在表20中,我们展⽰了在多语⾔MMLU(Hendrycks等⼈,2021a)和多语⾔⼩学数学(MGSM)(Shi等⼈,2022)基准测试中评估Llama 3的结果。
多语⾔MMLU。我们使⽤⾕歌翻译翻译MMLU问题、少量样本⽰例和答案。我们保留任务说明为英语,并在5次射击设置中进⾏评估。在表20中,我们报告了德语、法语、意⼤利语、葡萄⽛语、印地语、西班⽛语和泰语的平均结果。
MGSM(Shi等⼈,2022)。我们使⽤simple-evals(OpenAI,2024)中相同的⺟语提⽰,在0次射击CoT设置中测试我们的模型。在表20中,我们报告了MGSM基准测试涵盖的语⾔的平均结果。
我们发现Llama 3 405B在MGSM上优于⼤多数其他模型,平均达到了91.6%。在MMLU上,与上⾯显⽰的英语MMLU结果⼀致,Llama 3 405B落后GPT-4o 2%。另⼀⽅⾯,Llama 3 70B和8B模型在两项任务中都表现出⾊,以较⼤的差距领先于竞争对⼿。
5.2.5 数学与推理基准测试
我们的数学和推理基准测试结果如表2所⽰。Llama 3 8B模型在GSM8K、MATH和GPQA上的表现优于其他类似⼤⼩的模型。我们的70B模型在其所有基准测试中的表现显著优于同类别中的其他模型。最后,Llama 3 405B模型在GSM8K和ARC-C中是其类别中最好的,⽽在MATH中则是第⼆好的模型。在GPQA上,它与GPT-4 4o表现相当,⽽Claude 3.5 Sonnet则以显著的优势成为最好的模型。
5.2.6 ⻓⽂本环境基准测试
我们考虑了⼀系列涵盖各个领域和⽂本类型的任务。在下⾯列出的基准测试中,我们专注于使⽤⽆偏评估协议的⼦任务,即基于准确性的指标⽽⾮n-gram重叠指标。我们还优先考虑我们发现变异性较低的任务。
- Needle-in-a-Haystack(Kamradt,2023)衡量模型检索隐藏在⻓⽂档随机部分中的信息的能⼒。我们的Llama 3模型展⽰了完美的针头检索性能,成功检索到所有⽂档深度和上下⽂⻓度中的100%针头。我们还测量了Multi-needle(表21)的性能,这是Needle-in-a-Haystack的⼀个变体,我们在上下⽂中插⼊四个针头并测试模型是否能够检索到其中的两个。我们的Llama 3模型实现了接近完美的检索结果。
- ZeroSCROLLS(Shaham等⼈,2023)是⼀个针对⻓⽂本的零样本⾃然语⾔理解基准测试。我们报告验证集上的数字,因为真实答案并未公开可⽤。我们的Llama 3 405B和70B模型在这项基准测试的多个任务中要么匹配要么超越了其他模型。
- InfiniteBench(Zhang等⼈,2024)要求模型理解上下⽂窗⼝中的⻓依赖关系。我们在En.QA(⼩说上的QA)和En.MC(⼩说上的多项选择QA)上评估Llama 3,其中我们的405B模型超越了所有其他模型。特别是在En.QA上,提升尤为显著。
5.2.7 工具使用性能
我们在⼀系列零样本⼯具使⽤(即函数调⽤)基准测试中评估我们的模型:Nexus(Srinivasan等⼈,2023)、API-Bank(Li等⼈,2023b)、Gorilla API-Bench(Patil等⼈,2023)和伯克利函数调⽤排⾏榜(BFCL)(Yan等⼈,2024)。结果在表22中显⽰。 在Nexus上,我们的Llama 3变体与其对应模型相⽐表现最佳。在API-Bank上,我们的Llama 3 8B和70B模型在其所处类别中显著超越其他模型。405B模型仅落后Claude 3.5 Sonnet 0.6%。最后,我们的405B和70B模型在BFCL上表现具有竞争⼒,在其各⾃的尺⼨类别中接近第⼆名。Llama 3 8B在其类别中表现最佳。
⼈类评估。我们还进⾏⼈类评估以测试模型的⼯具使⽤能⼒,重点关注代码执⾏任务。我们收集了2000个与代码执⾏(不包括绘图或⽂件上传)、图表⽣成和⽂件上传相关的⽤⼾提⽰。这些提⽰收集⾃LMSys数据集(Chiang等⼈,2024)、GAIA基准测试(Mialon等⼈,2023b)、⼈类注释者和合成⽣成。
我们使⽤OpenAI的Assistants API将Llama 3 405B与GPT-4o进⾏⽐较。结果在图16中提供。在仅限⽂本的代码执⾏任务和图表⽣成上,Llama 3 405B显著超越了GPT-4o。然⽽,它在⽂件上传⽤例上落后。