全文总结
本文介绍了phi-1.5技术报告,探讨了更小的Transformer基语言模型的能力。
研究背景
-
背景介绍:
这篇文章的研究背景是近年来大型语言模型(LLMs)在自然语言处理领域的显著进步,特别是像GPT-4这样的最新一代模型展示了前所未有的能力。然而,这些模型的规模也带来了巨大的经济成本和能源消耗问题。 -
研究内容:
该问题的研究内容包括:探索小型LLMs是否能够实现与大型模型相似的能力,特别是通过使用高质量、类似教科书的数据集来增强学习过程。 -
文献综述:
该问题的相关工作有:之前的工作研究了“speaking fluent English”的任务,后续工作则关注了Python编程任务。本文在此基础上,聚焦于常识推理这一更具挑战性的概念。
研究方法
这篇论文提出了phi-1.5模型。具体来说:
-
模型架构:
phi-1.5的架构与之前的phi-1模型相同,是一个具有24层、32头、每头维度为64的Transformer模型。使用了旋转嵌入和flash-attention加速训练。 -
训练数据:
phi-1.5的训练数据包括phi-1的训练数据(70亿令牌)和新创建的合成“教科书样”数据(约200亿令牌),用于教授常识推理和世界的一般知识。新数据是通过精心选择的20000个主题生成的。 -
训练细节:
phi-1.5从随机初始化开始训练,使用恒定学习率2e-4,权重衰减0.1,Adam优化器,批量大小为2048,训练1500亿令牌,其中80%来自新创建的合成数据,20%来自phi-1的训练数据。
实验设计
-
基准测试:
文章在多个标准自然语言基准上评估了phi-1.5的性能,包括常识推理、语言理解、数学和编程任务。具体使用的基准包括WinoGrande、ARC-Easy、ARC-Challenge、BoolQ、SIQA、PIQA、Hellaswag、MMLU、OpenbookQA、SQUAD、GSM8K、HumanEval和MBPP。 -
数据集:
为了评估phi-1.5的性能,文章使用了多个数据集,包括phi-1的训练数据和新创建的合成数据。此外,还创建了两个其他模型phi-1.5-web-only和phi-1.5-web,以探究传统网络数据的重要性。
结果与分析
-
常识推理:
phi-1.5在常识推理基准上的表现与Llama2-7B、Falcon-7B和Vicuna-13B相当,甚至在某些任务上超过了这些模型。 -
语言理解:
在语言理解任务上,phi-1.5的表现与其他模型相差不大,但在某些任务上略有优势。 -
多步推理:
phi-1.5在多步推理任务上的表现显著优于其他模型,包括Llama-65B。phi-1.5-web在这些任务上的表现略优于phi-1.5,表明网络数据在这些任务上有一定帮助。 -
毒性内容生成:
phi-1.5在ToxiGen数据集和手工设计的评估集上的毒性内容生成较少,表现优于Llama2-7B和Falcon-7B。
结论
本文介绍了phi-1.5,一个13亿参数的LLM,主要在合成数据集上训练,表现出与更大模型相当的能力,甚至在某些任务上超过它们。研究结果表明,数据质量在LLMs的能力中起着重要作用,甚至比模型规模更重要。phi-1.5的开源旨在促进对LLMs的紧迫问题的进一步研究,如上下文学习、毒性内容生成的缓解策略和幻觉问题。未来的研究方向包括扩展合成数据集以涵盖更广泛的主题,并为phi-1.5进行更具体的任务微调。
这篇论文展示了小型LLMs在高质量数据集上的潜力,为更高效和环保的AI系统铺平了道路。
核心速览
研究背景
- 研究问题:这篇文章探讨了较小的基于Transformer的语言模型的能力,特别是其在常识推理任务中的表现。研究的核心问题是“语言模型需要多大才能达到某些能力”。
- 研究难点:该问题的研究难点包括:大规模模型的训练成本高昂,科学上需要验证较小规模模型是否能达到相似的能力,负责任的AI需要考虑大规模模型的能耗和可控性问题,以及如何让紧凑模型具备前沿能力。
- 相关工作:相关工作包括TinyStories(1000万参数模型)和phi-1(13亿参数模型)的研究,这些工作分别探讨了流畅英语表达和简单Python编程任务。本文在此基础上,进一步关注常识推理任务,创建了phi-1.5模型。
研究方法
这篇论文提出了phi-1.5模型,用于解决语言模型在常识推理任务中的表现问题。具体来说,
-
模型架构:phi-1.5及其变体的架构与之前的phi-1模型相同,采用Transformer结构,具有24层、32头和每个头维度为64。使用旋转嵌入和上下文长度为2048。为了加速训练,使用了flash-attention技术,并使用codegen-mono的分词器。
-
训练数据:phi-1.5的训练数据结合了phi-1的70亿令牌数据和200亿令牌的合成数据,主要用于教授常识推理和世界常识(科学、日常生活、心智理论等)。合成数据的生成基于20K个精心选择的主题,并使用网络数据集样本进行多样性增强。
-
训练细节:phi-1.5从随机初始化开始训练,学习率为2e-4(无预热),权重衰减为0.1。使用Adam优化器,动量为0.9、0.98和epsilon为1e-7。使用fp16和DeepSpeed ZeRO Stage 2进行训练。批量大小为2048,训练1500亿令牌,其中80%来自新创建的合成数据,20%来自phi-1的训练数据。
-
过滤网络数据:为了探讨传统网络数据的重要性,创建了两个其他模型:phi-1.5-web-only和phi-1.5-web。phi-1.5-web-only模型仅在过滤后的网络数据上训练,而phi-1.5-web模型则在过滤后的网络数据、phi-1的代码数据和新生成的合成NLP数据上进行混合训练。
实验设计
- 数据收集:训练数据包括phi-1的70亿令牌数据和200亿令牌的合成数据。合成数据通过精心选择的主题生成,并使用网络数据集样本进行多样性增强。
- 实验设计:评估模型在标准自然语言基准测试上的表现,包括常识推理、语言理解、数学和编程任务。使用LM-Eval Harness进行零样本准确率评估,并对86个特定提示进行手动评分以评估有毒内容生成的潜力。
- 样本选择:在常识推理任务中,选择了五个最广泛使用的基准测试:WinoGrande、ARC-Easy、ARC-Challenge、BoolQ和SIQA。在语言理解和知识基准测试中,使用了PIQA、Hellaswag、OpenbookQA、SQUAD和MMLU。在多步推理基准测试中,使用了GSM8K和HumanEval/MBPP。
- 参数配置:phi-1.5模型使用24层、32头的Transformer架构,上下文长度为2048,使用旋转嵌入和flash-attention技术。训练过程中使用fp16和DeepSpeed ZeRO Stage 2进行优化。
结果与分析
- 常识推理:phi-1.5在常识推理基准测试中的表现与10倍大的模型相当,甚至在多步推理任务中表现优异。phi-1.5-web-only模型在仅使用过滤后的网络数据上也表现出色,超过了所有现有类似规模的模型。
- 语言理解:phi-1.5在语言理解任务中的表现与其他模型相当,取决于具体任务。phi-1.5-web模型在使用网络数据后表现有所提升。
- 数学和编程:phi-1.5在数学和编程任务中表现优于所有现有模型,包括Llama 65B。phi-1.5-web模型在这些推理任务中表现更为显著,表明网络数据在这方面提供了更多帮助。
- 毒性内容生成:phi-1.5在生成有毒内容方面的倾向性低于其他基模型,尤其是使用合成数据训练的模型。phi-1.5-web模型在使用网络数据后,毒性内容生成有所增加。
总体结论
本文提出了phi-1.5模型,展示了在较小规模下实现高水平能力是可行的。研究表明,数据质量比模型规模更重要。phi-1.5模型在常识推理和多步推理任务中表现优异,且在生成有毒内容方面的倾向性较低。通过开源phi-1.5模型,研究人员可以在更具挑战性的问题上进行进一步研究,如上下文学习、偏见缓解和幻觉问题。未来的研究方向包括扩展合成数据集以涵盖更广泛的主题,并针对特定任务对phi-1.5进行微调。
论文评价
优点与创新
- 模型规模与性能:phi-1.5是一个13亿参数的模型,其性能在常识推理任务上堪比10倍更大的模型,甚至在更复杂的推理任务如小学数学和基本编程上超越了大多数非前沿大型语言模型。
- 数据集质量:phi-1.5的训练数据几乎完全由合成数据组成,这有助于控制LLM生成有毒和有偏见内容的问题。
- 多步骤推理能力:phi-1.5在多步骤推理任务上表现出色,显著优于其他模型。
- 开源模型:phi-1.5及其相关模型开源,促进了进一步研究LLM的紧迫问题,如上下文学习、偏见缓解和幻觉。
- 合成数据的优势:使用合成数据进行训练似乎减少了有毒内容生成的倾向,表明数据质量在LLM能力中起到了重要作用。
不足与反思
- 模型能力仍有差距:尽管phi-1.5在某些任务上表现出色,但其能力仍远不及最大规模的LLM。
- 未来工作方向:未来的工作包括扩展合成数据集以覆盖更广泛的主题,并针对特定任务对phi-1.5进行微调,以实现类似ChatGPT的能力。
关键问题及回答
问题1:phi-1.5模型在常识推理任务中的具体表现如何?与其他模型相比有何优势?
phi-1.5模型在常识推理任务中表现出色,其零样本准确率与Llama2-7B、Falcon-7B和Vicuna-13B等10倍大的模型相当。特别是在多步推理任务中,phi-1.5的表现超过了大多数非前沿LLMs。此外,phi-1.5-web-only模型在仅使用过滤网络数据的情况下已经优于所有现有类似规模的模型,表明合成数据在常识推理任务中的重要性。
问题2:phi-1.5模型的训练数据是如何构成的?合成数据在其中的作用是什么?
phi-1.5的训练数据由两部分组成:phi-1的70亿令牌数据和200亿令牌的合成“教科书式”数据。合成数据是通过精心选择的20K主题生成的,旨在教授常识推理和世界的一般知识(如科学、日常活动、心理理论等)。合成数据的使用有助于避免有毒和偏见内容的生成,并且在训练过程中表现出对毒性内容生成的抑制作用。
问题3:phi-1.5模型在数学和编程任务中的表现如何?与其他模型相比有何差异?
phi-1.5在数学和编程任务中表现优异,超过了所有现有模型,包括Llama 65B。在数学任务中,phi-1.5的零样本通过率为40.2%,而在编程任务中,通过率为37.7%。phi-1.5-web模型在使用网络数据后表现更为显著,表明网络数据在提高这些任务的性能方面起到了重要作用。相比之下,纯合成数据训练的phi-1.5模型在这些任务中也表现良好,但略逊于网络数据增强的模型。
标签:代码生成,phi,常识推理,1.5,模型,任务,数据 From: https://blog.csdn.net/sinat_37574187/article/details/143376610