Qwen2技术报告解读

摘要

本报告介绍了最新的大型语言模型和多模态模型Qwen2系列。该系列包括参数范围从0.5亿到720亿的基础型和指令微调型语言模型，涵盖密集模型和混合专家模型。Qwen2在多个基准测试中表现优异，超越了之前的开源模型，并在语言理解、生成、多语言能力等方面展现出竞争力。旗舰模型Qwen2-72B在多项基准测试中得分领先，指令微调版本Qwen2-72B-Instruct在多语言翻译和实时代码基准测试中表现出色。Qwen2支持约30种语言，显示出强大的多语言能力。模型权重已在Hugging Face、ModelScope和GitHub上公开，提供量化、微调和部署资源，以促进社区创新和应用研究。

1 介绍

随着ChatGPT的兴起，全球对大型语言模型的关注度激增，Llama系列模型进一步推动了开源社区的热情。近期，Claude-3 Opus和GPT-4o在Chatbot Arena上表现出色，Llama-3被认为达到了GPT-4的水平。Qwen、Mistral、Gemma等模型以开源方式发布，追求类似OpenAI GPT系列的进步。Qwen系列近期推出了Qwen1.5、Qwen-VL和Qwen-Audio。新成员Qwen2是一系列基于Transformer架构的大型语言模型，包括基础模型和指令微调模型，参数范围从5亿到720亿不等，适用于不同规模的部署。所有模型在包含7万亿词元的高质量数据集上预训练，涵盖广泛领域和语言。Qwen2在多个基准测试中表现优异，指令微调版本Qwen2-72B-Instruct在MT-Bench、Arena-Hard和LiveCodeBench中得分领先，基础语言模型Qwen2-72B在MMLU、GPQA、HumanEval、GSM8K和BBH中表现出色。

TOKENIZER与模型

2.1 TOKENIZER

Qwen2采用基于字节级字节对编码的tokenizer，具有高编码效率和多语言能力。所有模型使用包含151,643个常规词元和3个控制词元的通用词汇表，适用于分布式训练。

2.2 模型架构

Qwen2基于Transformer架构，包含密集模型和混合专家（MoE）模型。密集模型采用分组查询注意力（GQA）和双块注意力（DCA），优化KV缓存使用和长上下文性能。MoE模型通过细粒度专家和专家路由机制提高性能和适应性。

2.2.1 QWEN2密集模型

Qwen2密集模型由多个Transformer层组成，采用分组查询注意力（GQA）代替多头注意力（MHA），优化KV缓存使用。双块注意力（DCA）扩展上下文窗口，提高长上下文性能。

使用SwiGLU激活、旋转位置嵌入（RoPE）、QKV偏置、RMSNorm和预归一化保证训练稳定性。

2.2.2 QWEN2混合专家模型

Qwen2混合专家模型与Qwen1.5-MoE-A2.7B相似，采用细粒度专家和专家路由机制。细粒度专家提供更丰富的专家组合，提高性能和适应性。专家初始化通过复制和打乱FFN参数，引入随机性提高探索能力。

2.2.3 模型配置

Qwen2系列包含五个规模的模型：Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。表1列出超参数和重要信息，如预训练词元数量和KV大小。Qwen2-57B-A14B从Qwen2-7B扩展而来，具有较低的KV大小，减少内存占用，提高长上下文推理任务性能。

3. 预训练

3.1 预训练数据

Qwen2的预训练数据集进行了显著改进，包括质量提升、数据扩充和分布改进。数据集从Qwen1.5的3万亿词元扩充到7万亿词元，支持约30种语言。尽管尝试了12万亿词元的数据集，但未显著提升性能，最终选择7万亿词元的数据集。Qwen2-0.5B使用12万亿词元的数据集，MoE模型额外接受4.5万亿词元的预训练。高质量多任务指令数据整合到预训练过程中，增强上下文学习和指令遵循能力。

3.2 长上下文训练

为提升Qwen2的长上下文处理能力，预训练最后阶段将上下文长度从4096词元扩充到32768词元，并引入高质量长数据。修改旋转位置嵌入（RoPE）基频为1000000，优化长上下文性能。采用YARN机制和双块注意力机制，使模型处理多达131072词元的序列，保持高性能。初步实验中，最小困惑度下降证明了这些改进的有效性。

4. 后训练

4.1 后训练数据

后训练数据包括演示数据和偏好数据，用于监督微调（SFT）和人类反馈强化学习（RLHF）。数据构建过程包括协作式数据标注和自动数据合成。协作式数据标注涉及自动本体提取、指令选择、指令演变和人工标注。自动数据合成采用拒绝采样、执行反馈、数据再利用和基于规则的反馈等策略，减少人工标注需求，提高数据质量和可靠性。

4.1.1 协作式数据标注

通过InsTag提取指令数据本体，人工优化确保准确性。选择多样性、语义丰富、复杂和意图完整的指令。采用自我演变策略增加指令复杂性。人工标注获取多个响应并排序，确保最佳响应符合标准。

4.1.2 自动数据合成

设计多种自动对齐策略应对大规模标注挑战。拒绝采样提高数学任务解决方案质量。执行反馈评估编码任务和指令遵循情况。数据再利用生成高质量文学作品和角色扮演数据。基于规则的反馈确保响应符合安全和价值观准则。

4.2 监督微调

汇集50多万个示例的大型指令数据集，涵盖多种技能。模型在32,768词元序列长度上进行两个轮次微调，学习率逐渐降低，应用权重衰减和梯度裁剪解决过拟合问题。

4.3 人类反馈强化学习

RLHF训练机制包括离线训练和在线训练。离线训练使用预编译偏好数据集通过DPO优化。在线训练利用奖励模型实时反馈，采样多个响应形成偏好对，采用在线合并优化器减轻对齐代价。

5. 评估

综合评估Qwen2模型（基础模型和指令调优模型），涵盖常识理解、语言理解、生成、编码、数学、推理等能力。基础模型通过现有基准数据集评估，指令调优模型则进行人类偏好评估。

5.1 基础语言模型

评估Qwen2系列基础语言模型，使用知识和基本能力基准数据集，并应用多语言基准数据集。比较不同规模的模型与最先进模型，评估其核心能力。

5.1.1 核心能力

采用少样本或零样本提示评估基础语言模型，关注自然语言理解、通用问答、编码、数学、科学知识、推理等性能。使用多种数据集评估，包括MMLU、GPQA、Theorem QA等。

5.2 指令微调模型

多层面评估指令微调模型，利用公开数据集和基准测试评估基础技能和人类偏好，进行详细内部检测和长文本语境能力评估，并实施多语言安全评估和红队演练。

5.2.1 公开基准评估

综合自动和人工评估指令微调模型的能力和人类偏好。使用类似数据集评估自然语言理解、编码、数学和推理，并通过MT-Bench、Arena-Hard等基准测试评估人类偏好对齐和指令遵循性能。

5.2.2 内部自动评估

尽管有许多公开基准数据集用于评估，但认为这些数据集不足以全面了解大型语言模型（LLMs）的能力。因此，制作了一系列内部数据集来评估模型的不同能力，如知识理解、文本生成、编码等。评估采用中文和英文进行，结果分别汇总于表10和表11。

中文评估

在中文评估中，重点比较Qwen2系列模型与Qwen1.5系列对应模型的性能。Qwen2 - 1.5B - Instruct在几乎所有评估中通常优于Qwen1.5 - 1.8B - Chat，即使参数更少。Qwen2 - 72B的性能优于Qwen1.5 - 110B - Chat，尽管后者参数更多。混合专家（MoE）模型在大多数领域优于Qwen1.5 - 32B - Chat，但知识理解除外。计划继续对MoE模型进行预训练以探究其扩展性能。

英文评估

在英文方面，将Qwen2与Qwen1.5和Llama - 3进行比较。Qwen2的小模型明显优于对应的Qwen1.5模型。然而，与Llama - 3 - 70B相比，Qwen2 - 72B - Instruct在理解和编码方面略逊一筹。认为预训练的英文标记数量以及后训练数据的数量和多样性导致了在英文方面的性能差距。

5.2.3 长文本语境能力

评估长文本语境能力采用了三种方法：NIAH、NeedleBench和LV-Eval。NIAH通过构建超长文本（最长128000个标记）评估模型在大量文本中定位事实的能力，Qwen2-72B-Instruct在处理长文本时表现出色。NeedleBench通过增加事实数量和多跳推理难度，评估模型在复杂语境中的表现，Qwen2-7B-Instruct和Qwen2-72B-Instruct在该测试中表现优异。LV-Eval通过一次性理解多条证据的数据集评估模型，Qwen2模型在集成YARN和DCA后显著提升长文本处理能力。

5.2.4 多语言评估

多语言评估采用人工评估方法，涵盖多种语言的测试用例。结果显示，Qwen2-72B-Instruct在多语言能力上显著优于GPT-3.5-Turbo，与GPT-4-Turbo具有竞争力，略逊于Claude-3-Opus，表明多语言预训练和指令调整数据有效提升了模型性能。

5.2.5 安全性与责任

实施了多语言安全性评估，测试模型在涉及违法行为、欺诈、色情内容等主题时的安全性能。结果显示，Qwen2-72B-Instruct在生成有害回复的比例上优于GPT-4和Mixtral-8x22B-Instruct，但在色情内容方面仍有改进空间。

5.2.6 污染分析

污染分析通过n-元语法匹配和最长公共子序列（LCS）约束条件去除可能的污染数据。构建无污染测试集评估数据泄露对性能的影响，结果表明Qwen2模型在原始和无污染测试数据上的性能保持一致，表明数据污染问题对模型性能影响不大。

6 结论

本技术报告介绍了Qwen2系列，这是一套通用的基础和指令微调语言模型，参数量从5亿到720亿不等，包括密集型和混合专家架构的模型。Qwen2优于之前的权重公开模型，尤其是其前身Qwen1.5，并在语言理解、生成、多语言能力、编码、数学和推理等众多基准测试中与专有模型相比表现出具有竞争力的性能。本次更新特别关注长文本处理、多语言、编码、数学能力以及安全性和责任性。为了促进社区内的创新和提高可及性，将Qwen2模型的权重公开，使得研究人员和开发者能够在各种应用和研究项目中充分发挥Qwen2的潜力。通过这些努力，旨在为人工智能技术的进步及其对社会的积极影响做出贡献。

标签：语言,报告,Qwen2,模型,解读,指令,数据,评估
From： https://blog.csdn.net/heyiqiunet/article/details/143097009

相关文章

赞助商

阅读排行