书生大模型实训营第4期基础岛第一关：书生大模型全链路开源体系介绍

标签：实训营评测模型书生开源数据浦语

书生大模型实训营第4期基础岛第一关：书生大模型全链路开源体系介绍

1. 书生·浦语的开源之路

1.1 模型发展历程

在这里插入图片描述

过去的一年里，书生大模型不仅开源并升级了其全链条工具体系，模型性能也取得了显著提升，从23年7月初开源的 InternLM2.0 到今年7月的 InternLM2.5，模型主要有以下三方面的改进：

综合推理能力（模型的原生推理性能）相比 InterLM2.0 提升20%，性能处于开源模型前列。
支持百万字长文（GPT-4o的十倍）的理解和精确处理，“大海捞针”实验表现优异。
通过信息搜索和整合，针对复杂问题的回答效率提升60倍。

目前 InternLM2.5-20B-Chat 模型的性能已经达到 GPT-4(20240409) 的水平。

1.2 核心技术思路

1.2.1 模型训练迭代技术

在这里插入图片描述
目前书生系列模型的迭代还是基于数据驱动的策略，通过给模型投喂大量的高质量数据来提升模型能力。而除了真实数据外模型训练过程中还使用了一系列的合成数据，合成数据的构造主要使用了以下三种方法，通过融合多种数据合成方案，提升合成数据的质量：

基于规则的数据构造
基于模型的数据扩充
基于反馈的数据生成

1.2.2 基于规划和搜索解决复杂问题

在这里插入图片描述
不同于2.0版本，InternLM2.5 会模仿人的思维来对复杂问题进行求解，通过 问题分析→思维路径拆解→子问题求解→内容整合 这一流程，模型可以更加准确地理解问题的真实含义并给出更加可靠的回答。MindSearch 项目就是该流程的一个很好的示例，大家如果想简单了解 MindSearch 是什么以及怎么用的话可以看看我的这篇博文。

1.3 书生·浦语开源模型谱系

在这里插入图片描述
目前书生模型家族有四个量级版本，分别是1.8B、7B、20B、102B大小的模型。其中1.8B的模型主要用于边缘设备的端侧应用以及研究者的本地学习等；7B的模型则已经具备了一定的能力，模型轻便但性能不俗，适用于一些轻量级的研究和应用；20B的模型性能更加强劲，已经可以满足一些中小企业的需求，并且不同于7B，20B的模型开始出现 “涌现” 现象——模型不再只是对见过的数据进行检索总结，对于没见过的东西，模型也可以做出有效回应；102B的模型的性能进一步提升，在典型场景下表现已经接近 GPT-4，不过目前暂未开源。

另外如果从模态上来分，书生模型还开源了下面一些项目，大家有兴趣的话可以去体验一下~：
（1）InternLM-XComposer（灵笔）：图像—文本多模态模型
（2）InternLM-Math：针对数学场景的模型
（3）InternLM-WQX（文曲星）：用于解答高考题目的模型

2. 书生·浦语全链路开源体系结构

在这里插入图片描述
书生·浦语的全链路开源包含了从 数据→预训练→微调→部署→测评→应用 的一条龙服务。

2.1 数据开源：书生·万卷

在这里插入图片描述

InternLM 的数据开源不仅开源了丰富多样的高质量训练数据，还开源了多款数据提取和标注工具，为模型的训练和微调提供了极大的数据支持和便利。

2.2 预训练框架开源：InternEvo

在这里插入图片描述
InternEvo 主要进行了一些显存优化以及通信优化，可以降低模型预训练的硬件要求。

2.3 微调工具开源：XTuner

在这里插入图片描述
XTuner 微调框架支持多种微调算法（如指令微调、多模态微调以及对齐等）、兼容多种数据集格式，并且 XTuner 内置多种优化加速方法，让开发者可以无需关注复杂的显存优化与加速计算细节，专注于问题本身。目前 XTuner 支持 NVIDIA 20系以上的所有显卡，最低只需要8G显存即可微调7B模型。