书生大模型实训营第4期基础岛第一关:书生大模型全链路开源体系介绍
1. 书生·浦语的开源之路
1.1 模型发展历程
过去的一年里,书生大模型不仅开源并升级了其全链条工具体系,模型性能也取得了显著提升,从23年7月初开源的 InternLM2.0
到今年7月的 InternLM2.5
,模型主要有以下三方面的改进:
- 综合推理能力(模型的原生推理性能)相比 InterLM2.0 提升20%,性能处于开源模型前列。
- 支持百万字长文(GPT-4o的十倍)的理解和精确处理,“
大海捞针
”实验表现优异。 - 通过信息搜索和整合,针对复杂问题的回答效率提升60倍。
目前 InternLM2.5-20B-Chat
模型的性能已经达到 GPT-4(20240409)
的水平。
1.2 核心技术思路
1.2.1 模型训练迭代技术
目前书生系列模型的迭代还是基于数据驱动的策略,通过给模型投喂大量的高质量数据来提升模型能力。而除了真实数据外模型训练过程中还使用了一系列的合成数据,合成数据的构造主要使用了以下三种方法,通过融合多种数据合成方案,提升合成数据的质量:
- 基于规则的数据构造
- 基于模型的数据扩充
- 基于反馈的数据生成
1.2.2 基于规划和搜索解决复杂问题
不同于2.0版本,InternLM2.5 会模仿人的思维来对复杂问题进行求解,通过 问题分析→思维路径拆解→子问题求解→内容整合 这一流程,模型可以更加准确地理解问题的真实含义并给出更加可靠的回答。MindSearch 项目就是该流程的一个很好的示例,大家如果想简单了解 MindSearch 是什么以及怎么用的话可以看看我的这篇博文。
1.3 书生·浦语开源模型谱系
目前书生模型家族有四个量级版本,分别是1.8B、7B、20B、102B大小的模型。其中1.8B的模型主要用于边缘设备的端侧应用以及研究者的本地学习等;7B的模型则已经具备了一定的能力,模型轻便但性能不俗,适用于一些轻量级的研究和应用;20B的模型性能更加强劲,已经可以满足一些中小企业的需求,并且不同于7B,20B的模型开始出现 “涌现” 现象——模型不再只是对见过的数据进行检索总结,对于没见过的东西,模型也可以做出有效回应;102B的模型的性能进一步提升,在典型场景下表现已经接近 GPT-4,不过目前暂未开源。
另外如果从模态上来分,书生模型还开源了下面一些项目,大家有兴趣的话可以去体验一下~:
(1)InternLM-XComposer(灵笔):图像—文本多模态模型
(2)InternLM-Math:针对数学场景的模型
(3)InternLM-WQX(文曲星):用于解答高考题目的模型
2. 书生·浦语全链路开源体系结构
书生·浦语的全链路开源包含了从 数据→预训练→微调→部署→测评→应用 的一条龙服务。
2.1 数据开源:书生·万卷
InternLM 的数据开源不仅开源了丰富多样的高质量训练数据,还开源了多款数据提取和标注工具,为模型的训练和微调提供了极大的数据支持和便利。
2.2 预训练框架开源:InternEvo
InternEvo 主要进行了一些显存优化以及通信优化,可以降低模型预训练的硬件要求。
2.3 微调工具开源:XTuner
XTuner 微调框架支持多种微调算法(如指令微调、多模态微调以及对齐等)、兼容多种数据集格式,并且 XTuner 内置多种优化加速方法,让开发者可以无需关注复杂的显存优化与加速计算细节,专注于问题本身。目前 XTuner 支持 NVIDIA 20系以上的所有显卡,最低只需要8G显存即可微调7B模型。
从上面这张图可以看出,XTuner 相比于 LLaMA Factory 等微调框架,在显存优化方面做的更好,这得益于 XTuner 零显存对齐的偏好训练方案。
2.4 模型部署工具开源:LMDeploy
相比于 VLLM 框架,书生开源的 LMDeploy 支持更多的国产大模型部署,并且提供多种推理接口和服务,具有卓越的兼容性和高效的推理性能。
2.5 评测体系开源:OpenCompass
OpenCompass 是集 “工具—基准—榜单" 三位一体的国产大模型评测体系,它能为我们提供大模型全栈评测工具,支持高效评测和能力分析;它还能为我们提供高时效性、高质量的评测集,让大模型的评测更加客观真实;最后它还会发布权威性榜单,帮助开发者和研究人员洞悉行业趋势。
OpenCompass 评测体系目前已经广泛应用于大模型头部企业和科研机构,是唯一一个获得 Meta 官方推荐的国产大模型评测体系,同时也是开源社区最完善的评测体系之一,拥有超过100+评测集和50万+的题目。
2.6 基于大模型的开源应用
至此,书生大模型实训营第4期基础岛第一关任务完成~