从0到1：如何建立一个大规模多语言代码生成预训练模型

标签：代码生成 CodeGeeX 语言训练模型代码

国产AI辅助编程工具CodeGeeX是一个使用AI大模型为基座的辅助编程工具，帮助开发人员更快的编写代码。可以自动完成整个函数的编写，只需要根据注释或Tab按键即可。它已经在Java、JavaScript和Python等二十多种语言上进行了训练，并基于大量公开的开源代码、官方文档和公共论坛上的代码来优化自己的算法。CodeGeeX作为一款中国原创的AI辅助编程工具，现在免费提供给所有开发者使用，同时完全开源，程序员使用普遍认为编写代码的效率提升2倍以上。

核心功能包括：代码生成与智能补全、自动为代码添加中英文注释、在不同编程语言的代码之间实现准确翻译，包括刚刚更新的“Ask CodeGeeX”功能，是将智能问答模式，融合到实际开发场景中，让开发者更专注和沉浸于编程，不用离开当前 IDE 的编程环境，就可以边写代码边和 AI 对话，实现针对编程问题的智能问答。无需waitlist，立刻就能尝鲜这些核心功能！

大家看看在CodeGeeX上的体验是怎样的：
file

file

这里推荐各位免费下载使用AI辅助编程工具CodeGeeX。

CodeGeeX的背后，是一个开源的大规模多语言代码生成模型。这个模型最大的特点就是全国产化实现。CodeGeeX 连接了自然语言到代码的一个交互过程，用户是通过写注释的形式让它生成特定的代码，也可以把一种语言的代码翻译成另外一种语言的代码，或者为已有的代码加上一些注释。2022年9 月 CodeGeeX 开源插件免费开放使用，目前已经有10万+程序员安装使用，下载量超过270万+次，每天为程序员生成超过数百万行代码。

那么，CodeGeeX背后的大规模多语言代码生成预训练模型是如何从 0 到 1 建立起来的？主要有以下几个步骤：
file

第一，大规模代码数据收集。训练的数据主要分为两个部位：一是，开源数据集。比如 The Pile 里的代码子集，以及 CodeParrot (Python）等；二是，额外爬取数据。从 GitHub 上爬优质的开源仓库并照一系列规则清洗数据。最终整个语料库有 23 种编程语言，涵盖 Python，Java， C++，JavaScript， C，Go，HTML， Rust， C#等主流语言，数据量超过 1580 亿 token。接下来，数据处理形式也非常简单，首先，将代码数据分词并标识符化，即将代码片段进行分词，得到 token 序列，再将 token 对应到词表中的 ID，得到 ID 序列；其次，就是为不同语言的文件加上语言标签，在经过充分的学习以后，二十几种语言的语法模型是可以完全掌握。

第二，CodeGeeX 模型架构。 CodeGeeX 模型基于 GPT 架构的自回归模型，由 40 层 transformer 组成，总计参数量达 130 亿。它使用自然语言或代码 token 作为输入，输出下一个 token 的概率，支持各种编程语言相关的下游任务，如代码生成、代码补全、代码翻译、代码注释等。同时，在架构实现的过程中做了许多设计，包括每一个算子需要用哪些精度，才能保证模型训练的稳定性等等。

第三，CodeGeeX模型训练。 CodeGeeX基于华为 Mindspore 框架实现，总共用到了 1536 张昇腾 910AI 处理器，相当于 1500 多张 GPU ，进行了长达两个月的训练。在混合精度训练方面，大部分的参数是用 FP16 作为精度，但在以往的实践中发现，如果全部的参数都是 FP16，在一些计算的节点上有些算子很容易有一个精度溢出，模型就会训崩掉，所以在 Layernorm、Softmax 地方会使用 FP32 保证稳定性。同时，训练采用了一个并行训练的策略，就是 192 路数据并行和 8 路模型并行。在漫长训练之后，CodeGeeX 训练了 8500 亿的 token，基本上把GitHub 上爬到的代码全部都见过了一遍。

第四，CodeGeeX 模型评估。如何正确评估代码生成的性能？过去比较常用多语言代码基准 CodeXGLUE， XLCoST 均使用 CodeBLEU/BLEU 作为评价指标，它其实是在算一个语义相似性，但在代码任务上并不能正确反映生成代码的质量，已不满足当前评估代码生成模型的需求。在模型评估上，CodeGeeX 把 HumanEval 数据集，也就是一个已有的 Python 数据集，扩展到了更多的语言上，包括 C++、Java、JavaScript、Go等，形成了HumanEval-X。这个数据集的特点就是，给模型输入包括必要的引用文件、描述做的是什么任务，然后可能会有一两个输入输出的例子让模型去把函数补全，就可以用已经写好测试代码和测试用例去做一个自动化测试，就知道模型写出来的代码到底正不正确。可以说，CodeGeeX 是目前平均性能最好的开源多语言代码生成模型。

第五，CodeGeeX代码生成插件。未来让 CodeGeeX 模型真正实用化，开发了 VS Code/Jetbrains 上的自动代码生成插件，提供多种交互模式，支持代码生成、补全、翻译、注释等功能，免费使用，更好辅助程序员开发。我们对上百名用户进行问卷调研，涵盖前后端工程师、算法工程师、学生、研究者等，83.4% 的用户认为CodeGeeX 插件有助于提高编程效率，但具体提高了多少还有待进一步研究。同时，不同语言上的表现是不一样的，比如 PHP 语言就会弱一些，这也是今后提升的目标，争取在更多的语言上达到更好的效果。

第六，CodeGeeX 开源开发计划。 CodeGeeX 虽然是在昇腾上训练，但也移植到了英伟达，实现跨平台模型代码训练、微调、推理、测评代码等等，用户可以在官网申请下载，在本地就可以部署起一套跟CodeGeeX 基本上一样的一套流程。

像 MicroSoft Copilot、GitHub Copilot X 、CodeGeeX在 AIGC 应用场景会越来越多，并且极大地提高生产力。可以预见，人类正在加速通向 AGI 时代，在接下来几个月内肯定有更多的产品形态出来，不用担心，拥抱变化就可以了。

本文由博客一文多发平台 OpenWrite 发布！

标签：代码生成,CodeGeeX,语言,训练,模型,代码
From： https://www.cnblogs.com/chattech/p/17457647.html

从0到1：如何建立一个大规模多语言代码生成预训练模型

相关文章

赞助商

阅读排行