首页 > 编程语言 >程序员 AI 助手来了,蚂蚁正式开源代码大模型 CodeFuse

程序员 AI 助手来了,蚂蚁正式开源代码大模型 CodeFuse

时间:2023-09-12 12:03:57浏览次数:73  
标签:蚂蚁 AI 模型 微调 CodeFuse 开源 源代码 代码

9 月 8 日,外滩大会分论坛上,蚂蚁集团首次开源了代码大模型 CodeFuse 。

程序员 AI 助手来了,蚂蚁正式开源代码大模型 CodeFuse_开发者

支付宝小程序云负责人李铮宣布 CodeFuse 正式开源

这是蚂蚁自研的代码生成专属大模型,根据开发者的输入提供智能建议和实时支持,帮助开发者自动生成代码、自动增加注释,自动生成测试用例,修复和优化代码等,以提升研发效率。无论用户是初学者还是有经验的开发者,CodeFuse 都能够极大地提高编程效率和准确性,让人人可编程、可创新成为现实。

CodeFuse 基于蚂蚁基础大模型研发,在近期代码补全的 HumanEval 评测中,CodeFuse 得分 74.4%,超过 GPT-4 ( 67% ) 的成绩,也超过了 WizardCoder-34B 73.2% 的得分,在开源模型中位于国际前列。本次开源内容包括代码框架、模型等,现已上架相关平台,模型可在 HuggingFace 下载。

代码框架部分包括自研的多任务微调 ( Multi-task fine-tuning,缩写为 MFT ) 框架。MFT 支持代码生成、代码翻译、测试用例生成、bug 修复等数 10 个任务一起微调,它充分利用多任务之间的信息互补,通过创新的 loss 设计处理不同任务之间收敛难易不均衡的难题,最终取得比单任务微调 SFT 更好的效果。

MFT 微调框架支持蚂蚁自研模型,以及多个开源大模型的代码能力微调。同时,框架内含创新的微调数据打包技术,提升微调速度约 8 倍;并使用多重部署优化技术,使推理加速约 2 倍。

模型部分包括 CodeFuse-13B、CodeFuse-CodeLlaMa34B-MFT 两个大模型。模型训练过程中,CodeFuse 使用了程序分析校验技术,对高质量代码数据进行筛选,并构建了代码领域专用字典,编码平均长度低 10%+ 。

早在 2022 年 1 月,蚂蚁集团内部成立了代码智能生成专项,随着公司整体战略的推进,在统一软硬件基础设施支持下,从零到一训练了多个代码大模型,最终基于 13B 版本,打造了 CodeFuse,并在今年 6 月开始内测,用以真实开发环境,可以助力开发者低门槛编程,例如用自然语言编写 H5 小游戏、快速开发支付宝小程序等。

基于 CodeFuse 的应用场景有开发助手、IDE 插件、数据分析器等,覆盖了目前研发工作的主要需求,在蚂蚁集团内部研发流程中陆续得到验证。

CodeFuse 的目的是重新定义下一代 AI 研发,提供全生命周期 AI 辅助工具。蚂蚁集团期望通过开源 CodeFuse,和社区一起推进软件工程领域的范式跃迁,重塑软件研发的各个领域,加速各行各业的数字化进程。

此外,外滩大会上蚂蚁集团还发布了工业级金融大模型,两大应用产品将在完成相关备案工作后上线,包括面向消费者的应用产品—智能金融助理 " 支小宝 2.0",以及面向金融行业专家的智能业务助手 " 支小助 1.0", 展示了蚂蚁在大模型领域从技术到行业应用的全面布局和进展。


CodeFuse 项目地址:

  1. 点击阅览
  2. 点击阅览
  3. 点击阅览

标签:蚂蚁,AI,模型,微调,CodeFuse,开源,源代码,代码
From: https://blog.51cto.com/u_15761304/7444145

相关文章

  • Redis - 出现ERROR:WRONGTYPE Operation against a key holding the wrong kind of val
    原因:用的方法与redis服务器中存储数据的类型存在冲突。比如:有一个key的数据存储的是list类型的,但使用redis执行数据操作的时候却使用了非list的操作方法。 对一个Redis键执行不兼容的操作,这个错误通常发生在以下情况:1、类型不匹配:试图执行的操作与键存储的数据类型不匹配。例......
  • AI算力持续爆发,有哪些新职位、新机遇?
    AI算力?听起来高大上的名字它究竟是什么呢?人工智能(ArtificialIntelligence)英文缩写为AI,人工智能(AI)是一种模拟人类智能的技术,它是利用计算机科学和相关技术研究、开发的一种智能型系统。人工智能技术在现代社会中的应用已经变得越来越广泛如:在医疗领域中,可以使用AI技术进行医学影像......
  • 数据驱动决策,Datainside引领可视化报告新时代
     数据驱动决策已经成为当今社会中的重要趋势,而Datainside作为一家数据可视化报告平台,正引领着可视化报告的新时代。下面是关于Datainside平台的详细描述。数据集成与连接Datainside平台提供强大的数据集成和连接功能。它可以与各类数据源进行无缝连接,包括企业内部的数据仓库......
  • 全球校园人工智能算法精英大赛-AIOT应用赛项官方报名通道
    2023全球校园人工智能算法精英大赛AIOT应用赛项大幕拉开!参赛报名官方通道正式开启!关于赛项:“AIOT+行业”科技创新类竞赛,面向全球高校在校学生。AIOT应用赛项是全球校园人工智能算法精英大赛的重要赛项之一,由航天科技控股集团股份有限公司智慧物联事业部主办的面向全球高校各专......
  • AI打游戏-壹
    前言AI打游戏-壹(bilibili)背景大部分AI教程专注算法训练,使用开源训练集进行训练实际工作中,算法训练只是一部分,还有很多上下游的工作通过AI打游戏这个主题,来熟悉AI产业全貌说明提到AI是标题党,这次使用的不能算人工智能,只是目标检测(YOLO)的简单应用,并不是强化学习这类......
  • 从源代码安装UE5.2
    总体上按照UE5在文档上源码编译流程进行安装,这里只说几个遇到的问题。出现MSB错误:查看log是否出现过warning,MSB错误可能是由于之前的其他问题导致的。在无其他问题的状况下,考虑是否是中文路径,或者路径长度突破了windows中260字符的限制。启动UE5.2后无法新建项目,输出错误为???......
  • mybaits生成类的工具MyBatis Generator
    MyBatis生成类的工具MyBatisGenerator,是一种非常有用的工具,它可以帮助开发者快速生成Java代码,从而提高开发效率。在本文中,我们将介绍MyBatis生成类的基本概念、使用方法和注意事项。MyBatisGenerator是什么?MyBatisGenerator是MyBatis官方提供的一个代码生成工具,可以根据数据库......
  • Unity 性能优化之Shader分析处理函数 ShaderUtil.GetAvailableShaderCompilerPlatform
    Unity性能优化之Shader分析处理函数ShaderUtil.GetAvailableShaderCompilerPlatforms用法点击封面跳转到Unity国际版下载页面简介在Unity中,性能优化是游戏开发过程中非常重要的一环。其中,ShaderUtil.GetAvailableShaderCompilerPlatforms函数是一个内部函数,它可以帮助......
  • F. Remainder Problem 根号分治
    Problem-F-Codeforces 题意:一个500000长度的数列,一开始都是0,进行q次操作,操作如下1,输入x,y,令a[x]+=y。2,输入x,y,输出对于sum(a[idx]),idx的条件是idx=x%y。做法:如果我们模拟做,那么第一种操作就是o(1),第二种操作就是o(n)。我们换种想法,建立一个二维数组b[x][y],表......
  • Mybaits-plus采坑之UpdateWrapper 更新字段重复
    Mybaits-plus采坑之UpdateWrapper更新字段重复Mybaits-plus简介MyBatis-Plus是基于MyBatis的增强工具库,旨在简化MyBatis的开发。它提供了一系列的功能和特性,可以提高开发效率,减少重复的编码工作,并且与原生的MyBatis兼容。下面是MyBatis-Plus的一些主要特点和功能:简......