全球最强AI程序员 “Genie” 横空出世

时间：2024-08-15 09:25:07浏览次数：24

全球最强AI程序员 “Genie” 横空出世

World’s best AI Software Engineer.

Genie is the best AI software engineer in the world by far - achieving a 30% eval score on the industry standard benchmark SWE-Bench.

Genie is able to solve bugs, build features, refactor code, and everything in between either fully autonomously or paired with the user, like working with a colleague, not just a copilot.

Genie 是什么

Genie是迄今为止世界上最好的 AI 程序员

在权威榜单 SWE-Bench 上得分为 30%，遥遥领先第二名19.27%！（SWE-Bench：评估大模型解决现实中软件问题的基准）
- 比亚马逊的 Q 和 Factory 的 Code Droid 的 SOTA 得分高出 56%：两者在 SWE-Bench 上的得分均为 19%
- 比 Cognition 的 Devin 高出 118%：在 SWE-bench 的 subset 上得分为 13.8%

由于 Devin 只跑了 SWE-Bench 上 2294 个任务中的 500 个，因此它们的可比得分为 3.44%。

Genie not just a copilot

Genie 能够完全自主地与用户匹配，处理bug、构建特征、重构代码以及在两者之间的一切，智能如你身旁的同事。

研发团队认为：若希望模型更像程序员，就需要教会它人类程序员的工作方式。这种方法不仅在基准测试中表现出色，而且还能够构建出真正像人类程序员一样行事的产品。

那么如何训练一名AI工程师呢

首先，让它观察程序员如何工作，并模仿这个过程。但在实践中，获取这些数据并加以利用均极为困难。因此研发团队尝试从数据集、上下文语言模型、多模态数据入手。

利用构建工具创建数据集

在过去的一年里，Genie 研发团队致力于通过构建工具来创建一个能够展示这个过程的数据集。他们的数据管道结合了人工制品、静态分析、自我博弈、逐步验证和经过大量标记数据训练的微调AI模型，从而实现最佳输出。

数据质量的把控

从语言、任务类型、任务长度等不同维度入手，在数据混合方面做了诸多尝试，并对多模态数据进行大量试验。

基础模型的选用

当第一次开始这个项目时，能训练的最好结果是 gpt-3.5-turbo-16k，但很快意识到这个模型智能受限，其最关键的还是上下文长度。

要想获得高质量的输出，模型需尽可能多的信息；研发团队与OpenAI 一起训练出更佳的上下文长度模型，极大地释放研究项目能力。

so much has been learned, but the number one learning, and it sounds obvious, is that the data is absolutely everything.

Genie采用特殊数据集和自我改进机制，使其在复杂编码中表现出色。

未来，Genie 将更熟练地掌握更广泛的编程语言，重点是熟练掌握每种语言最新和最广泛使用的框架，以满足开发人员各式各样的业务需求。

Genie启动

Genie
那么，可以给 Genie 分派开发任务了：cosine.sh

对付这点小事对我来说真是小菜一碟----麦克阿瑟

欢迎关注：有点建树，做更多交流。
在这里插入图片描述

标签：AI,模型,SWE,Bench,程序员,Genie
From： https://blog.csdn.net/calabash_man/article/details/141201054

AI狗语翻译器：揭秘跨物种沟通新科技，助力人宠心灵相通
AI狗语翻译器、谷歌发布语音AI：traini的团队下了大功夫，他们邀请了宠物行为学专家,一起翻译狗狗的各种表情、行为和叫声,建立了一套宠物语义系统。可以确认AI狗语翻译器的开发团队确实下了大功夫，并且他们邀请了宠物行为学专家，一起翻译狗狗的各种表情、行为和叫声，建立了一套宠物......
“Datawhale x魔搭 AI夏令营”-AIGC方向-Day2从零入门AI生图原理&实践
学习内容提要从通过代码实现AI文生图逐渐进阶，教程偏重图像工作流、微调、图像优化等思路，最后会简单介绍AIGC应用方向、数字人技术（选学）Task02：精读代码，实战进阶具体Datawhale教程学习内容见链接：https://linklearner.com/activity/14/10/32AIGC相关知识框图解读baseline代码文......
Python while编程题目｜AI悦创Python一对一教学辅导
你好，我是悦创。以下是十道有创意的while循环编程题目，每道题目都有一定的难度，适合锻炼编程逻辑和思维能力。题目1：旋转字符串描述：给定一个字符串，每次循环将字符串的第一个字符移到末尾，打印所有可能的旋转结果，直到回到原始字符串为止。输入："abcde"输出：abcdebcdeacdeabde......
Windows：hosts文件作用，程序员开发需要掌握哪些内容
一、hosts文件的基本概念和作用1.1、基本概念：hosts文件是一个没有扩展名的系统文件，位于：Windows系统的：C:\Windows\System32\drivers\etc\hostsMacOSX和Linux操作系统：Hosts文件位于/etc/hosts。1.2、主要作用：hosts文件用于将网址域名与其对应的IP地址建立一个关联“数据库......
Datawhale AI夏令营大模型（微调）Task01
这次这个Task与以往有些不同，通过调节外部参数prompt和扩充数据来提高预测得分的大模型微调任务。此次任务最大的不同是不在修改代码去提高程序预测准确性，所以这次对大模型的训练的难点在与大模型所需的prompt与数据量上。下面是跟着教程做的一些步骤。1.首先是报名赛事。由......
Datawhale X 魔搭 AI夏令营 AIGC方向 task2笔记
纯小白，自学！从零入门AI生图（AIGC方向）基于魔搭社区“可图Kolors-LoRA风格故事挑战赛”开展实践学习。#DatawhaleX魔搭AI夏令营#一、利用AI精读baseline学习代码 task2的目的是精读baseline，从代码层面理解AI生图，直播演示了用通义千问解析代码，我也用GPT-4o,文心......
Sakana 推出开源AI Scientist：科研论文编写一条龙搞定
你有没有想过，未来的科研会是怎样的？想象一下，一个不眠不休的研究助手，能够在没有人类监督的情况下，独立进行科学研究，从提出新想法到执行实验，再到撰写论文，全部自动完成。这听起来像科幻电影的情节，但在SakanaAI的努力下，这一愿景正在一步步变为现实。在现代科学研究中，科研人员常......
SenseCraft 部署模型到Grove Vision AI V2图像处理模块
GroveVisionAIV2图像处理模块开箱测评摘要今天教大家快速上手GroveVisionAIV2图像处理模块，我们将一起探讨如何利用SenseCraft部署AI模型，和如何通过XIAOESP32C3调用这些模型，轻松实现智能视觉功能！原文链接：FreakStudio的博客往期推荐：学嵌入式的你，还不会面向对......
产品经理用AI，跟普通人有什么不同？
最近跟一个产品经理朋友聊天，他们公司最近单独拉一个只有产品经理的team，要在接下来半年把过去几年火过的产品工具，“加上AI驱动”重新做一遍。美其名曰“抓住AI浪潮的红利”。这不是今天的重点，重点是他在高频的用AI设计产品一段时间后，对“使用AI”这件事有了全新的......
AI浪潮下的程序员：重塑核心竞争力，共舞人机协作新纪元
目录引言一、AI辅助编程对程序员工作的影响二、程序员应重点发展的核心能力三、人机协作模式下的职业发展规划结语引言在人工智能（AI）技术日新月异的今天，特别是随着AIGC（人工智能生成内容）和大语言模型的兴起，编程世界正经历着前所未有的变革。ChatGPT、Midjourney、Claud......

全球最强AI程序员 “Genie” 横空出世

全球最强AI程序员 “Genie” 横空出世

Genie 是什么

Genie not just a copilot

那么如何训练一名AI工程师呢

Genie启动

相关文章

赞助商

阅读排行