首页 > 其他分享 >8人小团队挑战OpenAI,他们凭什么?

8人小团队挑战OpenAI,他们凭什么?

时间:2024-07-29 11:51:52浏览次数:8  
标签:人小 模型 Moshi OpenAI Kyutai 团队 编解码器


 

7月3日晚,法国一个仅有8人的非营利性AI研究机构 —— Kyutai,发布震惊世界的模型Moshi,具备听、说、看的多模态功能

该模型具备的功能可与OpenAI GPT-4o和Google Astra相媲美,但模型要小得多,基础文本语言模型是Kyutai内部开发的7B参数模型Helium。Moshi在说话时思考,具有彻底改变人机通信的潜力。据悉,该团队开发这个模型仅用了6个月。

 

能听会说的Moshi在发布会现场,Moshi可以非常流利地回答人们提出的问题,甚至可以猜出提问者的意图,还会开些小玩笑。例如,演示者和Moshi聊爬珠穆朗玛峰的话题,说到「下个月打算去攀登珠穆朗玛峰,我在想......」,提问者话说到一半,Moshi 就说道:「太了不起了,你需要带些什么装备呢」,并给出了一些攀登设备的专业建议和注意事项。Moshi还会开些小玩笑:「你并不想穿着凉鞋去爬山」。

 

 

研究团队还用各种说话风格展示了Moshi表达和理解情绪的能力。例如,让Moshi用法国口音诵读诗句,并中途打断了Moshi的朗诵,Moshi也能立即停下来。

 

Moshi还可以进行角色扮演和剧本演示。例如:讲述星际迷航,指挥官和舰长的探索故事。

 

从效果演示来看,Moshi可以随时聆听和实时交谈,表达自然、流畅,甚至还能模仿快乐、悲伤等70种不同情绪和说话风格,以及进行角色扮演。目前,Moshi还不支持中文普通话,主流语言为英语和法语;视觉处理也暂时并未体现

 

Moshi背后的技术

Moshi的核心是一个处理语音输入和输出的70亿参数多模态语言模型。该模型采用了I/O双通道系统,同时生成文本token和音频编解码器。具体来说,语言模型Helium-7B从头先开始训练,然后再与文本、语音编码器联合训练。该语音编解码器基于Kyutai的内部Mimi模型,压缩系数高达300倍,可捕捉语义和声音信息。

 

Moshi的微调过程涉及使用文本到语音(TTS)技术转换的100,000个「口语风格」的合成对话。模型的语音在一个单独的TTS模型生成的合成数据上进行训练,实现了令人印象深刻的200毫秒端到端延迟。值得注意的是,Kyutai还开发了一个可以在MacBook或消费级GPU上运行的Moshi小型版本,使其可以被更广泛的群体使用。

 

值得一提的是,Kyutai的所有模型都是开源的。之后,该团队计划发布完整模型,包括推理代码库、7B模型、音频编解码器和完整的优化堆栈。

Moshi的创始团队

Kyutai是欧洲首个致力于人工智能开放研究的私人倡议实验室,是一个非营利组织,其使命是解决现代人工智能的基本挑战。Kyutai组建了一支由具有杰出学术和商业背景的优秀研究人员组成的团队,团队由图灵奖得主Yann LeCun坐镇,三十年AI老兵Patrick Pérez带队。

 

Moshi体验流程

免费体验地址:

https://moshi.chat/?queue_id=talktomoshi

Moshi的使用流程非常简单:1)登录免费体验地址。2)填写一个邮箱地址,然后点击Join queue。

 

3)开始语音输入,说出你想提问的内容就行了。

 

 


标签:人小,模型,Moshi,OpenAI,Kyutai,团队,编解码器
From: https://www.cnblogs.com/ai2nv/p/18329777

相关文章

  • SearchGPT的初次评测出炉:响应迅速且无广告,被誉为“OpenAI的王牌”
    OpenAI此次推出的SearchGPT引起了广泛关注——最新发布的SearchGPT已经迎来了第一批用户的体验分享。根据测试者的反馈,SearchGPT的响应速度和输出速度都非常快。尤其是在与其他工具的对比中,有用户表示其速度快得令人难以置信,并希望在开放使用后依然能保持这种速度。......
  • (2024最新)有效解决OpenAI Chatgpt Plus升级报错【您的银行卡被拒绝了/your card has be
    在OpenAI升级ChatGPTplus时我们可能会遇到升级报错【您的银行卡被拒绝了/yourcardhasbeendeclined」,有些人看到这个可能就会不知所措注意,这个问题目前依旧存在,很多人都在这里望而却步,没办法升级到chatgptplus出现这种错误,有以下几个解决方案:1.检查银行卡信息:确保你......
  • 团队内部技术分析-数据库事务和锁
    背景目前团队是学习型的团队,除了完成日常业务工作需求外,还需要考虑做一些相应的输出。与团队共同成长,同时也是驱动自己学习总结的一种很好的方式。分享内容什么是数据库事务?数据库的锁?不同的数据库隔离级别的加锁方式?如何避免锁等待死锁?什么是数据库事务MySQL常用的存储......
  • MP | 严建兵团队综述DH与人工无融合生殖进展以及作物育种应用
    2024年6月13日,华中农业大学严建兵教授团队在MolecularPlant发表综述:DoubledHaploidTechnologyandSyntheticApomixis:RecentAdvancesandApplicationsinFutureCropBreeding,系统总结了双单倍体(DH)技术和人工无融合生殖的最新研究进展,探讨了DH技术升级、单倍体诱导和人工......
  • 智谱GLM Api接口适配langchain OpenAI llamaindex的openAI接口
    动机OpenAI充值比较麻烦,且访问不是那么方便。因此想用国内的api的去调试和测试一个任务。但是很多教程都是以openAI的接口为例子的,因此学习起来就不那么方便。本文参考了hugggingface中迁移OpenAI的博客,chatGLMcookbook关于接口的迁移文档,llamindexOpenAIlike的示例,终于调......
  • OPENAI 调用中代币定价的计算
    我正在尝试对调用OPENAI时使用的代币进行定价。我有一个纯文本的txt文件,已上传到Qdrant。当我问以下问题:谁是迈克尔·乔丹?并使用get_openai_callback函数来跟踪代币数量和操作价格时,输出中的信息关键之一并没有对我来说很有意义。TokensUsed:85......
  • SGLang 大模型推理框架 qwen2部署使用案例;openai接口调用、requests调用
    参考:https://github.com/sgl-project/sglang纯python写,号称比vllm、tensorRT还快暂时支持模型安装可以pip、源码、docker安装,这里用的pip注意flashinfer安装最新版,不然会可能出错误ImportError:cannotimportname‘top_k_top_p_sampling_from_probs’from‘fla......
  • OpenAI深夜丢炸弹硬杠谷歌搜索
    这几年科技变革太快,AI更是飞速发展,作为一名IT老兵,使用过的搜索引擎也是一换再换。这不,刚消停了一段时间的OpenAI又丢出一个炸弹SearchGPT,直接跟谷歌掀桌子了。1、谷歌搜索的无奈早年只能用用百度搜索或者其余小众搜索,虽说有不少广告,搜索到的东西也不够精准,只能忍着了。后来找了......
  • OpenAI推出SearchGPT:革新搜索体验的新工具
    引言原文链接在信息爆炸的时代,搜索引擎已经成为人们日常生活中不可或缺的工具。然而,传统的搜索引擎在理解复杂查询和提供准确答案方面仍有许多不足。为了解决这一问题,OpenAI与20240725推出了SearchGPT原型,将生成式AI与传统搜索相结合,为用户提供更智能、更相关的搜索体验。......
  • 字节跳动推出端到端同声传译智能体;OpenAI 搜索引擎 SearchGPT 登场丨 RTE 开发者日报
        开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代......