首页 > 其他分享 >对标 GPT-4o,法国开源实验室发布多模态大模型 Moshi;腾讯汤道生:AI 领域不应只关注大模型丨 RTE 开发者日报

对标 GPT-4o,法国开源实验室发布多模态大模型 Moshi;腾讯汤道生:AI 领域不应只关注大模型丨 RTE 开发者日报

时间:2024-07-04 16:09:27浏览次数:18  
标签:汤道生 AI 模型 Moshi 开发者 腾讯

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@JLT,@鲍勃

01 有话题的新闻

1、对标 GPT-4o!法国开源 AI 实验室发布多模态大模型 Moshi

 

 

Moshi 演示回放:https://www.youtube.com/live/hm2IJSKcYvo

 

7 月 4 日凌晨,法国知名开源 AI 研究实验室 Kyutai 在官网发布了,具备看、听、说多模态大模型——Moshi。

 

Moshi 功能与 OpenAI 在 5 月 14 日展示的最新模型 GPT-4o 差不多,可以听取人的语音提问后进行实时推理回答内容。但 GPT-4o 的语音模式要在秋天才能全面开放使用,而 Moshi 已经提供使用了。

 

Moshi 不锁区,填写一个邮箱地址就能直接使用,无需任何等待。值得一提的是,Moshi 是支持手机移动端使用的,只不过对普通话支持较差,最好使用英语提问。(@AIGC 开放社区)

 

2、CAMB.AI 发布突破性 AI 语音合成技术 MARS5,支持克隆推理

 

CAMB.AI 推出了先进的英文语音合成模型 MARS5,采用创新的两阶段自回归-非自回归流程。该模型仅需 5 秒音频和文本片段即可生成适用于多种场景的高质量语音,支持 140 多种语言,并可通过标点和大小写控制语调。

 

MARS5 提供了快速的「浅层克隆」和高质量的「深度克隆」两种推理方式,用户可根据需求选择。该模型在 GNU AGPL 3.0 许可下开源,同时也提供 API 调用。CAMB.AI 团队计划持续优化模型性能,并鼓励社区贡献。(@AI 科技评论)

 

3、苹果 Vision Pro 头显新专利探索「头控」方案,可调音量、亮度等

 

7 月 3 日消息,根据美国专利商标局最新公示清单,苹果公司申请了一项与 Vision Pro 头显相关的新型专利。该专利涉及头部控制方案,可替代手势和眼球追踪技术。

 

根据专利描述,佩戴者可通过倾斜或转动头部来移动屏幕上的滑块,从而调整音量和亮度等参数。这项新技术为双手不便的 Vision Pro 头显用户提供了新的操作方式:只需通过头部和观察事物即可控制头显上的一切功能。

 

然而,需要指出的是,在实现这一技术时可能会引发晕动症问题。因此尚不清楚苹果未来是否会将该专利应用于 Vision Pro 产品的生产中。(@中关村在线)

 

4、AI 音乐生成器 Suno 推出 iOS 应用程序

 

AI 音乐生成器 Suno 推出了一个新的 iOS 应用,允许用户在 iPhone 上使用文本、自己的声音或者器乐来创作完整的歌曲。

 

目前 Suno 的 App 只适用于美国的 iPhone,但 Suno 表示它将在未来进入其他国家和地区并推出 Android 版本,并会带来一些「有趣的更新」。(@爱范儿)

 

5、智谱清言智能体更新定制 UI 组件、多平台发布功能

 

昨日,AI 助手智谱清言宣布清言智能体迎来两大更新:新增定制 UI 组件和支持多平台发布。

 

智能体的界面定制新增「定制 UI 组件」功能,可选择单/多行文本、段落、分类、下拉等不同组件,满足创作者与用户的个性化需求,引导用户沉浸式使用智能体。

 

清言智能体可以自定义配置第三方平台,自由调用 api 发布。以微信公众号为例,只需点击「配置」键,扫码授权就能把智能体接入公众号,实现后台免费的 AI 回复。(@爱范儿)

02 有态度的观点

1、对话腾讯汤道生:AI 不止于大模型

 

腾讯云与智慧产业事业群 CEO 汤道生认为,AI 领域不应只关注大模型,企业应保持开放态度,关注多种技术路线。腾讯在 AI 投入上采取有节奏的长期策略,通过「721」方法分配资源,即 70%投入核心业务,20%投入发展中产品,10%投向前沿技术。

 

汤道生强调,腾讯高层对技术变革保持高度敏感,通过亲身体验产品来获取反馈,指引团队前进的方向。(@腾讯新闻潜望)

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

标签:汤道生,AI,模型,Moshi,开发者,腾讯
From: https://www.cnblogs.com/Agora/p/18284049

相关文章

  • AI是在帮助开发者还是取代他们?
    在软件开发领域,生成式人工智能(AIGC)正在改变开发者的工作方式。无论是代码生成、错误检测还是自动化测试,AI工具正在成为开发者的得力助手。然而,这也引发了对开发者职业前景和技能需求变化的讨论。AI究竟是在帮助开发者还是取代他们?方向一:AI工具现状当前市场上的AI开发工具......
  • 大数据领域的深度分析——AI是在帮助开发者还是取代他们?
    在大数据领域,生成式人工智能(AIGC)的应用正在迅速扩展,改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角,探讨AI工具在这一领域的作用,以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域,AI工具已经取得了显著进展,以下是几款主要......
  • 京东面试 rockmq是推消息还是拉消息?他的消息模型是啥?
    在消息队列系统中,消费者模型(即消费者获取消息的方式)通常分为“拉”(pull)模式和“推”(push)模式。这两种模式在性能和实用性上有各自的优势和局限性,特别是在处理不同吞吐量和实时性需求的场景中。RocketMQ的推拉模型RocketMQ本质上使用的是拉模式,但它通过长轮询等技术实现了......
  • 抖音电商与AI数字人解说技术的应用分析
    抖音电商与AI数字人解说技术的应用分析摘要:随着电商领域的快速发展,抖音平台在电商领域展现出新的增长点。本文分析了抖音电商的最新趋势,特别是AI数字人解说技术在图文带货中的应用,以及其对流量和销售的显著影响。关键词:抖音电商,AI数字人解说,图文带货,流量增长1.抖音电商......
  • LLM大模型: RAG的上下文语义retrieval — RAPTOR
    1、RAG有很多优点,但是缺点也很明显,其中一个硬伤就是:只会“断章取义”!如果文本有明确的答案,现有的retrieve方式大概率能找到,但是如果文本没有明确的答案了?比如android逆向和windows逆向,哪个更有钱途?很多资料会介绍android逆向、windows逆向的原理和技术细节,但是没有哪个更有钱......
  • 拼多多面试 Linux下一个应用程序开始执行到main被调用之间经历了什么?
    在Linux系统中,一个应用程序从开始执行到main函数被调用之间经历了多个复杂的步骤。以下是一个详细的流程概述:1.加载器(Loader)当用户在终端或脚本中启动一个程序时,shell调用系统调用execve。这个系统调用将负责启动程序的执行。2.内核态操作内核处理execve系统调用并执行以下......
  • 揭秘!30个成功的AI变现案例分享
    精心整理了30个AI变现案例,每一个都可以作为一个完整的副业去实践,AI时代已经来了,所有不甘于现状的朋友,都应该去下场,先把手弄脏,不要怕,实践起来!(文末有配套资料)1.【副业创业】AI+剧本项目:Al技术手剧本创作商单市场分析:客户群体:需求简单、成本敏感的商单,适合Al剧本创作,可......
  • 一文为你深度解析LLaMA2模型架构
    本文分享自华为云社区《【云驻共创】昇思MindSpore技术公开课大咖深度解析LLaMA2模型架构》,作者:Freedom123。一、前言随着人工智能技术的不断发展,自然语言处理(NLP)领域也取得了巨大的进步。在这个领域中,LLaMA展示了令人瞩目的性能。今天我们就来学习LLaMA2模型,我们根据 昇思M......
  • AI算法04-自组织映射神经网络Self-Organizing Map | SOM
    自组织映射神经网络自组织映射(SOM)或自组织特征映射(SOFM)是一种类型的人工神经网络(ANN),其使用已训练的无监督学习以产生低维(通常为二维),离散的表示训练样本的输入空间,称为地图,因此是一种减少维数的方法。自组织映射与其他人工神经网络不同,因为它们应用竞争学习而不是纠错学习(例如......
  • AI大模型实战进阶:内容审核应用深度解析
    1.背景介绍内容审核是指对互联网上的内容进行审核的过程,主要包括文本、图像、音频和视频等多种形式的内容。随着互联网的普及和用户生成内容的增加,内容审核的重要性也不断提高。人工审核不能满足需求,因此需要借助人工智能技术来自动化审核。AI大模型在内容审核领域具有广泛......