对标 GPT-4o，法国开源实验室发布多模态大模型 Moshi；腾讯汤道生：AI 领域不应只关注大模型丨 RTE 开发者日报

时间：2024-07-04 16:09:27浏览次数：18

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@JLT，@鲍勃

01 有话题的新闻

1、对标 GPT-4o！法国开源 AI 实验室发布多模态大模型 Moshi

Moshi 演示回放：https://www.youtube.com/live/hm2IJSKcYvo

7 月 4 日凌晨，法国知名开源 AI 研究实验室 Kyutai 在官网发布了，具备看、听、说多模态大模型——Moshi。

Moshi 功能与 OpenAI 在 5 月 14 日展示的最新模型 GPT-4o 差不多，可以听取人的语音提问后进行实时推理回答内容。但 GPT-4o 的语音模式要在秋天才能全面开放使用，而 Moshi 已经提供使用了。

Moshi 不锁区，填写一个邮箱地址就能直接使用，无需任何等待。值得一提的是，Moshi 是支持手机移动端使用的，只不过对普通话支持较差，最好使用英语提问。（@AIGC 开放社区）

2、CAMB.AI 发布突破性 AI 语音合成技术 MARS5，支持克隆推理

CAMB.AI 推出了先进的英文语音合成模型 MARS5，采用创新的两阶段自回归-非自回归流程。该模型仅需 5 秒音频和文本片段即可生成适用于多种场景的高质量语音，支持 140 多种语言，并可通过标点和大小写控制语调。

MARS5 提供了快速的「浅层克隆」和高质量的「深度克隆」两种推理方式，用户可根据需求选择。该模型在 GNU AGPL 3.0 许可下开源，同时也提供 API 调用。CAMB.AI 团队计划持续优化模型性能，并鼓励社区贡献。（@AI 科技评论）

3、苹果 Vision Pro 头显新专利探索「头控」方案，可调音量、亮度等

7 月 3 日消息，根据美国专利商标局最新公示清单，苹果公司申请了一项与 Vision Pro 头显相关的新型专利。该专利涉及头部控制方案，可替代手势和眼球追踪技术。

根据专利描述，佩戴者可通过倾斜或转动头部来移动屏幕上的滑块，从而调整音量和亮度等参数。这项新技术为双手不便的 Vision Pro 头显用户提供了新的操作方式：只需通过头部和观察事物即可控制头显上的一切功能。

然而，需要指出的是，在实现这一技术时可能会引发晕动症问题。因此尚不清楚苹果未来是否会将该专利应用于 Vision Pro 产品的生产中。（@中关村在线）

4、AI 音乐生成器 Suno 推出 iOS 应用程序

AI 音乐生成器 Suno 推出了一个新的 iOS 应用，允许用户在 iPhone 上使用文本、自己的声音或者器乐来创作完整的歌曲。

目前 Suno 的 App 只适用于美国的 iPhone，但 Suno 表示它将在未来进入其他国家和地区并推出 Android 版本，并会带来一些「有趣的更新」。（@爱范儿）

5、智谱清言智能体更新定制 UI 组件、多平台发布功能

昨日，AI 助手智谱清言宣布清言智能体迎来两大更新：新增定制 UI 组件和支持多平台发布。

智能体的界面定制新增「定制 UI 组件」功能，可选择单/多行文本、段落、分类、下拉等不同组件，满足创作者与用户的个性化需求，引导用户沉浸式使用智能体。

清言智能体可以自定义配置第三方平台，自由调用 api 发布。以微信公众号为例，只需点击「配置」键，扫码授权就能把智能体接入公众号，实现后台免费的 AI 回复。（@爱范儿）

02 有态度的观点

1、对话腾讯汤道生：AI 不止于大模型

腾讯云与智慧产业事业群 CEO 汤道生认为，AI 领域不应只关注大模型，企业应保持开放态度，关注多种技术路线。腾讯在 AI 投入上采取有节奏的长期策略，通过「721」方法分配资源，即 70%投入核心业务，20%投入发展中产品，10%投向前沿技术。

汤道生强调，腾讯高层对技术变革保持高度敏感，通过亲身体验产品来获取反馈，指引团队前进的方向。（@腾讯新闻潜望）

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

标签：汤道生,AI,模型,Moshi,开发者,腾讯
From： https://www.cnblogs.com/Agora/p/18284049

AI是在帮助开发者还是取代他们？
在软件开发领域，生成式人工智能（AIGC）正在改变开发者的工作方式。无论是代码生成、错误检测还是自动化测试，AI工具正在成为开发者的得力助手。然而，这也引发了对开发者职业前景和技能需求变化的讨论。AI究竟是在帮助开发者还是取代他们？方向一：AI工具现状当前市场上的AI开发工具......
大数据领域的深度分析——AI是在帮助开发者还是取代他们？
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要......
京东面试 rockmq是推消息还是拉消息？他的消息模型是啥？
在消息队列系统中，消费者模型（即消费者获取消息的方式）通常分为“拉”（pull）模式和“推”（push）模式。这两种模式在性能和实用性上有各自的优势和局限性，特别是在处理不同吞吐量和实时性需求的场景中。RocketMQ的推拉模型RocketMQ本质上使用的是拉模式，但它通过长轮询等技术实现了......
抖音电商与AI数字人解说技术的应用分析
抖音电商与AI数字人解说技术的应用分析摘要：随着电商领域的快速发展，抖音平台在电商领域展现出新的增长点。本文分析了抖音电商的最新趋势，特别是AI数字人解说技术在图文带货中的应用，以及其对流量和销售的显著影响。关键词：抖音电商，AI数字人解说，图文带货，流量增长1.抖音电商......
LLM大模型: RAG的上下文语义retrieval — RAPTOR
1、RAG有很多优点，但是缺点也很明显，其中一个硬伤就是：只会“断章取义”！如果文本有明确的答案，现有的retrieve方式大概率能找到，但是如果文本没有明确的答案了？比如android逆向和windows逆向，哪个更有钱途？很多资料会介绍android逆向、windows逆向的原理和技术细节，但是没有哪个更有钱......
拼多多面试 Linux下一个应用程序开始执行到main被调用之间经历了什么?
在Linux系统中，一个应用程序从开始执行到main函数被调用之间经历了多个复杂的步骤。以下是一个详细的流程概述：1.加载器（Loader）当用户在终端或脚本中启动一个程序时，shell调用系统调用execve。这个系统调用将负责启动程序的执行。2.内核态操作内核处理execve系统调用并执行以下......
揭秘！30个成功的AI变现案例分享
精心整理了30个AI变现案例，每一个都可以作为一个完整的副业去实践，AI时代已经来了，所有不甘于现状的朋友，都应该去下场，先把手弄脏，不要怕，实践起来！（文末有配套资料）1．【副业创业】AI+剧本项目：Al技术手剧本创作商单市场分析：客户群体：需求简单、成本敏感的商单，适合Al剧本创作，可......
一文为你深度解析LLaMA2模型架构
本文分享自华为云社区《【云驻共创】昇思MindSpore技术公开课大咖深度解析LLaMA2模型架构》，作者：Freedom123。一、前言随着人工智能技术的不断发展，自然语言处理（NLP）领域也取得了巨大的进步。在这个领域中，LLaMA展示了令人瞩目的性能。今天我们就来学习LLaMA2模型，我们根据昇思M......
AI算法04-自组织映射神经网络Self-Organizing Map | SOM
自组织映射神经网络自组织映射（SOM）或自组织特征映射（SOFM）是一种类型的人工神经网络（ANN），其使用已训练的无监督学习以产生低维（通常为二维），离散的表示训练样本的输入空间，称为地图，因此是一种减少维数的方法。自组织映射与其他人工神经网络不同，因为它们应用竞争学习而不是纠错学习（例如......
AI大模型实战进阶：内容审核应用深度解析
1.背景介绍内容审核是指对互联网上的内容进行审核的过程，主要包括文本、图像、音频和视频等多种形式的内容。随着互联网的普及和用户生成内容的增加，内容审核的重要性也不断提高。人工审核不能满足需求，因此需要借助人工智能技术来自动化审核。AI大模型在内容审核领域具有广泛......

对标 GPT-4o，法国开源实验室发布多模态大模型 Moshi；腾讯汤道生：AI 领域不应只关注大模型丨 RTE 开发者日报

01 有话题的新闻

02 有态度的观点

相关文章

赞助商

阅读排行