开发者朋友们大家好:
这里是**「RTE 开发者日报」**,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq,@鲍勃
01 有话题的技术
1、Kinetix 推出全新 AI 视频技术 可精准控制角色动作
在数字创作领域的技术竞争日趋白热化之际,Kinetix 推出了一项令人瞩目的 AI 视频技术,让角色动作控制达到了新的精准度。这项技术通过创新性地结合真人表演视频和文本指令,实现了对数字角色动作的精确操控。
该系统的操作流程出奇简单:创作者只需上传一段真实的动作视频,比如自己录制的一段挥手或跳舞画面,再配上相应的文本描述,如「角色微笑并挥手」,系统就能将这些输入转化为数字角色的精准动作表现。这种方式与 Runway 的 Act One 颇为相似,都致力于简化动画创作流程。
在功能方面,该系统展现出极强的适应性。无论是简单的挥手、点头、鞠躬,还是复杂的舞蹈、跑步等全身性动作,甚至是微笑、皱眉、惊讶等细腻的表情变化,系统都能精确捕捉和重现。更值得一提的是,创作者还可以通过调节动作的速度、幅度和节奏,对角色的表现效果进行更细致的调整。
作为全球领先的 3D 动画数据库支持者,Kinetix 拥有数百万个高质量动作片段和数亿个 3D 全身姿态数据。这些海量数据为系统提供了强大的基础支持,确保生成的角色动作细节精准到位,从手势、表情到身体姿态都栩栩如生。系统还配备了先进的合成数据生成管道,能够根据不同场景需求自动生成多样化的新动作。
这项技术最显著的优势在于其 democratic 化的特性。即使没有专业动画制作经验的用户,也能在短短几分钟内创作出专业水准的动画内容。相比传统动画制作动辄数周甚至数月的周期,Kinetix 将制作时间压缩至数小时,同时大幅降低了制作成本,为中小型团队和个人创作者提供了前所未有的创作可能。(@ AIbase 基地)
2、微软 AutoGen v0.4 发布:AI 智能体灵活性和跨语言能力大提升
微软近日发布了 AutoGen v0.4 版本,这是其用于 AI 代理的编排框架。这一更新旨在增强 AI 代理的灵活性和可控性,以满足用户对功能扩展和观察能力的需求。
AutoGen 自推出以来,受到了开发者的广泛关注,但用户在使用过程中也遇到了一些架构限制、效率低下的 API 及调试和干预功能不足等问题。
在新版本中,微软重点提升了框架的模块化和可扩展性。AutoGen v0.4 引入了异步消息传递机制,使得基于该框架构建的代理能够支持事件驱动和请求交互模式。这一改进使得开发者可以更加方便地添加插件组件,构建长期运行的代理,同时还可以设计更为复杂和分布式的代理网络。
此外,AutoGen v0.4 的扩展模块简化了多代理团队和高级模型客户端的协作管理,并为开源开发者提供了更好的扩展管理功能。为了提升用户对代理交互的观察能力,AutoGen v0.4 内置了指标追踪、消息追踪和调试工具,使得用户可以实时监控代理之间的互动。
该框架还实现了跨语言的互操作性,目前支持 Python 和。NET 语言,未来将支持更多编程语言。微软对 AutoGen 框架进行了重构,清晰地定义了框架、工具和应用程序之间的责任。新框架分为三个层次:核心层为事件驱动系统的基础构件;AgentChat 层是基于核心层构建的任务驱动高层 API,具备群聊、代码执行和预构建代理功能;第一方扩展则与 Azure 代码执行器和 OpenAI 模型客户端等集成。
与此同时,微软对 AutoGen Studio 也进行了升级,这是一种低代码界面,可用于快速原型设计代理。用户能够实时获取代理更新,暂停对话或在执行过程中重新引导代理,还可以通过拖拽界面设计代理团队,导入自定义代理并获得互动反馈。
微软自 2023 年 10 月推出 AutoGen 以来,致力于简化代理之间的沟通。随着 AI 代理的不断发展,微软也推出了其他代理系统,如 Magentic-One,形成了庞大的 AI 代理生态系统。而竞争对手如 Salesforce、ServiceNow 和 AWS 也在不断增强其代理系统的能力,以追赶微软的步伐。(@ AIbase 基地)
3、视觉语言模型安全升级,还不牺牲性能,淘天 MMLab 南大重大出品
当「多模态」「跨模态」成为不可阻挡的 AI 趋势时,多模态场景下的安全挑战尤其应当引发产学研各界的注意。
应对挑战,淘天集团未来生活实验室团队联手南京大学、重庆大学、港中文 MMLab 提出了一种全新的视觉语言模型(VLM)安全对齐方法,PSA-VLM(Progressive Safety Alignment for Vision-Language Models)。
PSA-VLM 通过基于概念瓶颈模型(CBM)的架构创新,允许模型在生成答案时干预模型的中间层概念预测,从而优化大模型的最终回复,显著提升 VLM 在应对视觉安全风险方面的性能。这一方法不仅在安全性能上取得了卓越的表现,同时保持了模型的通用任务能力。
视觉语言模型的安全隐忧:从「黑箱」到「可控」
近年来,大语言模型(LLMs)的发展促进了多模态学习的进步,使这些强大的语言模型能够处理来自多种模态的信息。其中,视觉语言模型(VLMs)通过整合图像和文本特征,在视觉问答、图像描述以及多模态推理等任务上取得了显著成果。
然而,尽管 VLMs 取得了诸多进展,但其安全性仍然存在重大缺陷。研究发现,在遭遇攻击时视觉模态表现出特别的脆弱性,针对 VLM 中视觉模态的攻击更容易成功: 人们可以通过简单的攻击手段绕过语言模型基座已有的安全对齐机制,生成有害内容 。虽然一些研究探索了针对多模态模型的防御和对齐措施,然而,现有防御方法通常基于直觉设计并通过数据驱动的端到端训练实现。模型仍然是一个人类难以理解和控制的黑箱 。此外,模型的高复杂性也带来了发现内部潜在缺陷的担忧,这都带来了模型具备可解释性和可控性的需求。
为了克服这些局限性,PSA-VLM 的创新在于引入了概念瓶颈模型的核心思想——通过一层可解释的高阶概念连接输入和输出,实现模型的透明化与可控性。
这不仅让模型能够准确识别不安全内容,还支持用户在概念层面对模型预测进行干预,为高风险场景提供了灵活可靠的解决方案。(@量子位)
02 有亮点的产品
1、 MiniMax 推出 TTS 模型 T2A-01-HD:微妙情感控制、录音室级效果、限时免费
MiniMax 推出了 T2A-01-HD ,这是文本转音频技术的又一突破。凭借无与伦比的多功能性、情感深度和多语言真实性,该型号重新定义了语音合成的可能性。以下是它与众不同之处:
无限的语音自定义:
1️⃣仅用 10 秒的音频即可克隆声音,保留每个细微差别和情感底色。-访问按语言、性别、口音、年龄和风格分类的 300 多个预建声音库。-使用高级参数控制自定义音调、速度和情感基调,获得动态效果。
2️⃣添加室内声学和电话滤波器等专业效果,获得录音室级效果。
复杂的情商:
1️⃣通过业界首个智能情感系统捕捉和复制语音中微妙的情感细微差别,让语音栩栩如生。
2️⃣选择自动情绪检测或手动控制,获得完美表达的语音。
真正地道的语言专业知识:
流利地说 17 种以上的语言,自然的口音反映出地道的地区性。
支持的语言包括:
-
英语(美国、英国、澳大利亚、印度)
-
中文(普通话和粤语)
-
日语、韩语、法语、德语、西班牙语、葡萄牙语(包括巴西葡萄牙语)、意大利语、阿拉伯语、俄语、土耳其语、荷兰语、乌克兰语、越南语和印尼语。
该列表会不断更新以包含更多语言(@ Hailuo AI (MiniMax)@X)
2、腾讯会议 AI 小助手 Pro:深度理解和快速响应会议信息
近日,腾讯会议宣布了一项重大产品升级,正式推出了 AI 小助手 Pro,并对组织协同功能进行了全面优化。这一消息引起了广泛关注。
据悉,AI 小助手 Pro 是基于腾讯混元千亿级参数大模型打造的一款智能工具。它能够深度理解和快速响应会议信息,依托历史和实时会议内容,为用户提供更加精准和有针对性的回答。这款智能助手不仅支持联网搜索,还能处理文件或图片提问,进行文案创作、报告解读、方案策划等多种任务。在会议中,AI 小助手 Pro 甚至可以帮助用户分析 PPT,无论是会中还是会外,都能发挥重要作用。
除了 AI 小助手 Pro 的推出,腾讯会议还针对会议通知和录制分享等痛点进行了改进。用户现在可以在腾讯会议内创建组织,预定会议时直接在通讯录中勾选内外部联系人,日程将自动同步到对方会议列表,并通过多种渠道提醒参会人准时参加。如果需要拉入新的参会者,只需在通讯录中发起呼叫,对方接听即可入会,大大提升了会议效率。
此外,腾讯会议还优化了云录制分享功能。用户会后可将云录制内容快捷分享给通讯录内外部联系人,对方直接在腾讯会议客户端的「录制」模块就能查看,不仅方便快捷,还能有效防止录制链接泄露。
值得一提的是,此次升级后,腾讯会议新增了个人身份认证和企业认证功能。专业版、商业版和企业版用户在沟通时,可以在个人资料卡、会议水牌中展示认证信息,进一步提升了会议的专业性和安全性。(@ AIbase 基地)
03 有态度的观点
1、Salesforce 首席科学家:借助 AI Agent,工作将会更有能力、更有趣
近日,Salesforce 首席科学家 Silvio Savarese 发表文章,其中他表示步入 AI 的第三波浪潮,借助 AI Agent,人们工作起来会更有能力、更觉有趣、更富创造力。
文中,Silvio Savarese 分了三个阶段来谈及 AI 的发展。
第一阶段,专家级的 AI Agent 聚焦特定行业,能出色完成既定任务。Silvio Savarese 认为,这将会给日常关键的商业运作带来了前所未有的效率和准确性,同时这些 AI Agent 是企业应用 AI 的基础,它们处理零散任务又稳又快,极大改变了部门的工作流程。
而第二阶段,Silvio Savarese 则认为是公司内部的专家 AI Agent 开始协同合作,朝着一个共同的商业目标努力。并且这一阶段会引入「协调者」身份的 AI Agent,负责组织多个专家 AI Agent 的协同工作。
到达第三阶段,Silvio Savarese 表示跨组织边界的复杂 Agent-to-Agent(A2A)交互出现了,这开创了全新的商业模式。最后,Silvio Savarese 也表示,要实现最终的理想目标,人类还有很多工作要做。Silvio Savarese 建议,当人类部署愈发复杂的 AI Agent 系统时,每一项决策都必须遵循信任与责任这两个基本原则,要做到构建信任与确保问责制。(@ APPSO)
更多 Voice Agent 学习笔记:
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
标签:10,01,TTS,模型,代理,Agent,AI,开发者,语音 From: https://www.cnblogs.com/Agora/p/18677239