字节 GUI 代理模型 UI-TARS：具备像人一样的感知、推理、行动能力；SLAM-Omni：支持可控音色的语音对话模型

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq，@鲍勃

01有话题的技术

1、SLAM-Omni：单阶段训练下支持可控音色的语音对话模型

近几个月来，许多端到端的语音对话系统涌现，旨在解决级联系统中交互延迟过高以及基于文本交互下副语言信息丢失的问题。然而，目前大多数语音对话模型依赖于大量的语音对话数据以及高昂的训练代价，且存在响应音色单一的弊端。

近日，上海交通大学计算机系 X-LANCE 实验室联合微软亚洲研究院推出了面向低资源场景下支持可控音色的语音对话模型——SLAM-Omni。该模型只需要在 4 张 GPU 上单阶段训练 15 小时，即可获得远超此前同等规模模型的对话能力，并且具有优越的语音质量以及生成语音-文本一致性。在更大规模数据集上的实验表明 SLAM-Omni 在中文对话以及多轮对话上都有不俗的表现。

目前所有的数据准备、模型训练、推理已经开源。（@语音之家）

2、字节跳动发布了新一代原生 GUI 代理模型：UI-TARS，具备像人一样的感知、推理、行动能力

字节跳动发布了新一代原生 GUI 代理模型：UI-TARS，具备像人一样的感知、推理、行动能力，它把感知、推理、定位和记忆整合在了一起，不需要提前写规则或设定固定流程即可实现端到端的任务自动化。

其支持跨平台，桌面、移动端、网页等，可以执行复杂的多步骤任务；理解文字、图像、交互多模态输入，可实时监控界面变化，准确响应动态变化；支持点击、长按、快捷键等操作；支持任务分解和反思，具有错误修正能力。(@ AIGCLINK@X)

3、智谱 GLM-PC 开放体验：自主操作电脑的多模态 Agent 再升级

GLM-PC 是基于智谱多模态大模型 CogAgent，全球首个面向公众、回车即用的电脑智能体（agent）。它能像人类一样「观察」和「操作」计算机，协助用户高效完成各类电脑任务。

自 2024 年 11 月 29 日发布 GLM-PC v1.0 并开放内测以来，智谱不断优化升级，最新推出了「深度思考」模式，是结合当前流行的 AI 技术，包括自然语言处理（NLP）和机器学习（ML）等，确保用户在多种情境下都能获得精准的信息处理建议。这种设计不仅符合现代办公的需求，也为学生、程序员等专业用户提供了强有力的工具支持。

除此之外，还增加了专用来做逻辑推理和代码生成的功能并且提供了对 Windows 系统的支持。（@智谱）

4、网易有道子曰-o1 推理模型正式开源发布专为消费级显卡设计

1 月 22 日，网易有道宣布正式推出国内首个输出分步式讲解的推理模型「子曰-o1」，并宣布该模型开源。

「子曰-o1」是一款 14B 轻量级单模型，专为消费级显卡设计，能够在低显存设备上稳定运行。该模型采用思维链技术，能够提供详细的解题过程和逻辑推理，其运行思路更接近人类的思考方式。通过「自言自语」和自我纠错的方式，模型可以输出分步解题过程，帮助用户更好地理解和掌握知识。

在教育领域的应用中，「子曰-o1」表现出色。它通过对教育领域数据的深度学习，优化了长思维链的准确度，并在训练指令选择上，大量使用学生试卷习题作为样本，进一步提升了模型在教育场景中的应用效果。目前，「子曰-o1」已成功应用于有道旗下的「有道小 P」产品中，能够实现「先提供解析思路、再提供答案」的答疑过程，引导学生主动思考，提升自主学习能力。

此次发布的「子曰-o1」模型不仅在技术上实现了轻量化和高效推理，还为开发者提供了更具实效的工具。其开源的特性也意味着更多的开发者可以利用这一模型进行创新和开发，推动教育领域 AI 技术的进一步发展。

有道表示，将继续以「场景为先」的理念，释放推理模型在教育领域的应用价值，为学习者提供更高效、更智能的学习体验。（@ AIbase 基地）

5、阶跃语音模型 Step-1o Audio 再升级去年 12 月阶跃发布了国内首个千亿参数端到端语音大模型，如今在情绪感知与理解、多语种和多方言、通话体验上，又有了新的突破。

现在，它能感知你的情绪，精准识别出语气语调中的特别之处。

共情是深度沟通的基础。当用户吐槽今天工作太累太累，它会贴心地送上问候，并愿意倾听，甚至还站在用户的角度去考虑问题。

Step-1o Audio 也通晓一些人情世故。当男朋友生气了，用户寻求帮助，它会献上高情商的良策。更有趣的是，还能够让 AI 在线「撒娇」教学。

同时，它还支持多语种、多方言对话，在中英交流时，直接达到「同传」的水平，而通话体验，也更加低延迟、声音更自然，有了个性化的风格。（@新智元）

6、字节启动 Seed Edge，加码 AGI 研究

（图片来源：EqualOcean）

据媒体报道，字节豆包大模型团队已在内部组建 AGI 长期研究团队，代号「Seed Edge」，鼓励项目成员探索更长周期、具有不确定性和大胆的 AGI 研究课题。Seed Edge 拟定的 5 大研究方向都相对长期，不会像迭代模型那样追求快速出成果：

下一代推理：探索更高效且更通用、提升模型推理能力的方法。
下一代感知：找到统一生成和理解表示的方法，表示和压缩真实世界，构建「世界模型」。
软硬一体的模型设计：从软硬一体出发，探索 Transformer+GPU 之外的模型设计，发挥下一代硬件的能力。
下一代范式：在反向传播、Transformer 架构、预训练 +对齐的模式之外，探索更高效的模型结构和学习方法。

下一代 Scaling 方向：在预训练和推理阶段的 Scaling Laws 之外，探索 Multi-Agent（多智能体）和 Test-Time Training（测试时间训练，动态调整模型参数）等方向。（@晚点独家）

02有亮点的产品

1、谷歌 Gemini Live 支持图像、视频和文件互动今日，谷歌宣布了一些功能，这些功能使 Gemini 成为 Android 设备上更实用、更个性化、更易用的助手。以下是 Gemini 的新功能。其中就包括通过 Gemini Live 使用图像、视频和文件。

Gemini Live 提供更加自然流畅的对话体验，能够辅助用户进行头脑风暴、整理思路或简化复杂议题。该功能专门为 Android 平台设计，用户可以轻松地从手机上的操作过渡到与 Gemini 的对话。目前，Gemini Live 变得更加灵活，允许用户在对话中添加图像、文件和 YouTube 视频。

Gemini Live 的图像、文件和 YouTube 视频支持功能已于今日起在三星 Galaxy S24 和 S25 系列以及 Pixel 9 设备上推出。谷歌计划在未来几周内将其扩展到更多 Android 设备。此外，未来几个月内，谷歌还将率先在 Android 上的 Gemini 移动应用和三星 Galaxy S25 上引入 Project Astra 功能，例如屏幕共享和实时视频流。（@谷歌）

2、未来智能 AI 办公耳机：可录音转写、同传听译、摘要总结、待办提取等

据钛媒体报道，AI 耳机公司未来智能在北京宣布完成数千万元的 Pre-A 轮融资，此轮融资由万物创投领投，初心资本跟投。

这家公司在 2021 年完成种子轮融资，2023 年完成天使轮融资，积累了不少资本支持。未来智能表示，此次融资将主要用于提升算力和算法服务、持续迭代与扩充产品矩阵、拓展海外市场以及完善线下渠道布局。

未来智能的 CEO 马啸表示，该公司致力于开发符合当前 AI 发展特点的耳机产品，选择了一个更贴近用户的场景 —— 办公耳机。未来智能在产品中引入了多项 AI 功能，包括录音转写、同传听译、摘要总结、待办提取等，这些功能帮助用户提升工作效率。

值得注意的是，未来智能的耳机不仅在音质、续航和降噪等基础功能上表现出色，还在 AI 应用方面不断创新。马啸提到，未来智能的新功能包括通话翻译和 AI 「嘴替」，这些功能可以在跨语言沟通中帮助用户实现即时翻译。该公司的产品迭代快，用户留存率高，月活跃用户增长显著。（@ AIbase 基地）

3、Halliday AI 智能眼镜 Kickstarter 众筹，有望首日实现 100 万美金

2025 年 1 月 22 日，备受关注的 Halliday AI 智能眼镜开始 Kickstarter 为期 45 天的众筹。截至目前不到 24 小时已完成超 2000 单，85 万美金的成绩。按照现在的趋势，今天有望首日实现 100 万美金的成绩，这是继国产 AI 智能眼镜 Looktech、闪极 Loomos 之后，第 3 款登陆 Kickstarter 进行众筹的 AI 智能眼镜。

从产品层面上 Halliday 的差异化较为明显，主动式的 AI+独特的 DigiWindows 的显示方案一经发布便受到了广泛的关注。Halliday AI 智能眼镜是由 Moody 联合 Gyges Labs 共同打造的产品。

Halliday AI 智能眼镜售价 399 美金，且不带拍摄功能，相比支持拍摄功能的 Meta-Rayban 还要贵 100 美金，这也表明没有知名品牌加持的 AI 智能眼镜依然有很大的市场需求。(@ XR Vision Pro)

03有态度的观点

1、现代计算型强化学习之父：从瞬时到持续，迈向更好的深度学习

（图片来源：Amii）

Rich Sutton 表示：「到了 2024 年，深度学习仍然在快速发展，但我们应该重新审视它的局限性。因为对于智能体来说，对于我们真正需要的强化学习来说，传统的深度学习效果并不好。」

他还说：「我们应该有一个稳定的主干网络，并且依赖这个主干，在此基础上不断积累更多的知识。这种持续的积累和保护，将是实现动态深度学习的关键。而在主干的外围，有一个更加动态的边缘网络。边缘部分的任务是探索新可能性，尝试变得有用并为主干提供支持。」(@ Z potentials)

更多 Voice Agent 学习笔记：

2024，语音 AI 元年；2025，Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管：打造通用 AI 助理，主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元，并预测了 2025 年语音技术趋势

语音即入口：AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了，这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语，Speak 为何能估值 10 亿美元？丨Voice Agent 学习笔记

市场规模超 60 亿美元，语音如何改变对话式 AI？

2024 语音模型前沿研究整理，Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心，这家 Voice Agent 公司已服务 100+客户

WebRTC 创建者刚加入了 OpenAI，他是如何思考语音 AI 的未来？

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

标签：Omni,AI,模型,智能,SLAM,对话,Gemini,语音
From： https://www.cnblogs.com/Agora/p/18688159

字节 GUI 代理模型 UI-TARS：具备像人一样的感知、推理、行动能力；SLAM-Omni：支持可控音色的语音对话模型

01有话题的技术

02有亮点的产品

03有态度的观点

相关文章

赞助商

阅读排行