首页 > 其他分享 >字节 GUI 代理模型 UI-TARS:具备像人一样的感知、推理、行动能力;SLAM-Omni:支持可控音色的语音对话模型

字节 GUI 代理模型 UI-TARS:具备像人一样的感知、推理、行动能力;SLAM-Omni:支持可控音色的语音对话模型

时间:2025-01-23 16:58:23浏览次数:1  
标签:Omni AI 模型 智能 SLAM 对话 Gemini 语音

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@qqq,@鲍勃

01有话题的技术

1、SLAM-Omni:单阶段训练下支持可控音色的语音对话模型

 

近几个月来,许多端到端的语音对话系统涌现,旨在解决级联系统中交互延迟过高以及基于文本交互下副语言信息丢失的问题。然而,目前大多数语音对话模型依赖于大量的语音对话数据以及高昂的训练代价,且存在响应音色单一的弊端。

 

近日,上海交通大学计算机系 X-LANCE 实验室联合微软亚洲研究院推出了面向低资源场景下支持可控音色的语音对话模型——SLAM-Omni。该模型只需要在 4 张 GPU 上单阶段训练 15 小时,即可获得远超此前同等规模模型的对话能力,并且具有优越的语音质量以及生成语音-文本一致性。在更大规模数据集上的实验表明 SLAM-Omni 在中文对话以及多轮对话上都有不俗的表现。

 

目前所有的数据准备、模型训练、推理已经开源。(@语音之家)

 

2、字节跳动发布了新一代原生 GUI 代理模型:UI-TARS,具备像人一样的感知、推理、行动能力

 

字节跳动发布了新一代原生 GUI 代理模型:UI-TARS,具备像人一样的感知、推理、行动能力,它把感知、推理、定位和记忆整合在了一起,不需要提前写规则或设定固定流程即可实现端到端的任务自动化。

 

其支持跨平台,桌面、移动端、网页等,可以执行复杂的多步骤任务 ;理解文字、图像、交互多模态输入,可实时监控界面变化,准确响应动态变化 ;支持点击、长按、快捷键等操作 ;支持任务分解和反思,具有错误修正能力。(@ AIGCLINK@X)

 

3、智谱 GLM-PC 开放体验:自主操作电脑的多模态 Agent 再升级

 

GLM-PC 是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样「观察」和「操作」计算机,协助用户高效完成各类电脑任务。

 

自 2024 年 11 月 29 日发布 GLM-PC v1.0 并开放内测以来,智谱不断优化升级,最新推出了「深度思考」模式,是结合当前流行的 AI 技术,包括自然语言处理(NLP)和机器学习(ML)等,确保用户在多种情境下都能获得精准的信息处理建议。这种设计不仅符合现代办公的需求,也为学生、程序员等专业用户提供了强有力的工具支持。

 

除此之外,还增加了专用来做逻辑推理和代码生成的功能并且提供了对 Windows 系统的支持。(@智谱)

 

4、网易有道子曰-o1 推理模型正式开源发布 专为消费级显卡设计

 

 

1 月 22 日,网易有道宣布正式推出国内首个输出分步式讲解的推理模型「子曰-o1」,并宣布该模型开源。

 

「子曰-o1」是一款 14B 轻量级单模型,专为消费级显卡设计,能够在低显存设备上稳定运行。该模型采用思维链技术,能够提供详细的解题过程和逻辑推理,其运行思路更接近人类的思考方式。通过「自言自语」和自我纠错的方式,模型可以输出分步解题过程,帮助用户更好地理解和掌握知识。

 

在教育领域的应用中,「子曰-o1」表现出色。它通过对教育领域数据的深度学习,优化了长思维链的准确度,并在训练指令选择上,大量使用学生试卷习题作为样本,进一步提升了模型在教育场景中的应用效果。目前,「子曰-o1」已成功应用于有道旗下的「有道小 P」产品中,能够实现「先提供解析思路、再提供答案」的答疑过程,引导学生主动思考,提升自主学习能力。

 

此次发布的「子曰-o1」模型不仅在技术上实现了轻量化和高效推理,还为开发者提供了更具实效的工具。其开源的特性也意味着更多的开发者可以利用这一模型进行创新和开发,推动教育领域 AI 技术的进一步发展。

 

有道表示,将继续以「场景为先」的理念,释放推理模型在教育领域的应用价值,为学习者提供更高效、更智能的学习体验。(@ AIbase 基地)

 

5、阶跃语音模型 Step-1o Audio 再升级去年 12 月阶跃发布了国内首个千亿参数端到端语音大模型,如今在情绪感知与理解、多语种和多方言、通话体验上,又有了新的突破。

 

现在,它能感知你的情绪,精准识别出语气语调中的特别之处。

 

共情是深度沟通的基础。当用户吐槽今天工作太累太累,它会贴心地送上问候,并愿意倾听,甚至还站在用户的角度去考虑问题。

 

Step-1o Audio 也通晓一些人情世故。当男朋友生气了,用户寻求帮助,它会献上高情商的良策。更有趣的是,还能够让 AI 在线「撒娇」教学。

 

同时,它还支持多语种、多方言对话,在中英交流时,直接达到「同传」的水平,而通话体验,也更加低延迟、声音更自然,有了个性化的风格。(@新智元)

 

6、字节启动 Seed Edge,加码 AGI 研究

 

 

(图片来源:EqualOcean)

 

据媒体报道,字节豆包大模型团队已在内部组建 AGI 长期研究团队,代号「Seed Edge」,鼓励项目成员探索更长周期、具有不确定性和大胆的 AGI 研究课题。Seed Edge 拟定的 5 大研究方向都相对长期,不会像迭代模型那样追求快速出成果:

 

  • 下一代推理:探索更高效且更通用、提升模型推理能力的方法。

  • 下一代感知:找到统一生成和理解表示的方法,表示和压缩真实世界,构建「世界模型」。

  • 软硬一体的模型设计:从软硬一体出发,探索 Transformer+GPU 之外的模型设计,发挥下一代硬件的能力。

  • 下一代范式:在反向传播、Transformer 架构、预训练 +对齐的模式之外,探索更高效的模型结构和学习方法。

 

下一代 Scaling 方向:在预训练和推理阶段的 Scaling Laws 之外,探索 Multi-Agent(多智能体)和 Test-Time Training(测试时间训练,动态调整模型参数)等方向。(@晚点独家)

02有亮点的产品

1、谷歌 Gemini Live 支持图像、视频和文件互动今日,谷歌宣布了一些功能,这些功能使 Gemini 成为 Android 设备上更实用、更个性化、更易用的助手。以下是 Gemini 的新功能。其中就包括通过 Gemini Live 使用图像、视频和文件。

 

Gemini Live 提供更加自然流畅的对话体验,能够辅助用户进行头脑风暴、整理思路或简化复杂议题。该功能专门为 Android 平台设计,用户可以轻松地从手机上的操作过渡到与 Gemini 的对话。目前,Gemini Live 变得更加灵活,允许用户在对话中添加图像、文件和 YouTube 视频。

 

Gemini Live 的图像、文件和 YouTube 视频支持功能已于今日起在三星 Galaxy S24 和 S25 系列以及 Pixel 9 设备上推出。谷歌计划在未来几周内将其扩展到更多 Android 设备。此外,未来几个月内,谷歌还将率先在 Android 上的 Gemini 移动应用和三星 Galaxy S25 上引入 Project Astra 功能,例如屏幕共享和实时视频流。(@谷歌)

 

2、未来智能 AI 办公耳机:可录音转写、同传听译、摘要总结、待办提取等

 

 

据钛媒体报道,AI 耳机公司未来智能在北京宣布完成数千万元的 Pre-A 轮融资,此轮融资由万物创投领投,初心资本跟投。

 

这家公司在 2021 年完成种子轮融资,2023 年完成天使轮融资,积累了不少资本支持。未来智能表示,此次融资将主要用于提升算力和算法服务、持续迭代与扩充产品矩阵、拓展海外市场以及完善线下渠道布局。

 

未来智能的 CEO 马啸表示,该公司致力于开发符合当前 AI 发展特点的耳机产品,选择了一个更贴近用户的场景 —— 办公耳机。未来智能在产品中引入了多项 AI 功能,包括录音转写、同传听译、摘要总结、待办提取等,这些功能帮助用户提升工作效率。

 

值得注意的是,未来智能的耳机不仅在音质、续航和降噪等基础功能上表现出色,还在 AI 应用方面不断创新。马啸提到,未来智能的新功能包括通话翻译和 AI 「嘴替」,这些功能可以在跨语言沟通中帮助用户实现即时翻译。该公司的产品迭代快,用户留存率高,月活跃用户增长显著。(@ AIbase 基地)

 

3、Halliday AI 智能眼镜 Kickstarter 众筹,有望首日实现 100 万美金

 

2025 年 1 月 22 日,备受关注的 Halliday AI 智能眼镜开始 Kickstarter 为期 45 天的众筹。截至目前不到 24 小时已完成超 2000 单,85 万美金的成绩。按照现在的趋势,今天有望首日实现 100 万美金的成绩,这是继国产 AI 智能眼镜 Looktech、闪极 Loomos 之后,第 3 款登陆 Kickstarter 进行众筹的 AI 智能眼镜。

 

从产品层面上 Halliday 的差异化较为明显,主动式的 AI+独特的 DigiWindows 的显示方案一经发布便受到了广泛的关注。Halliday AI 智能眼镜是由 Moody 联合 Gyges Labs 共同打造的产品。

 

Halliday AI 智能眼镜售价 399 美金,且不带拍摄功能,相比支持拍摄功能的 Meta-Rayban 还要贵 100 美金,这也表明没有知名品牌加持的 AI 智能眼镜依然有很大的市场需求。(@ XR Vision Pro)

03有态度的观点

1、现代计算型强化学习之父:从瞬时到持续,迈向更好的深度学习

 

 

(图片来源:Amii)

 

Rich Sutton 表示:「到了 2024 年,深度学习仍然在快速发展,但我们应该重新审视它的局限性。因为对于智能体来说,对于我们真正需要的强化学习来说,传统的深度学习效果并不好。」

 

他还说:「我们应该有一个稳定的主干网络,并且依赖这个主干,在此基础上不断积累更多的知识。这种持续的积累和保护,将是实现动态深度学习的关键。而在主干的外围,有一个更加动态的边缘网络。边缘部分的任务是探索新可能性,尝试变得有用并为主干提供支持。」(@ Z potentials)

 

 

 

更多 Voice Agent 学习笔记:

 

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

 

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

 

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

 

语音即入口:AI 语音交互如何重塑下一代智能应用

 

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

 

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

 

市场规模超 60 亿美元,语音如何改变对话式 AI?

 

2024 语音模型前沿研究整理,Voice Agent 开发者必读

 

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

 

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

标签:Omni,AI,模型,智能,SLAM,对话,Gemini,语音
From: https://www.cnblogs.com/Agora/p/18688159

相关文章

  • 一文详解!大模型性能测试全指标、计算方法及优化指南
    最近一周,我参与了一些第三方大模型的性能测试,在过程中发现,对于那些对实时性和稳定性要求较高的应用场景,模型的性能指标已经成为衡量其优劣的关键。这些指标不仅直接影响用户体验,还决定了模型能否真正胜任复杂的业务需求。在近年来大模型技术的快速发展中,我们看到智谱、文......
  • 模型类别计较和选择说明
    我来为您解释这几种模型的区别和应用场景:基模型(BaseModel)定义:通过大规模预训练得到的原始模型,如GPT-3、BERT、LLaMA等特点:具有广泛的通用能力参数量较大训练成本高未经过特定任务优化使用场景:作为其他模型的起点需要通用语言理解能力的场景资源充足且需要自定......
  • 大模型论文精选||多智能体微调:通过多样推理链实现自我提升
    多智能体微调是一种实现自我提升的补充方法,它将微调应用于语言模型的多智能体群体。一组均基于相同基础模型的语言模型,通过模型间的多智能体交互生成的数据,分别对各个模型进行更新,实现独立的专业化。通过在不同的数据集上训练每个模型,这种方法能够让各个模型实现专业化,并使整个模......
  • 大模型论文精选|| 多 LLM 文本摘要:创新方法与卓越成果
    多LLM文本摘要:创新方法与卓越成果论文https://arxiv.org/abs/2412.15487Multi-LLMTextSummarization2412.15487多LLM摘要框架在每一轮对话中有两个至关重要的步骤:生成和评估。根据使用的是多LLM去中心化摘要还是中心化摘要,这些步骤会有所不同。在这两种策略中,k个不同的大......
  • 详解类与对象——c++对象模型和this指针
    (^_^)一.成员变量和成员函数分开存储只有非静态成员变量才属于类的对象上classPerson{public:Person(){mA=0;}//非静态成员变量占对象空间intmA;//静态成员变量不占对象空间staticintmB;//函数也不占对......
  • PyTorch 模型 浅读
    PyTorch是一个广泛使用的深度学习框架,它被广泛应用于机器学习、自然语言处理、计算机视觉等多个领域。本文将详细介绍PyTorch模型的原理、一个简单的Demo以及它的常见应用场景,帮助你更好地理解PyTorch的核心概念和实际使用。1.PyTorch模型原理1.1.什么是PyTorc......
  • 农林牧渔业企业信贷数据集和逾期预测模型_论文专利企业立项
    农林牧渔业对于我国经济重要性我国农林牧渔业企业多为中小微企业,典型小农经济。民以食为天,农林牧渔业在我国经济中具有基础性和战略性的重要地位,其重要性主要体现在以下几个方面:1. 保障国家粮食安全粮食生产:农业是粮食生产的主要来源,确保国家粮食安全是农业的首要任务。......
  • 基于关联规则的权重分配优化:从频繁模式到动态决策模型
    在数据驱动的决策系统中,权重分配的合理性直接决定了模型的性能表现。如何从数据中挖掘隐含的模式并优化权重分配,是当前研究中的一个重要方向。本文提出了一种基于关联规则的权重分配优化方法,通过频繁模式挖掘和动态决策机制相结合,提升系统在多任务场景中的表现。关联规则与频繁模......
  • 利用进化计算改进深度学习模型初始权重分布:基于多目标优化的实战分析
    深度学习模型的性能往往受到初始权重分布的显著影响。然而,传统随机初始化方法可能无法充分捕捉数据分布的多样性,从而影响训练收敛速度和最终性能。为了解决这一问题,本文探讨了利用进化计算方法优化深度学习模型初始权重分布的可行性,并结合多目标优化策略进行了实战分析。进化计算......
  • 2025版大模型AI产品经理学习路线:零基础到精通,超详细解析,收藏这一篇就够了!
    随着人工智能技术的发展,尤其是大模型(LargeModel)的兴起,越来越多的企业开始重视这一领域的投入。作为大模型产品经理,你需要具备一系列跨学科的知识和技能,以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线,旨在帮助你构建所需的知识体系,从零基......