实时多模态 AI 的 N 种新可能丨实时互动和大模型专场@RTE2024回顾

标签：模态 AI 模型实时翟忠武对话种新语音

在本届 RTE2024 大会上，来自产业界和学术界的多位专家深入探讨了实时互动和大模型技术的最新进展及其潜在应用。

西湖心辰联合创始人俞佳、声网 AI 算法工程师乔齐、MiniMax 资深音频算法专家张博闻、商汤科技数字文娱解决方案负责人焦文奎以及面壁智能算法 VP 翟忠武等分享了他们在各自领域的研究成果和独到见解。

RTE 开发者社区主理人林旅强和声网大语言模型实验室高级研究员李忻玮分别主持了主题分享和圆桌讨论环节。

俞佳：生成式语音与用户粘性的密切关系

西湖心辰联合创始人俞佳带来了一场关于生成式语音技术及其用户粘性的分享。他着重探讨了语音技术在实际应用中的价值，尤其是在 AI 心理咨询和 AI 陪伴 等领域。

俞佳强调了语音技术对用户体验的深刻影响。 「心理咨询的本质在于连接，」他解释说：「用户能否与 AI 系统或 AI 咨询师建立起如同与真人咨询师般的连接至关重要。」语音，乃至多模态的视觉能力，都在构建这种连接中扮演着关键角色。当用户感受到系统真正理解自己时，即使提供的建议并非完美无缺，也能带来实质性的帮助。

传统的语音处理流程通常是将语音转换为文本，处理后再转换回语音。然而，这种方法不可避免地会丢失诸如语速、语气、情绪等重要的信息。为了解决这一难题，俞佳及其团队开发了 端到端的语音大模型 Lingo。 该模型采用三阶段训练方法，包括模态对齐、适应性训练和多模态微调。尤为值得一提的是，Lingo 支持语音和文本的同时输入输出，为后续的处理和应用提供了更多可能性。

乔齐：基于大语言模型的双全工对话模式探索

声网 AI 算法工程师乔齐分享了基于大语言模型的双全工对话方面的探索。他指出，现有的 AI 语音助手，以 ASR、LLM、TTS 三段式框架为主，在实际交互中仍存在不足。

双全工对话模式是解决这一问题的关键。 「双全工」允许用户在对话过程中随时打断，并要求 AI 助手能够理解、响应这种打断，并在合适的时机进行回复，最终实现更自然流畅的交互体验。

他进一步解释了让大语言模型进行双全工对话的核心在于 理解「说」和「听」两种对话状态， 以及它们之间四种可能的转移路径：说->说（忽略干扰，继续发言），说->听（响应打断，开始聆听），听->说（回复用户），听->听（继续聆听）。

为实现双全工对话，乔齐介绍了两种方案。第一种是利用现有的闭源商业大模型，并结合提示词工程进行调优。第二种方案是微调小规模大语言模型并部署在端侧设备，以解决闭源模型成本高和数据安全问题。

张博闻：新一代语音大模型 Abab-speech-01 的突破性应用

MiniMax 声音团队算法工程师张博闻分享了新一代语音生成大模型 Abab-speech-01 的落地成果。该模型利用 数百万小时 涵盖多语言、方言、情绪和场景的标注音频数据进行预训练和微调，显著提升了语音合成的 自然度和情感表达能力。 相较于传统模型，Abab-speech-01 更擅长理解文本语义和情感，能够更自然地表达如笑声等细节，并根据文本情感调整语音，使其更生动传神。此外，它只需 5-6 秒音频即可实现高质量音色复刻，大幅提升效率并降低成本。

在 C 端应用方面，MiniMax 推出了 AI 虚拟社交产品「星野」和生产力工具「海螺 AI」。「星野」利用 Abab-speech-01 的 音色复刻能力， 支持用户创建数百万种独特音色，并可通过文本描述生成音色。「海螺 AI」则内置 30 种官方精品音色及音色复刻功能，确保安全合规的前提下，允许用户使用自身或亲人的声音进行语音合成。两款产品均集成 低延时语音通话功能， 端到端延时控制在 400 毫秒以内。

在产业应用方面，Abab-speech-01 已成功应用于有声读物、数字人带货和智能硬件等领域。

焦文奎：商汤科技多模态模型解决方案与创新应用

商汤科技数字文娱解决方案负责人焦文奎介绍了商汤科技「日日新」大模型的流式多模态能力及其应用探索。依托强大的算力基础设施（12000P，年底将达 20000P）和约 10TB 的数据（20%为高质量标注数据），「日日新」大模型已迭代至 5.5 版本，重点关注 大装置、大模型和应用的三位一体发展。

流式多模态模型支持音频、视频、文本输入，并以音频或文本输出，响应延迟为 560 毫秒。面向用户的 SDK「日日新 5O」已发布，未来将推出企业级版本。现场演示的拟人对话和图像描述等 demo，展示了在品牌/地标识别、人像/场景理解等方面的能力，并计划将文生图能力融入多模态模型。

应用场景探索方面，包括：品牌/地标识别： 例如博物馆展品讲解
人像/场景理解： 例如电商直播中的穿着打扮指导
数字人： 与声网合作，探索陪聊、带货等场景，并解决弱网环境下的低延时需求，未来将实现音进音出，并逐步加入视觉模块。
AI 面试官： 结合慢推理模型，用于校招和社招初面。
音视频美颜美体美型。

翟忠武：基于面壁小钢炮训练的对话模型实践

面壁智能算法 VP 翟忠武分享了他们在端侧对话模型领域的突破性进展。面对大模型高昂的推理成本，面壁智能致力于将大模型部署到手机、单片机等低功耗设备，并取得了显著成果。

翟忠武重点介绍了「面壁小钢炮」项目，这项创新尝试旨在 提升模型的知识密度。 团队通过一套精密的「风洞系统」进行大量实验，优化模型架构和关键参数，最终实现了一个仅有 1.2B 参数但性能优于 7B 和 13B 模型的小型化模型。

在实际应用中，面壁智能的端侧对话模型展现出令人惊艳的性能。该模型无需 GPU 支持，可在手机端流畅运行，平均每位用户可持续对话 80 分钟，进行 300 轮对话。翟忠武现场演示了模型极快的响应速度，甚至超越用户输入速度。

这一高效的端侧模型背后，凝聚了多项核心技术：

1、快慢系统融合： 模型整合了「慢思考」（分析用户画像、记忆和聊天记录）和「快思考」（快速生成回复）两个系统，显著提升了模型的整体能力和响应效率。

2、多模态架构设计： 模型支持文字和语音的同步输入输出，并采用流式处理和 Beam Search 解码，以适应多样化的交互场景。

3、创新的训练方法： 团队采用独特的训练方法，同时训练模型的「接龙」和「对话」能力，并在后期引入高质量数据进行强化学习。

4、模型稀疏化技术： 借鉴人脑神经元连接的稀疏性，通过稀疏化技术大幅提升模型效率，降低计算资源消耗。

圆桌讨论：实时多模态 AI 的 N 种可能

主题是 「实时多模态 AI 的 N 种可能」 的圆桌讨论由声网大语言模型实验室的李忻玮主持，参与讨论的嘉宾有面壁智能算法 VP 翟忠武、TEN Framework 联合发起人 Plutoless 以及西湖心辰联合创始人俞佳。

会议伊始，主持人李忻玮用一个轻松的快问快答环节与 Plutoless 互动，确认他「暂时通过了图灵测试」，也为「实时性」这一关键词埋下伏笔。围绕 Anthropic 新推出的 Claude 3.5 模型的 「Computer Use」功能， 讨论正式展开。该功能允许 Claude 通过 API 接入用户电脑，模拟鼠标键盘操作。

翟忠武认为这并非新技术，并指出其实 现流畅稳定操作的关键在于端侧模型， 以规避云端模型的网络延时问题。他更看好 function call 的应用，认为直接调用 API 比通过视觉识别 UI 更高效。

Plutoless 也表示类似功能在 Framework 已有尝试，并指出语音控制的实现 难点在于与应用 API 的打通， 即「最后一公里」问题。他进一步介绍了 Framework 在实时视频方面的布局，表示已支持类似 ChatGPT 的截图提问功能，并计划在开源项目中包含屏幕共享功能，以实现更自然的交互。

俞佳则从产品角度对「Computer Use」功能表达了兴奋之情。他认为，尽管技术上并无突破，但该功能 赋予了大模型操作图形界面的能力， 拓展了 AI 的应用空间，如同人形机器人拥有了「手」一样意义重大。

关于端侧模型的潜力， 翟忠武认为未来的交互将以语音为主，并强调端侧模型作为基础设施的重要性，能够让开发者无需重复训练大模型。他认为目前端侧模型的瓶颈在于实时性和算力。

Plutoless 指出， 人工智能处理信息的方式与人类截然不同。 以远程会议为例，当网络连接不稳定时，人类更注重音视频的流畅度而非完整性。即使画面模糊或声音断续，我们仍然可以凭借自身的理解能力抓住会议的主旨。但如果出现严重的音频延迟，沟通就会受到阻碍。相反， 人工智能并不需要像人类那样理解信息的语义。 比如，将 10 秒的信息压缩到 1 秒，对人类来说是无法理解的，而人工智能却可以轻松处理。

TEN Framework 的初衷正是解决这些复杂问题，让开发者专注于业务逻辑和自身优势领域。TEN Framework 致力于将这些复杂能力原生集成到框架中，并通过插件提供给开发者，降低开发门槛和心智负担。

关于 AI 带来的道德风险， 俞佳坦言，随着人与 AI 情感连接的加深，AI 回复的风险性挑战也日益增大，西湖心辰已在产品中加入了针对用户极端情绪的预警机制。

最后，圆桌讨论转向了 多模态生成范式。 翟忠武认为，用统一的 token ID 处理不同模态数据是可行的，并指出目前的关键在于如何 将图像和声音转化为 token ID。 Plutoless 则认为，多模态交互更加自然，但也带来了延时问题。他指出目前多模态模型的精确度和可控性仍有不足，主要 受限于训练数据的缺乏。 俞佳也承认，多模态模型效果的不足 限制了某些产品需求的实现， 但他对未来发展仍然乐观。

标签：模态,AI,模型,实时,翟忠武,对话,种新,语音
From： https://www.cnblogs.com/Agora/p/18558967