首页 > 其他分享 >实时多模态 AI 的 N 种新可能丨实时互动和大模型专场@RTE2024回顾

实时多模态 AI 的 N 种新可能丨实时互动和大模型专场@RTE2024回顾

时间:2024-11-20 18:07:29浏览次数:1  
标签:模态 AI 模型 实时 翟忠武 对话 种新 语音

 

 

在本届 RTE2024 大会上,来自产业界和学术界的多位专家深入探讨了实时互动和大模型技术的最新进展及其潜在应用。

 

西湖心辰联合创始人俞佳、声网 AI 算法工程师乔齐、MiniMax 资深音频算法专家张博闻、商汤科技数字文娱解决方案负责人焦文奎以及面壁智能算法 VP 翟忠武等分享了他们在各自领域的研究成果和独到见解。

 

RTE 开发者社区主理人林旅强和声网大语言模型实验室高级研究员李忻玮分别主持了主题分享和圆桌讨论环节。

 

俞佳:生成式语音与用户粘性的密切关系

 

西湖心辰联合创始人俞佳带来了一场关于生成式语音技术及其用户粘性的分享。他着重探讨了语音技术在实际应用中的价值,尤其是在 AI 心理咨询和 AI 陪伴 等领域。

 

俞佳强调了语音技术对用户体验的深刻影响。 「心理咨询的本质在于连接,」他解释说:「用户能否与 AI 系统或 AI 咨询师建立起如同与真人咨询师般的连接至关重要。」语音,乃至多模态的视觉能力,都在构建这种连接中扮演着关键角色。当用户感受到系统真正理解自己时,即使提供的建议并非完美无缺,也能带来实质性的帮助。

 

传统的语音处理流程通常是将语音转换为文本,处理后再转换回语音。然而,这种方法不可避免地会丢失诸如语速、语气、情绪等重要的信息。为了解决这一难题,俞佳及其团队开发了 端到端的语音大模型 Lingo。 该模型采用三阶段训练方法,包括模态对齐、适应性训练和多模态微调。尤为值得一提的是,Lingo 支持语音和文本的同时输入输出,为后续的处理和应用提供了更多可能性。

 

乔齐:基于大语言模型的双全工对话模式探索

 

声网 AI 算法工程师乔齐分享了基于大语言模型的双全工对话方面的探索。他指出,现有的 AI 语音助手,以 ASR、LLM、TTS 三段式框架为主,在实际交互中仍存在不足。

 

双全工对话模式是解决这一问题的关键。 「双全工」允许用户在对话过程中随时打断,并要求 AI 助手能够理解、响应这种打断,并在合适的时机进行回复,最终实现更自然流畅的交互体验。

 

他进一步解释了让大语言模型进行双全工对话的核心在于 理解「说」和「听」两种对话状态, 以及它们之间四种可能的转移路径:说->说(忽略干扰,继续发言),说->听(响应打断,开始聆听),听->说(回复用户),听->听(继续聆听)。

 

为实现双全工对话,乔齐介绍了两种方案。第一种是利用现有的闭源商业大模型,并结合提示词工程进行调优。第二种方案是微调小规模大语言模型并部署在端侧设备,以解决闭源模型成本高和数据安全问题。

 

张博闻:新一代语音大模型 Abab-speech-01 的突破性应用

 

MiniMax 声音团队算法工程师张博闻分享了新一代语音生成大模型 Abab-speech-01 的落地成果。该模型利用 数百万小时 涵盖多语言、方言、情绪和场景的标注音频数据进行预训练和微调,显著提升了语音合成的 自然度和情感表达能力。 相较于传统模型,Abab-speech-01 更擅长理解文本语义和情感,能够更自然地表达如笑声等细节,并根据文本情感调整语音,使其更生动传神。此外,它只需 5-6 秒音频即可实现高质量音色复刻,大幅提升效率并降低成本。

 

在 C 端应用方面,MiniMax 推出了 AI 虚拟社交产品「星野」和生产力工具「海螺 AI」。「星野」利用 Abab-speech-01 的 音色复刻能力, 支持用户创建数百万种独特音色,并可通过文本描述生成音色。「海螺 AI」则内置 30 种官方精品音色及音色复刻功能,确保安全合规的前提下,允许用户使用自身或亲人的声音进行语音合成。两款产品均集成 低延时语音通话功能, 端到端延时控制在 400 毫秒以内。

 

在产业应用方面,Abab-speech-01 已成功应用于有声读物、数字人带货和智能硬件等领域。

 

焦文奎:商汤科技多模态模型解决方案与创新应用

 

商汤科技数字文娱解决方案负责人焦文奎介绍了商汤科技「日日新」大模型的流式多模态能力及其应用探索。依托强大的算力基础设施(12000P,年底将达 20000P)和约 10TB 的数据(20%为高质量标注数据),「日日新」大模型已迭代至 5.5 版本,重点关注 大装置、大模型和应用的三位一体发展。

 

流式多模态模型支持音频、视频、文本输入,并以音频或文本输出,响应延迟为 560 毫秒。面向用户的 SDK「日日新 5O」已发布,未来将推出企业级版本。现场演示的拟人对话和图像描述等 demo,展示了在品牌/地标识别、人像/场景理解等方面的能力,并计划将文生图能力融入多模态模型。

 

  • 应用场景探索方面,包括:品牌/地标识别: 例如博物馆展品讲解

  • 人像/场景理解: 例如电商直播中的穿着打扮指导

  • 数字人: 与声网合作,探索陪聊、带货等场景,并解决弱网环境下的低延时需求,未来将实现音进音出,并逐步加入视觉模块。

  • AI 面试官: 结合慢推理模型,用于校招和社招初面。

  • 音视频美颜美体美型。

 

翟忠武:基于面壁小钢炮训练的对话模型实践

 

面壁智能算法 VP 翟忠武分享了他们在端侧对话模型领域的突破性进展。面对大模型高昂的推理成本,面壁智能致力于将大模型部署到手机、单片机等低功耗设备,并取得了显著成果。

 

翟忠武重点介绍了「面壁小钢炮」项目,这项创新尝试旨在 提升模型的知识密度。 团队通过一套精密的「风洞系统」进行大量实验,优化模型架构和关键参数,最终实现了一个仅有 1.2B 参数但性能优于 7B 和 13B 模型的小型化模型。

 

在实际应用中,面壁智能的端侧对话模型展现出令人惊艳的性能。该模型无需 GPU 支持,可在手机端流畅运行,平均每位用户可持续对话 80 分钟,进行 300 轮对话。翟忠武现场演示了模型极快的响应速度,甚至超越用户输入速度。

 

这一高效的端侧模型背后,凝聚了多项核心技术:

 

1、快慢系统融合: 模型整合了「慢思考」(分析用户画像、记忆和聊天记录)和「快思考」(快速生成回复)两个系统,显著提升了模型的整体能力和响应效率。

 

2、多模态架构设计: 模型支持文字和语音的同步输入输出,并采用流式处理和 Beam Search 解码,以适应多样化的交互场景。

 

3、创新的训练方法: 团队采用独特的训练方法,同时训练模型的「接龙」和「对话」能力,并在后期引入高质量数据进行强化学习。

 

4、模型稀疏化技术: 借鉴人脑神经元连接的稀疏性,通过稀疏化技术大幅提升模型效率,降低计算资源消耗。

 

圆桌讨论:实时多模态 AI 的 N 种可能

 

主题是 「实时多模态 AI 的 N 种可能」 的圆桌讨论由声网大语言模型实验室的李忻玮主持,参与讨论的嘉宾有面壁智能算法 VP 翟忠武、TEN Framework 联合发起人 Plutoless 以及西湖心辰联合创始人俞佳。

 

 

会议伊始,主持人李忻玮用一个轻松的快问快答环节与 Plutoless 互动,确认他「暂时通过了图灵测试」,也为「实时性」这一关键词埋下伏笔。围绕 Anthropic 新推出的 Claude 3.5 模型的 「Computer Use」功能, 讨论正式展开。该功能允许 Claude 通过 API 接入用户电脑,模拟鼠标键盘操作。

 

翟忠武认为这并非新技术,并指出其实 现流畅稳定操作的关键在于端侧模型, 以规避云端模型的网络延时问题。他更看好 function call 的应用,认为直接调用 API 比通过视觉识别 UI 更高效。

 

Plutoless 也表示类似功能在 Framework 已有尝试,并指出语音控制的实现 难点在于与应用 API 的打通, 即「最后一公里」问题。他进一步介绍了 Framework 在实时视频方面的布局,表示已支持类似 ChatGPT 的截图提问功能,并计划在开源项目中包含屏幕共享功能,以实现更自然的交互。

 

俞佳则从产品角度对「Computer Use」功能表达了兴奋之情。他认为,尽管技术上并无突破,但该功能 赋予了大模型操作图形界面的能力, 拓展了 AI 的应用空间,如同人形机器人拥有了「手」一样意义重大。

 

关于端侧模型的潜力, 翟忠武认为未来的交互将以语音为主,并强调端侧模型作为基础设施的重要性,能够让开发者无需重复训练大模型。他认为目前端侧模型的瓶颈在于实时性和算力。

 

 

Plutoless 指出, 人工智能处理信息的方式与人类截然不同。 以远程会议为例,当网络连接不稳定时,人类更注重音视频的流畅度而非完整性。即使画面模糊或声音断续,我们仍然可以凭借自身的理解能力抓住会议的主旨。但如果出现严重的音频延迟,沟通就会受到阻碍。相反, 人工智能并不需要像人类那样理解信息的语义。 比如,将 10 秒的信息压缩到 1 秒,对人类来说是无法理解的,而人工智能却可以轻松处理。

 

TEN Framework 的初衷正是解决这些复杂问题,让开发者专注于业务逻辑和自身优势领域。TEN Framework 致力于将这些复杂能力原生集成到框架中,并通过插件提供给开发者,降低开发门槛和心智负担。

 

关于 AI 带来的道德风险, 俞佳坦言,随着人与 AI 情感连接的加深,AI 回复的风险性挑战也日益增大,西湖心辰已在产品中加入了针对用户极端情绪的预警机制。

 

最后,圆桌讨论转向了 多模态生成范式。 翟忠武认为,用统一的 token ID 处理不同模态数据是可行的,并指出目前的关键在于如何 将图像和声音转化为 token ID。 Plutoless 则认为,多模态交互更加自然,但也带来了延时问题。他指出目前多模态模型的精确度和可控性仍有不足,主要 受限于训练数据的缺乏。 俞佳也承认,多模态模型效果的不足 限制了某些产品需求的实现, 但他对未来发展仍然乐观。

 

 

标签:模态,AI,模型,实时,翟忠武,对话,种新,语音
From: https://www.cnblogs.com/Agora/p/18558967

相关文章

  • AI之旅-语义搜索:初识 vector embedding 与部署向量数据库 qdrant
    AI之旅实现的第一个功能是基于大模型的vectorembedding进行语义搜索(semanticsearch)。(图片来源:kdnuggets.com)基于大模型实现的聊天机器人虽然能打字和你聊天,但大模型却大字不识一个,它只识数(向量)与只会计算,它不会玩文字游戏,只会玩数字游戏。任何一段文字,在大模型的眼里只是......
  • 【RAG 项目实战 01】在 LangChain 中集成 Chainlit
    【RAG项目实战01】在LangChain中集成ChainlitNLPGithub项目:NLP项目实践:fasterai/nlp-project-practice介绍:该仓库围绕着NLP任务模型的设计、训练、优化、部署和应用,分享大模型算法工程师的日常工作和实战经验AI藏经阁:https://gitee.com/fasterai/ai-e-boo......
  • 开源模型应用落地-LangChain实用小技巧-检索器-集成多种检索器(十八)
    一、前言   在LangChain中,检索器是一个重要模块,主要用于从数据源中检索与查询相关的文档或片段。它能高效进行信息检索,通过快速筛选和语义理解从大规模文本数据中找到相关内容,支持复杂应用场景如检索增强生成和多源数据整合,还具有可定制性和灵活性,可选择不同嵌入模型和索......
  • 【架构设计篇】LLM应用架构实战:基于LangChain的企业级最佳实践
    前言随着ChatGPT等大语言模型的广泛应用,越来越多的企业开始将LLM整合到其业务系统中。然而,从概念验证(PoC)到生产环境的转换过程中,往往会遇到诸多技术挑战。本文将基于实际项目经验,分享LLM应用开发中的架构设计、性能优化、成本控制等关键环节和解决方案。1.LLM应用的特殊性在......
  • TensorFlow + CNN 实战 AI 图像处理:计算机视觉 + 落地应用
    TensorFlow+CNN实战AI图像处理:计算机视觉+落地应用一、引言随着人工智能技术的飞速发展,计算机视觉领域取得了令人瞩目的成就,在诸多行业中都展现出了巨大的应用潜力。而卷积神经网络(ConvolutionalNeuralNetwork,CNN)作为计算机视觉的核心技术之一,结合强大的深度学习框架T......
  • 29套AI全栈大模型项目实战,人工智能视频课程-多模态大模型
    29套AI全栈大模型项目实战:探索人工智能视频课程中的多模态大模型随着人工智能技术的飞速发展,多模态大模型已成为当前研究的热点。这类模型能够同时处理和理解来自多种模态的信息,如文本、图像、音频和视频等,从而在复杂场景中展现出更强的智能。为了帮助广大开发者掌握这一前沿技术......
  • 论文写作难题怎么破?6款AI写作神器实测分享!
    写论文真是个大挑战,熬夜到掉头发,想破脑袋,把自己累得不行。不过别怕,我们有6款超聪明AI论文写作神器可以帮你脱离困境!它们太给力了,让你轻松搞定那些让人崩溃的任务,再也不用怕看着空白文档时大脑一片空白。宙语CosmosAI写作工具传送门:https://ailjyk.com/?channel=DVCXBQVT......
  • 零基础 AI 入门实战(深度学习 + Pytorch)
    零基础AI入门实战(深度学习+Pytorch)一、引言在当今这个科技飞速发展的时代,人工智能(AI)已经渗透到了我们生活和工作的方方面面。深度学习作为AI领域中的强大技术,更是展现出了巨大的应用潜力。而Pytorch作为一款广受欢迎的深度学习框架,为我们实现各种AI应用提供了便捷的工......
  • AI智能分析视频分析网关周界入侵算法详解
    随着科技的迅猛发展和安全需求的不断提升,智能监控系统正逐渐成为维护公共安全的重要手段。其中,视频分析网关作为这一系统的核心组成部分,凭借其先进的视频处理和智能分析功能,正在有效提升安防监控的效率和准确性。本文将深入探讨AI智能分析视频分析网关的工作原理、相较传统监控方......
  • Djourney新手入门基础:AI摄影+AI设计+AI绘画——AIGC作图的探索之旅
    Djourney新手入门基础:AI摄影+AI设计+AI绘画——AIGC作图的探索之旅随着人工智能技术的飞速发展,AIGC(ArtificialIntelligenceforGenerativeContent)技术正在重塑我们的创作方式,特别是在摄影、设计和绘画领域。Djourney作为一款集成了AI技术的强大作图工具,为创意者提供了无限可能......