首页 > 其他分享 >震撼!首个开源的交互式全模态大语言模型,GPT-4o realtime的开源实现。

震撼!首个开源的交互式全模态大语言模型,GPT-4o realtime的开源实现。

时间:2025-01-08 14:03:24浏览次数:3  
标签:模态 1.5 realtime 模型 4o 开源 语音 VITA 交互

OpenAI的realtime多模态大模型,大家是不是已经体验过了,国内也有几家大厂做了类似的多模态视觉、语音交互大模型。

项目简介:

VITA-1.5 是一款开源的交互式多模态大型语言模型,实现接近实时的视觉和语音交互体验。相较于之前的VITA-1.0版本,VITA-1.5 在多个方面取得了显著进步。VITA-1.5 还采用了渐进式训练策略,确保在加入语音模态时,对其他多模态性能的影响最小化。该模型支持中英文两种语言,适用于多种应用场景。

VITA-1.5功能特点:

  • 显著降低交互延迟。端到端的语音交互延迟已从大约4秒降低到1.5秒,实现了近乎即时的交互,并极大地提升了用户体验。

  • 多模态性能增强。在MME、MMBench和MathVista等多模态基准测试中的平均性能显著提高,从59.8提升到70.8。

  • 语音处理能力提升。语音处理能力已提升到新的水平,ASR WER(词错误率,测试其他)从18.4降低到7.5。用了一个端到端的TTS模块替换了VITA-1.0的独立TTS模块,该模块接受LLM的嵌入作为输入。

  • 渐进式训练策略。通过这种方式,添加语音对其他多模态性能(视觉-语言)的影响很小。平均图像理解性能仅从71.3下降到70.8。

  • 在图像和视频理解基准测试中的评估。

  • VITA-1.5在ASR基准测试中超越了专业的语音模型。添加音频模态对图像和视频理解能力的影响很小。

标签:模态,1.5,realtime,模型,4o,开源,语音,VITA,交互
From: https://blog.csdn.net/AI_Charlotte/article/details/145007360

相关文章

  • 原生的Three.js Cesium.js的 开源案例 已获近1000Star
    纯原生threecesium案例由于前端得发展,three.js和cesium.js越来越被越来越多得前端接触到,由于其学习路线比较复杂,且官网案例覆盖不全,因此在今年我们共同搭建了一个免费得three和cesium案例学习平台,未来将免费逐步的更新案例。主要侧重于开发者的技术交流......
  • JuiceFS 2024:开源与商业并进,迈向 AI 原生时代
    即将过去的2024年,是JuiceFS开源版本推出的第4年,企业版的第8个年头。回顾过去这一年,JuiceFS社区版依旧保持着快速成长的势头,GitHub星标突破11.1K,各项使用指标增长均超过100%,其中文件系统总数量较前一年更是增长了8.5倍;企业版同样持续保持高速增长,继去年实现盈亏平衡......
  • ProxyPin开源免费抓包工具,支持Windows、Mac、Android、IOS、Linux 全平台系统
    您可以使用它来拦截、检查和重写HTTP(S)流量,支持Flutter应用抓包,ProxyPin基于Flutter开发,UI美观易用。核心特性手机扫码连接:不用手动配置Wifi代理,包括配置同步。所有终端都可以互相扫码连接转发流量。域名过滤:只拦截您所需要的流量,不拦截其他流量,避免干扰其他应用。搜索:根......
  • .Net轻量级的CMS开源项目
    推荐一个Star超过2K的.Net轻量级的CMS开源项目 推荐一个具有模块化和可扩展的架构的CMS开源项目。01项目简介PiranhaCMS是一个轻量级且跨平台的CMS库,专为.NET8设计。该项目提供多种模板,具备CMS基本功能,也有空模板方便从头开始构建新网站,甚至可以作为移动应用的后端。......
  • 开源flux适配昇腾NPU分享,体验120亿参数AI文生图模型
    这一期我们分享一位开源开发者参与flux适配昇腾NPU的实践经验,欢迎广大开发者对华为技术栈适配进行讨论。开源适配实践flux是一个AI图像生成模型,有120亿参数量,具有大量的用户基础,可以根据命令行输入的文字去生成对应的图片。本次适配使用的flux模型权重文件是schnell版本。下面......
  • 毫秒级出图!5分钟让你搞懂FLUX:快、开源,下一代AI模型的选择?
    你有没有想过,为什么在人工智能领域,速度和效率变得越来越重要?特别是当我们在训练和部署模型时,时间就是金钱。今天,我们来聊聊一个叫做FLUX的开源项目,这个工具不仅速度快,还可以帮助你在模型部署上获得显著的优势。现在,你可能会想:“特么又是一个新轮子,真的能带来什么不同吗?”......
  • 开源AI视频监控系统,助力公租房廉租房管理,打击倒卖行为
    前言:通过思通数科借助AI视频监控技术提供的解决方案,可以帮助政府精准监管公租房,打击房产倒卖行为,确保公租房管理的公正和透明。客户案例与场景故事框架场景描述:在某城市的一个公租房小区,政府通过安保人员的人工监控方式,试图确保每一户住房都能按照规定入住。然而,随着时间的......
  • BotSharp:又一个.Net重磅AI开源项目,.Net在AI领域开始崛起!
    大家好,我是编程乐趣。自从大模型爆火以来,.Net不管是官方、还是社区开源项目,都陆续推出很多重磅的项目。在AI领域,对话即平台(CaaP)是未来的发展方向。下面介绍一个开源项目,面向AIBot平台构建者的开源机器学习框架:BotSharp,它已经为.NET开发人员提供了使用BotSharpAIBOTplatform......
  • 2025年测试用例管理看这一篇就够了 ----Codes 开源免费、全面的测试管理解决方案
    1、前言Codes是国内首款重新定义SaaS模式的开源项目管理平台,支持云端认证、本地部署、全部功能开放,并且对30人以下团队免费。它通过整合迭代、看板、度量和自动化等功能,简化测试协同工作,使敏捷测试更易于实施。并提供低成本的敏捷测试解决方案,如同步在线离线测试用例、流程......
  • 2025年广告第一单,试试这款永久免费的开源BI工具
    元旦之后,我们和国内领先的开源软件公司飞致云达成了重要合作,合作分两部分,一是推广飞致云旗下的免费开源软件,一是双方合作推出联合会员。飞致云旗下有多款免费开源软件,1月6日上线了第一个文字链广告,推广的是是飞致云旗下永久免费的开源BI工具——DataEase。人人可用的BI......