震撼！首个开源的交互式全模态大语言模型，GPT-4o realtime的开源实现。

时间：2025-01-08 14:03:24浏览次数：3

标签：模态 1.5 realtime 模型 4o 开源语音 VITA 交互

OpenAI的realtime多模态大模型，大家是不是已经体验过了，国内也有几家大厂做了类似的多模态视觉、语音交互大模型。

项目简介：

VITA-1.5 是一款开源的交互式多模态大型语言模型，实现接近实时的视觉和语音交互体验。相较于之前的VITA-1.0版本，VITA-1.5 在多个方面取得了显著进步。VITA-1.5 还采用了渐进式训练策略，确保在加入语音模态时，对其他多模态性能的影响最小化。该模型支持中英文两种语言，适用于多种应用场景。

VITA-1.5功能特点：

显著降低交互延迟。端到端的语音交互延迟已从大约4秒降低到1.5秒，实现了近乎即时的交互，并极大地提升了用户体验。
多模态性能增强。在MME、MMBench和MathVista等多模态基准测试中的平均性能显著提高，从59.8提升到70.8。
语音处理能力提升。语音处理能力已提升到新的水平，ASR WER（词错误率，测试其他）从18.4降低到7.5。用了一个端到端的TTS模块替换了VITA-1.0的独立TTS模块，该模块接受LLM的嵌入作为输入。
渐进式训练策略。通过这种方式，添加语音对其他多模态性能（视觉-语言）的影响很小。平均图像理解性能仅从71.3下降到70.8。
在图像和视频理解基准测试中的评估。
VITA-1.5在ASR基准测试中超越了专业的语音模型。添加音频模态对图像和视频理解能力的影响很小。

标签：模态,1.5,realtime,模型,4o,开源,语音,VITA,交互
From： https://blog.csdn.net/AI_Charlotte/article/details/145007360

原生的Three.js Cesium.js的开源案例已获近1000Star
纯原生threecesium案例由于前端得发展，three.js和cesium.js越来越被越来越多得前端接触到，由于其学习路线比较复杂，且官网案例覆盖不全，因此在今年我们共同搭建了一个免费得three和cesium案例学习平台，未来将免费逐步的更新案例。主要侧重于开发者的技术交流......
JuiceFS 2024：开源与商业并进，迈向 AI 原生时代
即将过去的2024年，是JuiceFS开源版本推出的第4年，企业版的第8个年头。回顾过去这一年，JuiceFS社区版依旧保持着快速成长的势头，GitHub星标突破11.1K，各项使用指标增长均超过100%，其中文件系统总数量较前一年更是增长了8.5倍；企业版同样持续保持高速增长，继去年实现盈亏平衡......
ProxyPin开源免费抓包工具，支持Windows、Mac、Android、IOS、Linux 全平台系统
您可以使用它来拦截、检查和重写HTTP（S）流量，支持Flutter应用抓包，ProxyPin基于Flutter开发，UI美观易用。核心特性手机扫码连接:不用手动配置Wifi代理，包括配置同步。所有终端都可以互相扫码连接转发流量。域名过滤:只拦截您所需要的流量，不拦截其他流量，避免干扰其他应用。搜索：根......
.Net轻量级的CMS开源项目
推荐一个Star超过2K的.Net轻量级的CMS开源项目推荐一个具有模块化和可扩展的架构的CMS开源项目。01项目简介PiranhaCMS是一个轻量级且跨平台的CMS库，专为.NET8设计。该项目提供多种模板，具备CMS基本功能，也有空模板方便从头开始构建新网站，甚至可以作为移动应用的后端。......
开源flux适配昇腾NPU分享，体验120亿参数AI文生图模型
这一期我们分享一位开源开发者参与flux适配昇腾NPU的实践经验，欢迎广大开发者对华为技术栈适配进行讨论。开源适配实践flux是一个AI图像生成模型，有120亿参数量，具有大量的用户基础，可以根据命令行输入的文字去生成对应的图片。本次适配使用的flux模型权重文件是schnell版本。下面......
毫秒级出图！5分钟让你搞懂FLUX：快、开源，下一代AI模型的选择？
你有没有想过，为什么在人工智能领域，速度和效率变得越来越重要？特别是当我们在训练和部署模型时，时间就是金钱。今天，我们来聊聊一个叫做FLUX的开源项目，这个工具不仅速度快，还可以帮助你在模型部署上获得显著的优势。现在，你可能会想：“特么又是一个新轮子，真的能带来什么不同吗？”......
开源AI视频监控系统，助力公租房廉租房管理，打击倒卖行为
前言：通过思通数科借助AI视频监控技术提供的解决方案，可以帮助政府精准监管公租房，打击房产倒卖行为，确保公租房管理的公正和透明。客户案例与场景故事框架场景描述：在某城市的一个公租房小区，政府通过安保人员的人工监控方式，试图确保每一户住房都能按照规定入住。然而，随着时间的......
BotSharp：又一个.Net重磅AI开源项目，.Net在AI领域开始崛起！
大家好，我是编程乐趣。自从大模型爆火以来，.Net不管是官方、还是社区开源项目，都陆续推出很多重磅的项目。在AI领域，对话即平台（CaaP）是未来的发展方向。下面介绍一个开源项目，面向AIBot平台构建者的开源机器学习框架：BotSharp，它已经为.NET开发人员提供了使用BotSharpAIBOTplatform......
2025年测试用例管理看这一篇就够了 ----Codes 开源免费、全面的测试管理解决方案
1、前言Codes是国内首款重新定义SaaS模式的开源项目管理平台，支持云端认证、本地部署、全部功能开放，并且对30人以下团队免费。它通过整合迭代、看板、度量和自动化等功能，简化测试协同工作，使敏捷测试更易于实施。并提供低成本的敏捷测试解决方案，如同步在线离线测试用例、流程......
2025年广告第一单，试试这款永久免费的开源BI工具
元旦之后，我们和国内领先的开源软件公司飞致云达成了重要合作，合作分两部分，一是推广飞致云旗下的免费开源软件，一是双方合作推出联合会员。飞致云旗下有多款免费开源软件，1月6日上线了第一个文字链广告，推广的是是飞致云旗下永久免费的开源BI工具——DataEase。人人可用的BI......

震撼！首个开源的交互式全模态大语言模型，GPT-4o realtime的开源实现。

项目简介：

VITA-1.5功能特点：

相关文章

赞助商

阅读排行