首页 > 其他分享 >王慧文回归带队美团探索 AI 应用;对话音频开源模型 Hertz-dev:120 毫秒超低延迟丨 RTE 开发者日报

王慧文回归带队美团探索 AI 应用;对话音频开源模型 Hertz-dev:120 毫秒超低延迟丨 RTE 开发者日报

时间:2024-11-07 12:43:08浏览次数:4  
标签:RTE 视频 AI 模型 Siri Hertz 生成 开发者

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、黑神话悟空也能用 AI 生成了?GameGen-X 颠覆游戏开发

 

香港科技大学、中国科学技术大学等机构的研究人员近日发布了 GameGen-X 模型,这是一个专为生成和互动控制开放世界游戏视频而设计的扩散变换器模型。

 

GameGen-X 能自己生成开放世界游戏视频,可以模拟各种游戏引擎功能,包括生成创新角色、动态环境、复杂动作和多样化事件,还能跟你互动,让你体验一把当游戏策划的快感。

 

为了训练 GameGen-X,研究人员还构建了第一个大型开放世界游戏视频数据集 OGameData。该数据集包含超过 100 万个来自 150 多款游戏的不同游戏视频片段,并利用 GPT-4o 为其生成了 informative 的文本描述。

 

GameGen-X 的训练过程分为两个阶段:基础模型预训练和指令微调。在第一阶段,模型通过文本到视频生成和视频延续任务进行预训练,使其能够生成高质量、长序列的开放域游戏视频。

 

在第二阶段,为了实现互动可控性,研究人员设计了 InstructNet 模块,该模块集成了与游戏相关的多模态控制信号专家。

 

InstructNet 允许模型根据用户输入调整潜在表示,从而首次在视频生成中统一了角色互动和场景内容控制。在指令微调过程中,只有 InstructNet 被更新,而预训练的基础模型被冻结,这使得模型能够在不损失生成视频内容多样性和质量的情况下集成互动可控性。

 

实验结果表明,GameGen-X 在生成高质量游戏内容方面表现出色,并提供了对环境和角色的出色控制能力,优于其他开源和商业模型。(@AIbase 基地)

 

2、首个会话音频开源模型 Hertz-dev 120 毫秒超低延迟惊艳全网

 

一个革命性的开源音频模型——Hertz-dev 横空出世,凭借其惊人的性能指标,让全球开发者为之震撼。这款拥有 85 亿参数的 AI 语音巨兽,通过 2000 万小时高质量音频数据的训练,成功实现了人类梦寐以求的全双工实时对话。

 

最令人惊叹的是其 120 毫秒的超低延迟表现,较现有公开模型足足提升了一倍,让人机对话体验提升到了一个全新境界。想象一下,当你在和 AI 对话时,不必再等待对方说完就能自然插话,就像真实的人类对话一样流畅自然。

 

Hertz-dev 的核心突破包括:

 

  • 突破性全双工技术: 彻底颠覆传统轮流发言模式,实现真正的双向实时交流

 

- 卓越音频压缩: 在保证高音质的同时,大幅降低带宽占用

 

- 超长对话能力: 轻松理解和生成持续性对话内容

 

- 革命性低延迟: 120 毫秒的响应速度,开创实时互动新纪元

 

作为一个专注音频的 Transformer 基础模型,Hertz-dev 在训练过程中充分利用了真实世界的对话数据,成功捕捉了人类语音中的细微特征,包括自然的停顿节奏和丰富的情感语调变化。

 

对开发者而言,这是一个极具价值的开源宝藏。他们可以自由下载模型,根据具体应用场景进行微调,打造各类创新语音应用。这意味着,从客服机器人到语音助手,从教育辅导到娱乐互动,都将迎来质的飞跃。(@AIbase 基地)

 

3、字节推出单图视频驱动模型 X-Portrait 2:一键生成相同表情神态,简化创作流程

 

 

 

单图视频驱动技术,即只需一张静态照片和一段驱动视频,即可生成高质量、「电影级」的视频。

 

字节跳动智能创作团队推出最新单图视频驱动技术 X-Portrait 2,该模型不仅能保留原图的 ID,还能捕捉并迁移从细微到夸张的表情和情绪,简化了现有动作捕捉、角色动画和内容创作流程。

 

不同于以往依赖人脸关键点检测的单图驱动方法,X-Portrait 2 构建了一个表情编码器模型,通过一种端到端自监督训练框架,能够从大量人像视频中自学习 ID 无关的运动隐式表征。

 

进一步将这个编码器与强大的生成式扩散模型相结合,即可生成流畅且富有表现力的视频。经过在大规模高质量表情视频上的训练,X-Portrait 2 在运动表现力和 ID 保持性方面显著优于先前技术。(@IT 之家)

 

4、苹果 Siri AI 进化:将支持读取屏幕、摘要内容、回答相关问题

 

科技媒体 AppleInsider 昨日(11 月 6 日)发布博文,报道称苹果公司本周一发布新的支持文档,帮助开发者更好地利用 Siri 和 Apple Intelligence 功能,用于查看和处理屏幕内容。

 

根据新的开发者文档链接,Siri 可以更深入地理解上下文,用户将能够直接询问 Siri,提出关于当前查看的网页或指定照片中特定对象的问题。

 

Siri 还将能够在请求时总结文档和电子邮件,并通过添加更多内容来完成文本。这些功能的实现,将大大提升 Siri 的实用性和交互性。

 

在最新的 iOS 18.2 开发者测试版中,Siri 已经开始支持 ChatGPT 集成。用户可以在获得许可的情况下,将 PDF、文本文件或图像转发给 ChatGPT 进行处理。

 

新的 API 表明,苹果希望进一步简化此过程,用户可以直接提问,而不必通过 Siri 转发文档。

 

苹果的这项开发者 API 仅是为即将推出的新 Siri 功能做准备,预计这些功能将在 2025 年与 iOS 18.4 更新一同推出。(@IT 之家)

 

5、原美团联合创始人回归,将探索 AI 应用

 

据报道,原美团联合创始人、光年之外创始人王慧文已经回归,在美团带队探索 AI 应用。

 

报道指出,王慧文所在的美团 AI 团队被称为 GN06。目前,GN06 的主要业务方向包括情感陪伴、聊天机器人等,团队为候选人提供「没有边界的 AI 尝试机会」。

 

产品和运营角色,则由王慧文面试把关。

 

有接近美团的人士表示,GN06 由王慧文直管,并不归属任何一个事业群。

 

GN06 在美团中的状态相对独立,专注于探索主营业务之外的方向,和美团已有的大模型团队、各业务条线中的 AI 团队也是相互独立的。(@APPSO)

02有态度的观点

1、前 OpenAI 研究员:需要保护那些脆弱但极具价值的想法

 

在腾讯读书举办的一场对谈上,,腾讯研究院资深专家袁晓辉与前 OpenAI 研究员 Kenneth Stanley 和 Joel Lehman 围绕 10 个问题,进行了两个小时的沟通。

 

当被问及关于共识的问题时,Kenneth Stanley 表示,「有时候你确实需要共识,但有时候你需要的是分歧。创新的组织本身是复杂的。」

 

不过,他也补充道,「你需要保护那些脆弱但极具价值的想法,尤其是当这些想法来自你聘请的顶尖人才时。」

 

他认为创新是一个循环的过程,有阶段性分歧,也有阶段性聚合,因为有些项目的确需要多人协作才能完成。即使有时候团队需要达成共识,也并不是非要在目标上达成一致。

 

而关于 OpenAI 的成功,Kenneth Stanley 表示,这是与领导层的兴趣和勇气有关,他们愿意真的把所有的赌注放在一个看起来风险很大的事情上。

 

Joel Lehman 也给出了差不多的看法,并且他还表示,OpenAI 有非常聪明的人,还有探索的意愿。从一开始,他们就做出了这种反常规的赌注,并且一次次地将所有筹码都押上,这确实需要很大的勇气。所以,当人们试图模仿 OpenAI 时,有时需要做出一个没人愿意做的大赌注,但并没有任何保证它一定会成功。( @APPSO)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

 

素材来源官方媒体/网络新闻

标签:RTE,视频,AI,模型,Siri,Hertz,生成,开发者
From: https://www.cnblogs.com/Agora/p/18531906

相关文章

  • Jetbrains全家桶激活方法
    亲测有效,此处以phpstrom为例,按理其他产品也可以用相同的方式激活。原理是我们通过代码搜索其他授权服务器进行永久激活。方式一  通过censyshttps://search.censys.io/用到的代码:services.http.response.headers.location:account.jetbrains.com/fls-auth我们将上面这......
  • java后端工程师转行AI大模型岗,工作、自我提升两不误!
    随着技术的不断进步,人工智能(AI)已经成为当今科技领域最热门的话题之一。许多开发者开始考虑从传统的软件开发领域,如Java,转向人工智能领域,今天小编和大家一起来探讨Java开发者是否可以转型到人工智能,转型的优势,薪资对比,以及转型所需的知识和学习路线等。01Java开发者能否转......
  • AI 搜索来势汹汹,互联网将被颠覆还是进化?
    最近,美国新闻集团起诉了知名AI搜索引擎PerplexityAI。也许你会想,这不就是又一起“AI惹官司”吗?其实,这次情况不太一样,甚至可能会改变我们未来上网的方式!争议的焦点是什么?是未来的AI搜索——即那些能从全网总结信息的“AI答题王”。这些AI不只是简单的聊天机器人,而是能......
  • 驭码上新,AI Code Review、基于代码库的知识问答,让研发起飞
    极狐GitLabAI产品驭码CodeRider发布最新版本,带来了多项AI赋能软件研发的重大功能。重磅发布基于代码库的知识问答:智能解答项目代码相关问题,提升协作效率;让新员工快速了解、上手项目,缩短培养周期。AICodeReview:已配置项目可在用户提交MR时自动触发代码审核,支持一键接......
  • “2024年:普通人如何通过AI工具实现盈利?“
    前言:随着AI技术的飞速发展,人工智能已成为创造财富的新引擎。本文将带你探索如何利用AI技术,在现代社会中开辟新的盈利渠道。从个人创业到企业转型,我们将一览AI带来的赚钱机遇,为你在智能时代的财富增长提供思路和策略。1、信息差模式现在市场上AI应用工具很多,不是所有人都......
  • AI绘画本地版ComfyUI终于来了!(一键整合包,免安装更方便)附各种工作流及模型文件1000张工
    前言:comfyUI自从面世以来,就以一种潜力股的姿态快速流行了起来,越来越多的小伙伴开始使用comfyUI。也许你一开始会被comfyUI密密麻麻的“线路”吓到,但其实comfyUI也没那么复杂,并且好处多多。今天给大家分享一下AI绘画进阶工具ComfyUI,作为StableDiffusionWebUI的进阶版工......
  • 微信后团队分享:微信后台基于Ray的分布式AI计算技术实践
    本文由微信后台Astra项目团队分享,原题“Ray在微信AI计算中的大规模实践”,下文进行了排版和内容优化。1、引言微信存在大量AI计算的应用场景,主要分为三种:流量分发、产品运营和内容创作。流量分发场景中的AI计算主要用于搜索、广告、推荐场景的核心特征生产,产品运营相关的AI......
  • 21天全面掌握:小白如何高效学习AI绘画SD和MJ,StableDiffusion零基础入门到精通教程!快速
    今天给大家分享一些我长期以来总结的AI绘画教程和各种AI绘画工具、模型插件,还包含有视频教程AI工具,免费送......
  • Unity 编iOS版本报错: CocoPods Installation failure
    Unity项目,不带任何SDK导出项目是没有问题的,一旦加入Admob,facebook之后,就会出现:CocoPodsInstallationfailure升级MACOS系统,升级SDK版本,升级Unity版本时,该问题是经常发生!发生该问题表示项目中用pod管理的sdk未下载下来配置好!查看项目目录,可以看到一个名为Podfile的文件,其......
  • AI对话魔法|Prompt Engineering 探索指南
    作者:京东物流李雪婷一、什么是PromptEngineering?想象一下,你在和一个智能助手聊天,你需要说出非常清晰和具体的要求,才能得到你想要的答案。PromptEngineering就是设计和优化与AI对话的“提示词”或“指令”,让AI能准确理解并提供有用的回应。  PromptEngineering主要......