首页 > 其他分享 >视频大模型 Vidu 支持音视频合成;字节跳动推出语音生成模型 Seed-TTS 丨 RTE 开发者日报 Vol.221

视频大模型 Vidu 支持音视频合成;字节跳动推出语音生成模型 Seed-TTS 丨 RTE 开发者日报 Vol.221

时间:2024-06-07 14:36:10浏览次数:13  
标签:视频 混元 AI 模型 音视频 生成 Vol.221 Vidu

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@CY,@JLT,@鲍勃

01 有话题的新闻

1、视频大模型 Vidu 大更新,首次支持音视频合成

 

据钛媒体 AGI 报道,生数科技与清华大学联合发布的中国首个长时长、高一致性、高动态性视频大模型 Vidu,近期完成三个最新、重大技术迭代:

 

目前 Vidu 可以一键生成 32s 视频;

 

支持音视频合成,即 Vidu 视频生成有声音了(Text-2-Audio)

 

支持 4D 生成,可以从单一视频生成时空一致的 4D 内容

 

Vidu 是自 Sora 发布之后,全球率先取得重大突破的视频大模型,也是国内唯一能够性能全面对标国际顶尖水平的视频生成模型,并且仍在加速迭代提升中。(@爱范儿)

 

2、快手对标 Sora 发布视频生成大模型「可灵」,支持生成 2 分钟视频

 

快手 6 月 6 日宣布,「可灵」视频生成大模型官网正式上线,效果对标 OpenAI 旗下的视频生成大模型 Sora。快手介绍称,可灵大模型为快手 AI 团队自研,采用与 Sora 相似的技术路线,结合了多项自研技术创新。该模型支持生成长达 2 分钟、帧率 30fps 的视频,分辨率可高达 1080p,并支持自由的宽高比。

 

而快手也对其文生视频效果感到自信。据介绍,可灵大模型能够生成大幅度的合理运动,并使其符合客观运动规律。在官方给出的视频范例中,一位宇航员在月球上奔跑,随着镜头慢慢抬升,宇航员的步态和影子都能保持合理恰当。

 

快手表示,此前各家放出的视频大模型均以展示视频为主,可灵大模型已上线快手旗下的快影 App,面向公众开放邀测体验。( @Zaker)

 

3、Pika 完成近 6 亿 B 轮融资,即将发布全新视频生成大模型

 

6 月 6 日,AI 视频生成初创公司 Pika 日前已完成总额 8000 万美元(约合 5.798 亿元人民币)的 B 轮融资,由 Spark Capital 领投,Greycroft、Lightspeed Venture Partners 以及 Jared Leto 参投,公司估值超过 4.7 亿美元(约合人民币 34.06 亿元),较上一轮翻了一倍。截至目前,Pika 总融资额已达 1.35 亿美元。

 

据悉,Pika 成立于 2023 年 4 月,由斯坦福大学 AI Lab 博士生郭文景(Demi)、孟辰霖(Chenlin Meng)以及陈思禹创办,开发基于 AI 模型技术的文生视频工具,并于 2023 年 11 月发布首款 AI 视频生成产品 Pika 1.0,并在 Discord 上测试 Web 应用等产品。

 

人员方面,Pika 透露,公司团队从 3 人增加到了数十人。(@钛媒体)

 

4、腾讯发布混元 DiT 模型加速库,生图时间缩短 75%

 

腾讯昨日发布针对腾讯混元文生图开源大模型(简称混元 DiT 模型)的加速库,让推理效率大幅提升,生图时间缩短 75%。同时,腾讯表示混元 DiT 模型的使用门槛也大幅降低。用户可以基于 ComfyUI 的图形化界面,使用腾讯混元文生图模型能力。另外,混元 DiT 模型已经部署至 Hugging Face Diffusers 通用模型库中,用户仅用三行代码即可调用混元 DiT 模型,无需下载原始代码库。(@爱范儿)

 

5、Stable Audio Open 开源 AI 模型发布

 

Stability AI 推出了 Stable Audio Open,这是一个开源的 AI 模型,可以基于用户输入的提示词,生成高质量音频样本。Stable Audio Open 最长可以创建47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效。该开源模型基于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。StableAudio Open 已经开源,感兴趣的用户可以在 HuggingFace 上试用。(@AI 洞察局)

 

6、LiveKit 获 2250 万美元 A 轮融资

 

AI 音视频基础设施平台初创公司 LiveKit 宣布筹集了 2250 万美元的 A 轮融资。本轮融资由 Altimeter 领投,Redpoint 以及包括 Jeff Dean、Elad Gil 等专注于 AI 领域的杰出人士提供支持。

 

LiveKit 计划将筹集的资金用于巩固其作为构建实时语音和视频应用的默认技术栈的地位,扩展其 AI 基础设施服务,并开发新产品以服务于新的用例。LiveKit 成立于 2021 年,其主营业务是提供灵活、开源的技术栈,使任何开发者都能够构建任何类型的实时语音或视频基础的应用程序。(@AI 洞察局)

 

7、字节跳动近日推出 Seed-TTS 模型

 

Seed-TTS 是一组大规模的自回归 TTS 模型,能够生成高度自然且富有表现力的语音。其设计目标是实现与人类语音几乎无差别的语音生成。Seed-TTS 在多个方面表现出色,包括零样本语音上下文学习(ICL)、说话者微调和情感控制。模型通过大量数据训练,展示了强大的泛化能力和潜在的应用场景,如虚拟助手、有声读物和视频配音等。(@AIGC 研习所)

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

 

素材来源官方媒体/网络新闻

标签:视频,混元,AI,模型,音视频,生成,Vol.221,Vidu
From: https://www.cnblogs.com/Agora/p/18237138

相关文章

  • 本地配置离线的llama3大模型实现chatgpt对话详细教程
    参考:Llama3本地部署及API接口本地调试,15分钟搞定最新MetaAI开源大模型本地Windows电脑部署_llama3本地部署-CSDN博客 正在下载-----importrequestsimportjsonurl="http://localhost:11434/api/generate"data={&......
  • LangChain实战技巧之五:让模型“自动生成”Prompt(提示词)的两种方式
    预备知识with_structured_outputbind_tools对这两种方式不了解的朋友,可以翻阅我的这篇文章找到用法哈LangChain实战技巧之三:关于Tool的一点拓展实现方法方法一步骤一#首先,新建一个提示词抽取器prompt_extractor=ChatPromptTemplate.from_template(template="""......
  • 生产消费模型
    一、生产消费者模型1.1、例子引入        我们在日常生活中,一般都是通过超市,集市等场所,来购买日常用品,而不会直接向生产商进行购买。超市则会统一向各个生产商批发商品,然后售卖给人们。        如果我们直接去供货商那里买东西,那我们只会要很少的商品,供货商......
  • BERT+P-Tuning文本分类模型
    基于BERT+P-Tuning方式文本分类模型搭建模型搭建本项目中完成BERT+P-Tuning模型搭建、训练及应用的步骤如下(注意:因为本项目中使用的是BERT预训练模型,所以直接加载即可,无需重复搭建模型架构):一、实现模型工具类函数二、实现模型训练函数,验证函数三、实现模型预测函......
  • CNN依旧能战:nnU-Net团队新研究揭示医学图像分割的验证误区,设定先进的验证标准与基线模
    这篇论文研究了在3D医学图像分割领近年引入了许多新的架构和方法,但大多数方法并没有超过2018年的原始nnU-Net基准。作者指出,许多关于新方法的优越性的声称在进行严格验证后并不成立,这揭示了当前在方法验证上存在的不严谨性。揭示验证短板:深入探讨了当前医学图像分割研究中存在的......
  • 大模型开发应用实战:真实项目实战对标各类大厂大模型算法岗技术
    大模型开发应用实战营:真实项目实战对标各类大厂大模型算法岗技术一、引言在人工智能领域,大模型已经成为推动技术进步和应用创新的重要力量。随着技术的不断发展,各大厂商纷纷投入大量资源研发大模型,并尝试将其应用于各种实际场景中。为了培养具备大模型开发与应用能力的高级技术......
  • Navicat生成ER关系图 逆向数据库到模型
    选中表格右击  点击右下角的按钮切换到ER视图:  那些表与表之间相连接的就是外键,这个应该没问题。然后,我想到我要给领导汇报一下我的工作情况呀,直接截图截不完整不说,还很模糊。所以我想,会不会有什么办法可以将得到的关系图导出成pdf或者图片格式的文件呢?找了一会儿,发现......
  • 大模型微调实战:精通、指令微调、开源大模型微调、对齐与垂直领域应用
    大模型微调实战:精通、指令微调、开源大模型微调、对齐与垂直领域应用一、引言随着人工智能技术的迅猛发展,大模型在多个领域展现出强大的能力。然而,如何有效地对大模型进行微调以适应特定任务和场景,成为了研究者和开发者关注的焦点。本文将深入探讨大模型微调实战营中的关键内容,......
  • AI大模型微调训练营,全面解析微调技术理论,掌握大模型微调核心技能
    AI大模型微调训练营:深度解析微调技术,掌握核心技能一、引言随着人工智能技术的飞速发展,大型预训练模型(如GPT、BERT、Transformer等)已成为自然语言处理、图像识别等领域的核心工具。然而,这些大模型在直接应用于特定任务时,往往无法直接达到理想的性能。因此,微调(Fine-tuning)技术应运......
  • 知乎(1-5期)-AI大模型全栈工程师培养计划,做ChatGPT浪潮中顶尖的超级个体
    知乎(1-5期)-AI大模型全栈工程师培养计划,做ChatGPT浪潮中顶尖的超级个体一.前言:1.AI形式目前人工智能和大模型一定是前景非常广阔的赛道,现在陆续出现的模型训练岗,模型技术岗,像有些大厂已经开始不再招聘JAVA开发,所以关于大模型的岗位一定是雨后春笋的喷发2.程序员自身的发展......