首页 > 其他分享 >字节跳动发布开源 Lip Sync AI 模型,视频换声对口型超轻松!

字节跳动发布开源 Lip Sync AI 模型,视频换声对口型超轻松!

时间:2025-01-16 21:54:14浏览次数:1  
标签:视频 模型 AI 音频 Sync 对口型 开源 唇形 LatentSync

ByteDance新开源模型LatentSync,视频换声对口型超轻松!

阅读时长:9分钟
论文地址: https://arxiv.org/pdf/2412.09262
发布时间:2025年1月8日

字节跳动最近推出了LatentSync,这是一款全新的、最先进的开源视频唇形同步模型。它是一个基于音频条件潜在扩散模型的端到端唇形同步框架。

这听起来有点拗口,但简单来说,你可以上传一段某人说话的视频,以及一个你想要替换原始音频的音频文件。然后人工智能会叠加新的音频,并调整说话者的嘴唇动作,使其与上传的音频完美匹配。

最终生成的是一个极具说服力的深度伪造视频,尽管可能会让人感觉有点怪异。

说实话,这个领域的变化速度让我惊叹不已。就在一年前,人工智能视频中的唇形同步还不尽人意,嘴巴的动作常常看起来很诡异。而现在,有了LatentSync,我们正迈入一个轻松制作令人信服的深度伪造类视频的新时代。

LatentSync的工作原理

LatentSync框架使用Stable Diffusion直接对复杂的视听相关性进行建模。然而,基于扩散的唇形同步方法由于各帧扩散过程的变化,往往缺乏时间一致性。

为了解决这个问题,研究人员引入了时间表示对齐(Temporal REPresentation Alignment,TREPA)技术,该技术在保持唇形同步准确性的同时,提高了时间一致性。TREPA利用大规模自监督视频模型的时间表示,将生成的帧与真实帧对齐。

LatentSync使用Whisper将梅尔频谱图转换为音频嵌入,并通过交叉注意力层将其添加到U-Net中。参考帧和掩码帧与噪声潜在变量相结合,作为U-Net的输入。

在训练过程中,研究人员一步从预测的噪声中估计出干净的潜在变量,并对其进行解码以获得干净的帧。在像素空间中应用TREPA、LPIPS和SyncNet损失函数。

本文由mdnice多平台发布

标签:视频,模型,AI,音频,Sync,对口型,开源,唇形,LatentSync
From: https://www.cnblogs.com/tunancbq/p/18675813

相关文章

  • Microsoft 推出 Trellis — 一种将图像转换为 3D 对象的 AI 模型
    微软Trellis:开启3D生成新纪元阅读时长:8分钟图片来源:微软研究院近日热文:全网最全的神经网络数学原理(代码和公式)直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【柏企】公众号【柏企科技说】【柏企阅文】几周前,微软推出了一种名为Trellis的全新3D......
  • 利用AI大模型实现个性化视频配音
    打造个性化AI视频配音​​最近,我萌生了拍摄短视频的念头,希望通过这个平台与大家分享一些AI技术的实际应用。然而,在准备过程中,我遇到了一个难题——配音。家里的环境嘈杂,收音设备也不够专业,这让在录制配音时感到非常难受。一开始,我考虑使用机器配音来解决这个......
  • 使用QFuture和QFutureWatcher实现不阻塞界面的Async函数
    简述很多时候,在Qt里面需要运行一个耗时函数的时候,为了避免阻塞界面,需要放入非主线程去执行。实现这样处理的方法有好几种,例如:写一个继承自QThread类,实现run接口;写一个继承自QObject的类,添加槽函数执行任务,创建对象,移入一个QThread中进行调用;写一个QRunnable的子类,创建对象,添......
  • 分享10个好用的AI工具网站
    一、DeepSeek地址:DeepSeek简介:DeepSeek-V3在推理速度上相较历史模型有了大幅提升。在目前大模型主流榜单中,DeepSeek-V3在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。二、网易见外地址:网易见外-AI智能语音转写听翻平台简介:网易见外是一个由网易人工智能......
  • JSP罗曼蒂克网上花店平台37xai(程序+源码+数据库+调试部署+开发环境)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容一、研究背景随着电子商务的蓬勃发展,线上购物已成为人们日常生活的重要组成部分。鲜花作为一种常见的礼品,广泛应用于各种场合,如生日、结婚、母亲节......
  • Gemini 多模态功能:七大应用场景,解锁 AI 无限可能
    你是否想象过,一台机器可以像人类一样,同时理解图像、视频和文字? GoogleGemini的诞生,让这一想象成为现实。作为GoogleAI的最新成果,Gemini的多模态能力为企业带来了前所未有的机遇。本文将以性能卓越的Gemini1.5Pro为例,分享Gemini在七大实际应用场景中的表现,并重点关注......
  • 当我用中国柔术对付AI恶徒
    近年来有很多AI对话情景模拟软件,小试牛刀当我用中国柔术对付AI恶徒: 结果:把昏君系统颠覆成明君和鼎盛国运,获得隐藏任务奖励:仙人卡把三分钟让你破防系统整破防,灰溜溜离开攻略约架对象萌化怪兽哥斯拉让骂人的萝卜怪脸红让前一万亿句话只会说o的玉米不说o把柯南聊害羞......
  • docker containner挂掉,无法exec进入bash,如何修改文件的终极解决方法.210730
    场景:Nginx在bash里面配置的时候挂掉了,然后dockerstart不起来,execbash进不去,造成无法再改里面的文件了解决方法:1,dockerps–a可以查到所有docker,包括没有运行的,找到containnerID[root@hecs-29489~]#dockerps-aCONTAINERIDIMAGECOMMANDC......
  • Flutter使用FractionallySizedBox组件报错Failed assertion: line 2164 pos 12: 'hasS
    这里从解决方法那里直接给出个有效的方式。就是如果你使用了FractionallySizedBox组件,第一是这个组件只能在固定宽高下或者Row,Flex,Column组件下使用。第二就是这个组件需要在Flexible下使用.结构就是:Row->Flexible->FractionallySizedBox给出简单的代码示例......
  • .Net的AppDomain
     一、AppDomain的作用 AppDomain(应用程序域)是一种在.NET中提供的隔离机制,用于将应用程序的不同部分隔离开来,以提高安全性、可靠性和可管理性。以下是其主要的功能和用途: 隔离性:允许在一个进程中运行多个应用程序,同时使它们相互隔离。这样可以避免一个应用程序中的错......