首页 > 其他分享 >如何使用LLM实现文本自动生成视频

如何使用LLM实现文本自动生成视频

时间:2023-08-21 16:22:50浏览次数:48  
标签:视频 模型 生成 pipe video LLM 文本

推荐:使用NSDT场景编辑器助你快速搭建可二次编辑的3D应用场景

介绍

基于扩散的图像生成模型代表了计算机视觉领域的革命性突破。这些进步由Imagen,DallE和MidJourney等模型开创,展示了文本条件图像生成的卓越功能。有关这些模型内部工作的介绍,您可以阅读本文。

然而,Text-2-Video模型的开发提出了更艰巨的挑战。目标是在每个生成的帧之间实现连贯性和一致性,并保持从视频开始到结束的生成上下文。

然而,基于扩散的模型的最新进展也为文本2视频任务提供了广阔的前景。现在,大多数文本 2-视频模型在预先训练的文本 2-图像模型上采用微调技术,集成动态图像运动模块,并利用各种文本 2-视频数据集,如 WebVid 或 HowTo100M。

在本文中,我们的方法涉及利用HuggingFace提供的微调模型,该模型被证明有助于生成视频。

实现

先决条件

我们使用HuggingFace提供的Diffusers库,以及一个名为Accelerate的实用程序库,它允许PyTorch代码在并行线程中运行。这加快了我们的生成过程。

首先,我们必须安装依赖项并为代码导入相关模块。

pip install diffusers transformers accelerate torch

然后,从每个库中导入相关模块。

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

创建管道

我们将ModelScope提供的Text-2-Video模型加载到HuggingFace中,在扩散管道中。该模型具有 1 亿个参数,基于 UNet7D 架构,该架构通过迭代去噪过程从纯噪声生成视频。它分为三部分。模型首先从简单的英语提示符中执行文本特征提取。然后将文本特征编码到视频潜在空间并进行去噪。最后,将视频潜在空间解码回视觉空间并生成短视频。

pipe = DiffusionPipeline.from_pretrained(
"damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")


pipe.scheduler = DPMSolverMultistepScheduler.from_config(
pipe.scheduler.config)


pipe.enable_model_cpu_offload()

此外,我们使用 16 位浮点精度来降低 GPU 利用率。此外,还启用了 CPU 卸载,可在运行时从 GPU 中删除不必要的部分。

生成视频

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

然后,我们将提示传递给视频生成管道,该管道提供一系列生成的帧。我们使用 25 个推理步骤,以便模型将执行 25 次去噪迭代。更多的推理步骤可以提高视频质量,但需要更多的计算资源和时间。

然后使用扩散器的实用程序功能组合单独的图像帧,并将视频保存在磁盘上。

然后,我们将提示传递给视频生成管道,该管道提供一系列生成的帧。然后使用扩散器的实用程序功能组合单独的图像帧,并将视频保存在磁盘上。

 

结论

足够简单!我们得到了蜘蛛侠冲浪的视频。虽然这是一个质量不高的短视频,但它仍然象征着这个过程的前景,它很快就会达到与Image-2-Text模型类似的结果。尽管如此,测试你的创造力和使用模型仍然足够好。

3D建模学习工作室 整理翻译,转载请注明出处!

标签:视频,模型,生成,pipe,video,LLM,文本
From: https://www.cnblogs.com/mvrlink/p/17646356.html

相关文章

  • 视频汇聚平台EasyCVR安防监控视频平台关于体育馆可视化的设计应用方案
    一、方案背景最近,成都大运会圆满结束,杭州亚运会即将开幕,大型体育赛事给人们带来了精神文化享受的同时,也由于人数众多、信息密集等原因,体育场馆发生的突发情况增多。因此,构建可视化安全防范系统成为体育场馆数字化建设的重要任务。二、建设目标及要求以预防和处置突发事件为核心,实......
  • 视频汇聚平台EasyCVR安防监控视频平台关于体育馆可视化的设计应用方案
    一、方案背景最近,成都大运会圆满结束,杭州亚运会即将开幕,大型体育赛事给人们带来了精神文化享受的同时,也由于人数众多、信息密集等原因,体育场馆发生的突发情况增多。因此,构建可视化安全防范系统成为体育场馆数字化建设的重要任务。  二、建设目标及要求......
  • RTSP/Onvif流媒体服务器EasyNVR安防视频平台一直提示网络请求失败的问题解决方案
    EasyNVR平台优秀的视频能力在于通过RTSP/ONVIF协议,将前端接入设备的音视频资源进行采集,并转码成适合全平台、全终端分发的视频流格式,包括RTMP、RTSP、FLV、HLS、WebRTC等格式。有用户反馈,EasyNVR使用过程中,突然提示网络请求失败,视频也无法播放,请求我们协助排查。此前我......
  • 安防视频监控平台EasyCVR视频集中存储平台接入RTSP设备出现离线情况的问题解决方案
    安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安防视频监控的能力,也具备接入AI智能分析的能......
  • 视频直播点播平台EasyDSS排查WebRTC搭建TURN服务时openssl路径问题。
    我们曾经介绍了WebRTC所必需的STUN/TURN服务,并尝试了在Windows上搭建TURN服务的过程。为了在Windows上编译并使用TURN服务,我们需要安装Cygwin64环境,并进行相应的配置和编译工作。然而,在我们下载、编译和安装coturn时,遇到了一个报错:“ERROR:OpenSSLCrypto开发库未在所需位置正确安......
  • 视频汇聚/视频云存储/视频监控管理平台EasyCVR视频平台添加萤火云设备的具体操作步骤
    安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安防视频监控的能力,也具备接入AI智能分析的......
  • app直播源码,读取多行文本、读取文件分割多行文本
    app直播源码,读取多行文本、读取文件分割多行文本读取文本 publicfunctiondaoru(){/* *逐行读取TXT文件  */     $rep=str_replace("\n",',',"TD92069E76EC27CA8B66B631CB49A9C6TD5A22D898050393C2F8D5C29C854F1B");    $cont=explode(',',$re......
  • 如何复制word的图文到富文本框编辑器中自动上传
    ​  自动导入Word图片,或者粘贴Word内容时自动上传所有的图片,并且最终保留Word样式,这应该是Web编辑器里面最基本的一个需求功能了。一般情况下我们将Word内容粘贴到Web编辑器(富文本编辑器)中时,编辑器都无法自动上传图片。需要用户手动一张张上传Word图片。如果只有一张图片还能......
  • Oracle数据库经纬度坐标查询优化与结果错误原因分析、SQL中WKT超长文本字符串处理
    目录一、Oracle几何空间数据对象和其他数据库的差异二、Oracle查询一个经纬度坐标是否在边界内部2.1查询条件2.2查询结果错误,似乎是仅做了MBR匹配2.3错误原因2.4解决办法三、SQL中WKT超长文本在Oracle中如何编写3.1Oracle中执行含超长文本的SQL报错3.2使用CLOB无限拼接得到......
  • Python实现Windows下的视频壁纸
    importsysimportwin32guiimportsubprocessimporttimedefpretreatmentHandle():hwnd=win32gui.FindWindow("Progman","ProgramManager")workerW1=Nonewhile1:workerW1=win32gui.FindWindowEx(None,workerW1......