介绍

基于扩散的图像生成模型代表了计算机视觉领域的革命性突破。这些进步由Imagen，DallE和MidJourney等模型开创，展示了文本条件图像生成的卓越功能。有关这些模型内部工作的介绍，您可以阅读本文。

然而，Text-2-Video模型的开发提出了更艰巨的挑战。目标是在每个生成的帧之间实现连贯性和一致性，并保持从视频开始到结束的生成上下文。

然而，基于扩散的模型的最新进展也为文本2视频任务提供了广阔的前景。现在，大多数文本 2-视频模型在预先训练的文本 2-图像模型上采用微调技术，集成动态图像运动模块，并利用各种文本 2-视频数据集，如 WebVid 或 HowTo100M。

在本文中，我们的方法涉及利用HuggingFace提供的微调模型，该模型被证明有助于生成视频。

实现

先决条件

我们使用HuggingFace提供的Diffusers库，以及一个名为Accelerate的实用程序库，它允许PyTorch代码在并行线程中运行。这加快了我们的生成过程。

首先，我们必须安装依赖项并为代码导入相关模块。

pip install diffusers transformers accelerate torch

然后，从每个库中导入相关模块。

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

创建管道

我们将ModelScope提供的Text-2-Video模型加载到HuggingFace中，在扩散管道中。该模型具有 1 亿个参数，基于 UNet7D 架构，该架构通过迭代去噪过程从纯噪声生成视频。它分为三部分。模型首先从简单的英语提示符中执行文本特征提取。然后将文本特征编码到视频潜在空间并进行去噪。最后，将视频潜在空间解码回视觉空间并生成短视频。

pipe = DiffusionPipeline.from_pretrained(
"damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")


pipe.scheduler = DPMSolverMultistepScheduler.from_config(
pipe.scheduler.config)


pipe.enable_model_cpu_offload()

此外，我们使用 16 位浮点精度来降低 GPU 利用率。此外，还启用了 CPU 卸载，可在运行时从 GPU 中删除不必要的部分。

生成视频

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

然后，我们将提示传递给视频生成管道，该管道提供一系列生成的帧。我们使用 25 个推理步骤，以便模型将执行 25 次去噪迭代。更多的推理步骤可以提高视频质量，但需要更多的计算资源和时间。

然后使用扩散器的实用程序功能组合单独的图像帧，并将视频保存在磁盘上。

然后，我们将提示传递给视频生成管道，该管道提供一系列生成的帧。然后使用扩散器的实用程序功能组合单独的图像帧，并将视频保存在磁盘上。

结论

足够简单！我们得到了蜘蛛侠冲浪的视频。虽然这是一个质量不高的短视频，但它仍然象征着这个过程的前景，它很快就会达到与Image-2-Text模型类似的结果。尽管如此，测试你的创造力和使用模型仍然足够好。

由3D建模学习工作室整理翻译，转载请注明出处！

标签：视频,模型,生成,pipe,video,LLM,文本
From： https://www.cnblogs.com/mvrlink/p/17646356.html

视频汇聚平台EasyCVR安防监控视频平台关于体育馆可视化的设计应用方案
一、方案背景最近，成都大运会圆满结束，杭州亚运会即将开幕，大型体育赛事给人们带来了精神文化享受的同时，也由于人数众多、信息密集等原因，体育场馆发生的突发情况增多。因此，构建可视化安全防范系统成为体育场馆数字化建设的重要任务。二、建设目标及要求以预防和处置突发事件为核心，实......
视频汇聚平台EasyCVR安防监控视频平台关于体育馆可视化的设计应用方案
一、方案背景最近，成都大运会圆满结束，杭州亚运会即将开幕，大型体育赛事给人们带来了精神文化享受的同时，也由于人数众多、信息密集等原因，体育场馆发生的突发情况增多。因此，构建可视化安全防范系统成为体育场馆数字化建设的重要任务。二、建设目标及要求......
RTSP/Onvif流媒体服务器EasyNVR安防视频平台一直提示网络请求失败的问题解决方案
EasyNVR平台优秀的视频能力在于通过RTSP/ONVIF协议，将前端接入设备的音视频资源进行采集，并转码成适合全平台、全终端分发的视频流格式，包括RTMP、RTSP、FLV、HLS、WebRTC等格式。有用户反馈，EasyNVR使用过程中，突然提示网络请求失败，视频也无法播放，请求我们协助排查。此前我......
安防视频监控平台EasyCVR视频集中存储平台接入RTSP设备出现离线情况的问题解决方案
安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快，可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等，以及支持厂家私有协议与SDK接入，包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安防视频监控的能力，也具备接入AI智能分析的能......
视频直播点播平台EasyDSS排查WebRTC搭建TURN服务时openssl路径问题。
我们曾经介绍了WebRTC所必需的STUN/TURN服务，并尝试了在Windows上搭建TURN服务的过程。为了在Windows上编译并使用TURN服务，我们需要安装Cygwin64环境，并进行相应的配置和编译工作。然而，在我们下载、编译和安装coturn时，遇到了一个报错：“ERROR:OpenSSLCrypto开发库未在所需位置正确安......
视频汇聚/视频云存储/视频监控管理平台EasyCVR视频平台添加萤火云设备的具体操作步骤
安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快，可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等，以及支持厂家私有协议与SDK接入，包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安防视频监控的能力，也具备接入AI智能分析的......
app直播源码，读取多行文本、读取文件分割多行文本
app直播源码，读取多行文本、读取文件分割多行文本读取文本 publicfunctiondaoru(){/* *逐行读取TXT文件 */ $rep=str_replace("\n",',',"TD92069E76EC27CA8B66B631CB49A9C6TD5A22D898050393C2F8D5C29C854F1B"); $cont=explode(',',$re......
如何复制word的图文到富文本框编辑器中自动上传
自动导入Word图片，或者粘贴Word内容时自动上传所有的图片，并且最终保留Word样式，这应该是Web编辑器里面最基本的一个需求功能了。一般情况下我们将Word内容粘贴到Web编辑器（富文本编辑器）中时，编辑器都无法自动上传图片。需要用户手动一张张上传Word图片。如果只有一张图片还能......
Oracle数据库经纬度坐标查询优化与结果错误原因分析、SQL中WKT超长文本字符串处理
目录一、Oracle几何空间数据对象和其他数据库的差异二、Oracle查询一个经纬度坐标是否在边界内部2.1查询条件2.2查询结果错误，似乎是仅做了MBR匹配2.3错误原因2.4解决办法三、SQL中WKT超长文本在Oracle中如何编写3.1Oracle中执行含超长文本的SQL报错3.2使用CLOB无限拼接得到......
Python实现Windows下的视频壁纸
importsysimportwin32guiimportsubprocessimporttimedefpretreatmentHandle():hwnd=win32gui.FindWindow("Progman","ProgramManager")workerW1=Nonewhile1:workerW1=win32gui.FindWindowEx(None,workerW1......

如何使用LLM实现文本自动生成视频

介绍

实现

先决条件

创建管道

生成视频

结论

相关文章

赞助商

阅读排行