首页 > 其他分享 >解锁视频生成新时代! 探索智谱CogVideoX-2b:轻松生成6秒视频的详细指南

解锁视频生成新时代! 探索智谱CogVideoX-2b:轻松生成6秒视频的详细指南

时间:2024-09-28 09:51:04浏览次数:3  
标签:视频 prompt 生成 CogVideoX main CogVideo

文章目录

一、CogVideoX的诞生背景

CogVideoX 的推出标志着视频生成技术进入了一个全新的阶段。在视频生成领域,长期以来一直存在效率与质量之间的平衡问题,然而 CogVideoX 的 3D 变分自编码器(VAE)技术通过将视频数据压缩率提升至 2%,大幅减少了计算资源的占用,同时保持了视频帧的流畅连贯性。
尤其值得关注的是,CogVideoX 引入了 3D 旋转位置编码技术,这一革新使得生成的视频在时间维度上表现得更加自然流畅,就像赋予了内容动态生命般的流动感。用户在创作过程中可以体验到更加逼真的视觉效果,为观众提供了前所未有的视觉享受。

除此之外,智谱 AI 还开发了一款端到端的视频理解模型,为 CogVideoX 提供了更强大的文本解析能力。这一进展意味着,用户的创作意图可以更准确地被模型捕捉,生成的视频内容也因此更加相关、丰富,创作体验更加灵活自如。

CogVideoX代码仓库:https://github.com/THUDM/CogVideo
模型下载:https://huggingface.co/THUDM/CogVideoX-2b
技术报告:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
丹摩智算平台:https://damodel.com/register?source=C4FB0342
在这里插入图片描述

二、 创建丹摩平台实例

  1. 进入丹摩平台控制台,选择 GPU 云实例,并点击“创建实例”
    在这里插入图片描述
  2. CogVideoX 在 FP-16 精度下至少需要 18GB 显存来进行推理,微调则需 40GB 显存。因此,建议选择 L40S 显卡(或4090显卡),并配置 100GB 系统盘和 50GB 数据盘。
    在这里插入图片描述
  3. 镜像选择 PyTorch2.3.0、Ubuntu-22.04,CUDA12.1,以确保模型运行环境的兼容性。
    在这里插入图片描述
  4. 点击创建密钥对,设置名称,完成后成功创建实例。在这里插入图片描述

三、 环境配置与依赖安装

丹摩平台已预置了调试好的代码库,用户可以直接使用,避免繁琐的环境搭建过程。

  1. 登录 JupyterLab 后,打开终端并拉取 CogVideoX 的代码仓库。
wget http://file.s3/damodel-openfile/CogVideoX/CogVideo-main.tar

在这里插入图片描述2. 下载完成后,解压并进入 CogVideo-main 文件夹,安装相应的依赖。

tar -xf CogVideo-main.tar
cd CogVideo-main
pip install -r requirements.txt

在这里插入图片描述
在这里插入图片描述
3. 确保依赖安装成功后,进入 Python 环境进行测试。

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video

没有报错即表明依赖安装成功。输入 quit() 退出 Python。在这里插入图片描述

四、模型文件与配置

用户需要上传 CogVideoX 的模型文件和配置文件以完成后续操作。

  1. 在丹摩平台上,CogVideoX 模型可以通过内网高速下载。

cd /root/workspace
wget http://file.s3/damodel-openfile/CogVideoX/CogVideoX-2b.tar

在这里插入图片描述

  1. 解压下载的模型文件:
tar -xf CogVideoX-2b.tar

在这里插入图片描述

五、 模型运行

  1. 进入 CogVideo-main 文件夹,运行 test.py 脚本来生成视频。
cd /root/workspace/CogVideo-main
python test.py

  1. 代码将加载预训练的 CogVideoX 模型,并根据自定义的文本描述生成对应视频。
import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video

# 自定义生成内容
prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest..."

pipe = CogVideoXPipeline.from_pretrained("/root/workspace/CogVideoX-2b", torch_dtype=torch.float16).to("cuda")

# 启用无分类器指导,生成视频
prompt_embeds, _ = pipe.encode_prompt(prompt=prompt, do_classifier_free_guidance=True, num_videos_per_prompt=1)

video = pipe(num_inference_steps=50, guidance_scale=6, prompt_embeds=prompt_embeds).frames[0]

export_to_video(video, "output.mp4", fps=8)

  1. 运行成功后,生成的视频文件 output.mp4 将保存在 CogVideo-main 文件夹中。
    在这里插入图片描述

六、使用 Web 界面生成视频

CogVideoX 还支持 Web 界面操作,用户可以通过 Gradio 启动 Web 端生成视频。

  1. 运行 gradio_demo.py 文件来启动 Web 界面。

cd /root/workspace/CogVideo-main
python gradio_demo.py

在这里插入图片描述

  1. 使用丹摩平台的端口映射功能,将内网端口映射到公网。

在这里插入图片描述

  1. 添加端口 7870,成功后访问生成的链接即可访问 Gradio 界面进行视频生成操作。
    在这里插入图片描述
    在这里插入图片描述

通过这种方式,用户可以在浏览器中轻松生成视频,体验 CogVideoX 所带来的强大功能与创作自由。

标签:视频,prompt,生成,CogVideoX,main,CogVideo
From: https://blog.csdn.net/2302_79177254/article/details/142525481

相关文章

  • 代码生成器实践总结
    最近,又用我的脚本管理,写了一个代码生成器。用在一个.netcoreWeb MVC项目中,想要把原来的一些Area,拷贝替换表名。业务上来说是:把推广模块,单独复制出一个推广-外部渠道的模块。专门给公司外部的推广人员用,但是不影响原来的功能。本质结构代码生成器= 模板+ 替换结论先......
  • 【AIGC】ChatGPT提示词解析:如何生成爆款标题、节日热点文案与完美文字排版
    博客主页:[小ᶻZ࿆]本文专栏:AIGC|ChatGPT文章目录......
  • 实现一个自动生成小学四则运算题目的命令行程序
    这个作业属于哪个课程https://edu.cnblogs.com/campus/gdgy/CSGrade22-34/这个作业要求在哪里https://edu.cnblogs.com/campus/gdgy/CSGrade22-34/homework/13230这个作业的目标实现一个自动生成小学四则运算题目的命令行程序项目成员本结对项目由--31220045......
  • pbootcms自动生成当前页面二维码
    在PbootCMS中,生成二维码标签可以帮助用户更方便地访问特定的页面或内容。下面详细介绍如何在首页、列表页和文章内容页生成二维码标签。生成二维码标签的方法PbootCMS提供了 {pboot:qrcode}标签来生成二维码图片。这个标签可以用于生成对应文本的二维码图片,适用于各种页面,如......
  • pbootcms的网站被黑了被挂马了 生成无数的灰产链接该怎么办?
    针对PbootCMS系统被灰产入侵并植入大量灰产链接的问题,可以采取以下步骤来处理和防范:处理步骤1.恢复网站程序方法一:使用备份恢复如果有最近未被黑的程序备份,直接恢复备份文件。通过FTP或其他备份工具恢复备份文件。方法二:重新安装最新版程序如果没有备份,可以保留 d......
  • 技术洞察:思通数科AI视频监控卫士的创新监控策略
    思通数科的AI视频监控卫士是一款功能强大的监控解决方案,适用于多种监控需求和场景:家庭安全监控:使用手机或支持RTSP的摄像头,用户可以实时监控家中情况,如照看老人、小孩或宠物,以及预防盗窃。企业安全监控:企业可以利用该系统监控办公室、仓库或生产区域,确保员工安全,保护资......
  • 结对项目:四则运算自动生成程序
    [github地址]https://github.com/kkrInblU/3222004510.githttps://github.com/115any/3222004512.git这个作业属于哪个课程https://edu.cnblogs.com/campus/gdgy/CSGrade22-34/这个作业要求在哪里https://edu.cnblogs.com/campus/gdgy/CSGrade22-34/homework/13230......
  • QT 获取视频帧Opencv获取清晰度
    先展示结果:1.获取摄像头的分辨率mResSize.clear();mResSize=camera_->supportedViewfinderResolutions();ui->comboBox_resulation->clear();inti=0;foreach(QSizemsize,mResSize){qDebug()<<msize;ui->comboBox_re......
  • 关于kratos proto 生成pb.go的一些报错,问题
    有诸如这类报错go:ai-ws-session-service/cmd/ai-ws-session-serviceimportsgithub.com/aliyun-sls/opentelemetry-go-provider-sls/providerimportsgo.opentelemetry.io/otel/metric/global:modulego.opentelemetry.io/otel/metric@latestfound(v1.30.0),butdoesnot......
  • 使用 LlamaIndex 进行 CRAG 开发用来强化检索增强生成
    提升AI模型的准确性与可靠性©作者|NinjaGeek来源|神州问学介绍检索增强生成(RAG)彻底改变了使用大语言模型和利用外部知识库的方式。它允许模型从文档存储的相关索引数据中获取信息用以增强其生成的内容,使其更加准确和信息丰富。然而,RAG并非完全无缺。它有时会检索出不......