【文生视频-腾讯混元-HunyuanVideo】AutoDL配好环境开箱即用~

时间：2024-12-07 17:59:54浏览次数：5

标签：AutoDL 混元 -- HunyuanVideo ckpts video cd root

写在前面

自从Sora问世，视频生成领域就火了起来。前不久腾讯AI团队刚刚开源了混元视频生成模型HunyuanVideo，本人第一时间就在AutoDL上面部署了代码，快来体验一下吧。

AutoDL算法社区的镜像地址：https://www.codewithgpu.com/i/Tencent/HunyuanVideo/HunyuanVideo-Configured

或者使用Docker部署指令：

docker pull registry.cn-zhangjiakou.aliyuncs.com/codewithgpu3/tencent-hunyuanvideo:0gGLhlnr6T

Respect！原项目地址如下：

https://github.com/Tencent/HunyuanVideo

基本环境

CUDA: 11.8
PyTorch: 2.1.2
flash-attn: 2.5.9.post1

下载预训练模型

因为预训练模型太大了（约占65G硬盘），本人没有放进镜像，请大家依次运行下面的代码从Huggingface网站下载哈~

安装huggingface_hub

python -m pip install "huggingface_hub[cli]"

在autodl的固态盘新建预训练模型文件夹

cd /root/autodl-tmp/
mkdir ckpts

下载HunyuanVideo预训练模型

huggingface-cli download tencent/HunyuanVideo --local-dir ./ckpts

下载MLLM的Text Encoder模型

cd ckpts
huggingface-cli download xtuner/llava-llama-3-8b-v1_1-transformers --local-dir ./llava-llama-3-8b-v1_1-transformers

模型预处理（节约显存）

cd /root/HunyuanVideo/
python hyvideo/utils/preprocess_text_encoder_tokenizer_utils.py --input_dir ckpts/llava-llama-3-8b-v1_1-transformers --output_dir ckpts/text_encoder

下载CLIP预训练模型

cd /root/autodl-tmp/ckpts
huggingface-cli download openai/clip-vit-large-patch14 --local-dir ./text_encoder_2

将/root/autodl-tmp/ckpts软连接到/root/HunyuanVideo/ckpts

cd /root/
ln -s /root/autodl-tmp/ckpts/ HunyuanVideo/

使用教程:)

先进入HunyuanVideo路径

cd /root/HunyuanVideo/

执行以下命令之一生成视频:

720p x 1280p 分辨率

python3 sample_video.py \
    --video-size 720 1280 \
    --video-length 129 \
    --infer-steps 50 \
    --prompt "A cat walks on the grass, realistic style." \
    --flow-reverse \
    --use-cpu-offload \
    --save-path ./results

544p x 960p 分辨率

python3 sample_video.py \
    --video-size 544 960 \
    --video-length 129 \
    --infer-steps 30 \
    --prompt "A sexy beauty lying on the beach, realistic style." \
    --flow-reverse \
    --use-cpu-offload \
    --save-path ./results

在results文件夹中查看视频（.MP4格式）

自己生成的DEMO

【544p x 960p】Prompt：A sexy beauty lying on the beach, realistic style.
（在审核。。）
【720p x 1280p】Prompt：A sexy beauty lying on the beach, realistic style.
（在审核。。）
【720p x 1280p】Prompt：On the streets of modern cities, the camera first follows a motorcycle speeding through skyscrapers. The wheels left deep marks on the wet ground, and the surrounding buildings swayed in the constantly moving wind. The camera quickly pans to the right, capturing a police car following closely behind with flashing lights, reflecting the neon lights and traffic on the street in brilliant colors. The bustling city scene is blurred into a flowing light and shadow in the background, and the movements of motorcycles and police cars appear unusually rapid and tense.

AI文生视频3

写在后面

这个项目因为是视频生成任务，显存需求较大，上面的两种分辨率，大分辨率大约需要76G显存，小分辨率大约需要43G显存，请合理租卡~
Prompt的书写是有讲究的，这个后面再分享吧。

标签：AutoDL,混元,--,HunyuanVideo,ckpts,video,cd,root
From： https://blog.csdn.net/qq_37483199/article/details/144313523

腾讯终于出手了，发布的AI 视频生成模型！完全免费开源，生成质量高！HunyuanVideo AI文生视频
腾讯发布超强AI视频生成模型！完全免费开源，生成质量极高！HunyuanVideo模型，一、下载链接1、邀请你一起来体验腾讯元宝的应用【AI视频】，让每个创意瞬间生动。点击以下链接：【抢先体验手机APP版本】：https://yuanbao.tencent.com/bot/app/share/chat/VR8O83A/videoTrafficDiv......
腾讯混元AI验证码动物类语义识别
注意，本文只提供学习的思路，严禁违反法律以及破坏信息系统等行为，本文只提供思路如有侵犯，请联系作者下架本文识别已同步上线至OCR识别网站：http://yxlocr.nat300.top/ocr/other/14在之前腾讯混云刚更新时，我们使用clip基本上可以应付，但是部分验证码，涉及到比较明确的语义题......
AutoDL 离线下载Docker
AutoDL离线下载Docker正常的docker安装方式需要访问docker官网但是docker官网需要VPN才可以上有些服务器上无法连接外网就无法访问到docker的官网→离线下载Docker出现报错:1.换源(换成清华源)注意比正常的多一步2.lsb_release-a查看系统型号NoLSB......
腾讯混元文生图开源模型推出小显存版本，仅需6G显存即可运行
腾讯混元文生图开源模型推出小显存版本，仅需6G显存即可运行7月4日，腾讯混元文生图大模型（混元DiT）宣布开源小显存版本，仅需6G显存即可运行，对使用个人电脑本地部署的开发者十分友好，该版本与LoRA、ControlNet等插件，都已适配至Diffusers库；并新增对Kohya图形化界面的支持，让开发者可......
【大模型专栏—入门篇】CUDA入门与AutoDL“炼丹”
大模型专栏介绍......
将autodl服务器连接到Pycharm上使用
第一步下载专业版pycharm（可以找那种破解版）第二步autodl算力市场选择合适的显卡、计费方式、框架、充值、找个空闲的开机第三步打开专业版pycharm，主菜单-设置-python解释器-添加解释器-ssh 第四步回到autodl复制登陆指令，填写到主机位置，五位数字就是端口，root就是用户名......
AutodL训练yolov9
AutodL训练yolov9全过程1、租借Autodl服务器：AutoDL算力云|弹性、好用、省钱。租GPU就上AutoDL选择环境，直接选择镜像，yolov9官方2、创建完成：点击Jupyterlab进入服务器，到这里服务器租用完成2、下载yolov9官网代码：https://github.com/WongKinYiu/yolov93、进入服务器，上......
Llama2大语言模型在云GPU（AutoDL）上进行训练微调（自定义数据集）
Llama2是Meta开源的语言大模型，它经过训练的数据集包含2万亿个token。相比Llama，Llama2的上下文长度已经从2048扩展到4096，这使其能够理解和生成更长的文本。Llama2包括了多个模型，分别是7B、13B和70B的模型。一、准备工作在autodl平台租用实例（直接搜索，有许多租用教程，建议租......
开源复刻apple 数学笔记；纯C++实现了ChatGLM系列模型；腾讯混元文生图模型发布新版本并开
✨1:AIMathNotesAIMathNotes是一个交互式绘图应用，可绘制并计算数学方程。AIMathNotes受到Apple在WWDC2024上的“MathNotes”演启发，开发的一个互动式绘图应用程序，用户可以在画布上绘制数学方程。一旦方程被绘制完成，应用程序将使用多模态LLM（LargeLanguageM......
腾讯云全面下调混元大模型价格字节豆包、阿里千问、百度API接口费用对比入口
大家好，我是AI科技智库（www.aigchouse.com），国内Top10计算机博士毕业，创办了一站式AI工具、资料、课程资源学习平台，每日持续更新。通过分享最新AI工具、资源、变现指南等，帮助更多人了解使用AI，提升工作和学习效率。这里有海量AI工具整合包、AI变现指南、AI学习资料、AI免......