引子 最近视频生成大模型层出不穷,上海AI Lab推出新一代视频生成大模型 “书生・筑梦 2.0”(Vchitect 2.0)。根据官方介绍,书生・筑梦 2.0 是集文生视频、图生视频、插帧超分、训练系统一体化的视频生成大模型。OK,那就让我们开始吧。 一、模型介绍 筑梦 2.0 支持 5s-20s 长视频生成,超过其他开源模型的生成时长。同时支持高达 720x480 分辨率的生成。该模型还能够处理多种视频格式,包括横屏、竖屏、4:3、9:16 和 16:9 等比例,极大地扩展了其应用场景。与其他开源模型不同,筑梦 2.0 同步开源了用于视频增强的生成式模型 ——VEnhancer,集成了插帧、超分辨率和修复功能。该增强算法可在 2K 分辨率、24fps 的情况下生成更加清晰、流畅的视频,解决了视频抖动等常见问题,显著提升了视频的稳定性。 二、环境搭建 1、模型下载 https://huggingface.co/Vchitect/Vchitect-2.0-2B/tree/main 2、环境安装 docker run -it --rm --gpus=all -v /datas/work/zzq:/workspace pytorch/pytorch:2.2.2-cuda12.1-cudnn8-devel bash git clone https://github.com/Vchitect/Vchitect-2.0.git cd /workspace/Vchitect/Vchitect-2.0-master pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple pip install protobuf -i https://pypi.tuna.tsinghua.edu.cn/simple 三、推理测试 1、修改代码 python inference.py --test_file assets/test.txt --save_dir output --ckpt_path models
标签:视频,AI,模型,Lab,生成,筑梦,2.0,Vchitect From: https://www.cnblogs.com/nick-algorithmer/p/18451086