首页 > 其他分享 >通过大模型完成影视解说视频剪辑1.0

通过大模型完成影视解说视频剪辑1.0

时间:2024-05-15 15:41:19浏览次数:21  
标签:视频 1.0 模型 剪辑 MoneyPrinterTurbo MiniGPT4 视频剪辑 解说

一. 概述

什么是自动化剪辑解说电影的 AI Agent?

自动化剪辑解说电影的 AI Agent 是一种利用大模型技术对电影进行自动化剪辑和解说的系统。这种 AI Agent 能够分析电影中的剧情、人物对话、场景变化等元素,自动生成解说词并进行剪辑,使得观众可以在更短的时间内了解电影的核心内容。

下面为方案流程图:

二. 快速开始

环境

  • 显卡:不低于8G显存
  • python版本:3.9
  • pytorch版本:cu117

1.本地搭建视频理解大模型

  1. 克隆存储库
git clone https://github.com/linyqh/MiniGPT4-VideoLin
cd MiniGPT4-VideoLin
  1. 搭建环境
# 安装pytorch
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

# 安装其他包
pip install -r requirements.txt
  1. 下载 checkpoints
MiniGPT4-Video (Llama2 Chat 7B) MiniGPT4-Video (Mistral 7B)
Download Download
  1. (可选)下载 Llama-2-7b-chat

    国内下载会很慢,建议先提前下载到本地,然后修改模型加载路径,下载方法就不赘述了

  2. 运行demo

python minigpt4_video_inference.py --ckpt path_to_video_checkpoint --cfg-path test_configs/llama2_test_config.yaml
  1. 运行结果

    本文以 《美国队长1》 为例演示效果,展示的片段为给美队注射血清的片段

    最后输出为:

    场景描述:  The video shows a man in a suit wearing grayish-white underwear standing against the background of black and yellow, as he stands before several planted plants with white sheets around them. At some point while looking at his watch on one wristband when no people are present nearby him near a control panel.
    

2.搭建自动化剪辑工具

本步骤参考项目 MoneyPrinterTurbo 只需提供一个视频 主题 或 关键词 ,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。

解读项目后,大概原理是提供一个主题,然后利用大模型生成文案和关键词,利用文本转语音的能力生成解说语音,然后根据关键词去 Pexels 网站搜索相关视频,然后配上背景音乐,使用 ImageMagick 工具合成完整视频。

存在问题:

  • MoneyPrinterTurbo 项目最大的问题是视频素材为了确保版权,只能从 Pexels 网站获取,关键词搜索有时候完全不相关,视频素材不能自己提供
但是这个项目的生成音频,生成字母,视频合并还是非常好用的,我们只需要替换其中的素材来源,就不用重复造轮子了!!!
  1. 创建虚拟环境
git clone https://github.com/harry0703/MoneyPrinterTurbo.git
cd MoneyPrinterTurbo
conda create -n MoneyPrinterTurbo python=3.10
conda activate MoneyPrinterTurbo
pip install -r requirements.txt
  1. 安装 ImageMagick

    Windows:

  2. 启动服务

python main.py

3.制作自己的素材库

大致思路:先根据时间将一个完整的视频裁剪为10分钟的片段,利用前面是视频理解大模型,为每个片段打上标签,便于后面的检索,然后再根据影视解说文案,进行 音画同步 (整个项目中音画同步是最难的部分,目前我也在想各种方案做音画同步的优化)

这部分等有更加好的方案,我再更新吧!!!

参考项目

视频理解大模型:
MiniGPT4-Video
Video-ChatGPT

一键生成短视频
MoneyPrinterTurbo
MoneyPrinterV2

标签:视频,1.0,模型,剪辑,MoneyPrinterTurbo,MiniGPT4,视频剪辑,解说
From: https://www.cnblogs.com/linyq1/p/18194012

相关文章

  • Apple Logic Pro 11.0.0 下载 - 配备全新 AI 功能,引领音乐创作再上新阶
    AppleLogicPro11.0.0下载-配备全新AI功能,引领音乐创作再上新阶AppleLogicPro11.0.0-专业音乐制作(音频编辑)LogicPro配备全新AI功能,引领音乐创作再上新阶请访问原文链接:https://sysin.org/blog/apple-logic-pro/,查看最新版。原创作品,转载请保留出处。作者主......
  • k8s部署实时计算平台dinky1.0
    k8s部署实时计算平台dinky1.0.2源码编译IDEA编译推荐使用IDEA进行编译,因为IDEA在打开项目时会自动下载依赖,而且编译速度快,方便调试.Clone项目注意:本次直接clone的是Dinky主仓库,如果你想要二次开发/基于自己的仓库进行二次开发,请先fork项目,然后再c......
  • httpsok-v1.11.0支持OSS证书自动部署
    ......
  • httpsok-v1.11.0支持CDN证书自动部署
    ......
  • Web 1.0、Web 2.0 和 Web 3.0网络的发展与特点
    Web1.0、Web2.0和Web3.0规划了网站和网络应用的发展,每个阶段由不同的技术特点和典型案例标示。Web1.0(静态网页时代)Web1.0,通常指的是互联网的最早阶段,从大约1991年开始,持续到2000年左右。这一时期的互联网称为"静态网"或"只读网",具有以下几个显著特点:静态页面:网站由静态......
  • SystemVerilog -- 11.0 Introduction
    SystemVerilogAssertions系统的行为可以写成一个assertion,该assertion在任何时候都应该为真。因此,assertion用于验证定义为属性的系统的行为,也可用于功能覆盖。Whatareproperitiesofadesign?如果assertion检查的设计属性未按预期方式运行,则assertion将失败。例如,假设设......
  • Unity 热更--AssetBundle学习笔记 1.0【AB包资源加载工具类的实现】
    工具类封装通过上文中对AB包加载API的了解和简单使用,对AB包资源加载的几种方法进行封装,将其写入单例类中,如代码展示。确保每个AB资源包只加载一次:在LoadAssetBundleManager单例工具类中,首先提供基本的AB包及其AB包依赖包的加载方法,为保持AssetBundle只加载一次,使用DIctionary......
  • 网格策略从1.0到1.1
    作者:麦克煎蛋  出处:https://www.cnblogs.com/mazhiyong/转载请保留这段声明,谢谢!在学习网格策略的过程中,困扰我的主要有两点:一个是建仓时机以及头寸大小。另一个是买卖策略。1.0版本在基础的网格策略,或者叫1.0版本中,建仓时机一般取的是网格的中段或稍低位置建仓,如15格的......
  • 密码管理器---KaPass v1.0.3
    伴随的网龄的增加,密码也随之增加,简单的密又怕不安全,复杂的密码怕记不住。就是在这样的情况下,KaPass密码管理器应运而生。一个密码管理器---KaPass,简洁的界面,功能齐全,一起了解一下KaPass: 1、登陆窗口2、主界面3、新增群组,可自定义群组图标4、新增密码,可以储存各式各样......
  • 重大更新!开源无代码 / 低代码平台 NocoBase v1.0 正式发布!
    NocoBase是一个极易扩展的开源无代码开发平台。完全掌控,无限扩展,助力你的开发团队快速响应变化,显著降低成本,不必投入几年时间和数百万资金研发,只需要花几分钟部署NocoBase。NocoBase中文官网官方文档在线Demov1.0里程碑历时3年,NocoBase迎来第一次根版本号升级,版本号......