首页 > 其他分享 >AI视频领域组件评价 — 4星能力

AI视频领域组件评价 — 4星能力

时间:2024-12-27 10:58:05浏览次数:9  
标签:视频 插件 AI 闭环 生成 https 组件

最近AI生成视频的能力真是每天都越来越多,心里感觉始终追不上高速发展的AIGC势头。

本文尝试分享尽可能详细的内容,每个都是笔者亲自分析的,如有任何错误之处,请随时联系作者。

本文中的截图或者说配图都是用微信小程序【字形绘梦】制作,谢谢该软件的免费支持。

AI视频领域组件评价 -- 4星能力

备注:

本文不负责提供最终测试的生成后的视频。因为很多平台并不提供此种功能。

如有需要,请联系本人。

1 AnimateDiff

这个视频能力是SD体系中的一个插件

插件地址:

https://github.com/continue-revolution/sd-webui-animatediff

基本使用操作

  1. 打開AnimateDiff 面板,勾選 Enable AnimateDiff
  2. SaveFormat 我們一般選擇GIF和MP4
  3. 設置 Number of Frames (總體幀數) , 默認8幀每秒(就是FPS,可以自行修改)
  4. 點擊【生成】按鈕,按照 Prompt 生成内容和完成。内容輸出在Output目錄下的AnimateDiff目錄下

参数配置界面如下

AI视频领域组件评价 -- 4星能力

参数说明:

保存格式(Save format):

输出的文件格式。至少选择一个:”GIF”|”MP4″|”WEBP”|”PNG”。如果需要附加信息文本,勾选”TXT”,它将与输出GIF文件保存在相同的目录下。

总帧数(Number of frames):

生成的超短视频的帧数,一般建议20帧以下。

帧率(FPS):

选择30-60为佳。

循环播放次数(Display loop number):

GIF播放的循环次数,值为0表示GIF永远不停止播放。

上下文批处理大小(Context batch size):

每次传入运动模块的帧数。SD1.5运动模块是基于16帧训练的,因此当帧数设置为16时,效果最好。

闭环(Closed loop):

闭环意味着该扩展会尝试使最后一帧与第一帧相同。选择不同的闭环选项(N|R-P|R+P|A)来确定如何实现闭环。

N表示绝对没有闭环。如果帧数小于上下文批处理大小而不是0,则这是唯一可用的选项。

R-P意味着扩展将试图减少闭环上下文的数量。提示行程不会被插值为闭环。

R+P意味着扩展将试图减少闭环上下文的数量。即时行程将被插值为一个闭环。

A意味着扩展将积极尝试使最后一帧与第一帧相同。即时行程将被插值为一个闭环。

步幅(Stride):

最大运动步幅,以2的幂表示(默认值:1)。由于无限上下文生成器的限制,此参数仅在帧数大于上下文批处理大小时有效。当Stride为1时,”Absolutely no closed loop”(绝对不进行闭环)才可能实现。

重叠(Overlap):

上下文中重叠的帧数。如果重叠设置为-1(默认值),重叠将为上下文批处理大小的四分之一。由于无限上下文生成器的限制,该参数仅在帧数 > 上下文批处理大小时有效。

帧插值(Frame Interpolation):

使用Deforum的FILM实现在帧之间进行插值。需要Deforum扩展。

插值倍数(Interp X):

将每个输入帧替换为X个插值输出帧。

成功運行的截圖

  1. 運動模塊Injection成功
  2. 麽有任何錯誤信息,成功輸出GIF,PNG,MP4

AI视频领域组件评价 -- 4星能力

注意:

需要用到的模型,在这里下载https://huggingface.co/conrevo/AnimateDiff-A1111/tree/main

然后需要手动下载放到了插件的model目录下。

配置的模型,手动下载放到了插件的model目录下了。如下图

AI视频领域组件评价 -- 4星能力

错误集锦

这个连接中指出了一些配置,但是貌似没社么作用Stable Diffusion WebUI使用AnimateDiff插件生成动画_stable diffusion 动画插件-CSDN博客

如果在txt2img模式下,出现错误(注意导出到mp4和jpg可能错误信息有所不同,但大差不差)

raise EinopsError(message + ‘\n {}’.format(e))

einops.EinopsError: Error while processing rearrange-reduction pattern “(b f) c h w -> b c f h w”.

Input tensor shape: torch.Size([2, 320, 1, 64, 64]). Additional info: {‘b’: 2}.

Expected 4 dimensions, got 5

einops.EinopsError: Shape mismatch, can’t divide axis of length 2 in chunks of 16

还有

如果切换到img2img的模式,错误信息如下。

AttributeError: ‘NoneType’ object has no attribute ‘mode’

AI视频领域组件评价 -- 4星能力

2 Infinite Zoom

插件介绍

Infinite Zoom 是个非常有意思的SD中的插件,它允许你自定义每帧的内容,然后串联起来,形成一个无线循环播放的视频。

可以从一个小点,进而进入一个更大的视野点。难度在于,这个切换过程你可能需要好好的控制。

官方地址:

https://github.com/v8hid/infinite-zoom-automatic1111-webui

AI视频的质量和元素中间的连贯性有重要关系。 否则视频强扭出来的效果不太好。以下是主要操作界面的使用指南和截图

AI视频领域组件评价 -- 4星能力

具体使用

第一步,我们使用模型。 https://civitai.com/models/299933/halcyon-sdxl-photorealism

第二步,具体尝试关键字

关键字
A deep underwater scene with a sunken pirate ship illuminated lit from within by a ghostly glow, cannons, surrounded by ghostly sea creatures in the dark waters, (tilt shift lens effect:1.2), light shafts, cinematic color grading, cinematic, epic, depth of field, bokeh, highly detailed, light leak, darkness, haunted, ghostly, dark and moody lighting
A deep underwater scene with a sunken pirate ship illuminated lit from within by a ghostly glow, cannons, surrounded by ghostly sea creatures in the dark waters, (tilt shift lens effect:1.2), light shafts, cinematic color grading, cinematic, epic, depth of field, bokeh, highly detailed, light leak, darkness, haunted, ghostly, dark and moody lighting
4K photograph, Cinematic scene of a strong human (Buzz Lightyear:1.2) astronaut wearing massive heavy (warhammer 40k:1.2) chaos marine grey gold armor, (glowing green magic:1.5), glass bubble helmet, cinematic lighting, (cinematic color grading:1.2), rocky alien planet, dark moody lighting, casting a spell, extremely detailed armor, adeptus mechanicus, walking through a sandstorm, small (helmet:1.4), sword, detailed textures, fuji cinestill, sunset <lora:Dystopia:0.3> <lora:add-detail-xl:1>
1girl, photograph of a young gypsy woman looking over shoulder at viewer, tiny transparent shawl, ((partially braided sunkissed hair blowing in the wind)), ((backlighting)), (cinematic color grading:1.2), turquoise and silver jewelry, large statement amulet, epic, perfect female face, realism, Beautiful desert dusk, light leak, lens flare, aesthetic, realism, masterpiece, studio quality, warm Cinematic lighting, HDR, HQ, 8k, 4k, Amazing, Photorealistic, Hyper realistic, light rays, f2.0, dust particles, sharp focus, light particles <lora:add-detail-xl:1>, backlit, dark moody lighting
a cyan scifi futuristic concept motorcycle, (TRON rider:1), curvy and aerodynamic, Kowloon walled city narrow winding alleyway, light speed, flash, (heavy rain:1.2), motion trail, darkness, (speed lines:1.1), (motion blur:1.1), high contrast, deep focus, TRON, style by Ridley Scott, Cyberpunk 2077, Bladerunner, fog, mist, epic visual effects, arc lightning, underglow, interstellar, flow, detailed, scifi, extremely detailed textures, star blast, dark vibrant colors, cosmic art, stars in background, headlights, cinematic scene, lens flare, cinematic color grading, film still, god rays, glow, art of Doug Chiang and John Park glowneon, fuji cinestill, light leak, glowing, sparks, lightning, ultra detailed <lora:add-detail-xl:2>, dramatic lighting <lora:blacklight_makeup_v2:1> ultraviolet blacklight reactive paint, powerlines, catwalks, alleyway <lora:SDS_Contrast tool_XL:0.8>

此时,生成5s的内容,和视频的输出结果。

AI视频领域组件评价 -- 4星能力

如果碰到MPEG的问题,可能是处理FFMPEG4 的组件没有。 放到任意位置,加到 PATH中即可。

如下图中的3个可执行最终文件,如你这边没有可自行下载FFMPEG编译后获得,或者直接联系我发你。

AI视频领域组件评价 -- 4星能力

3 Mov2Mov

这个插件也是SD中的。主要的作用从名字上可以直观的看出来。通过Movie 生成 Movie。

我看到过一个NBA的真人视频被卡通形象替换了,自己尝试,但是效果不是很好。具体是否缺失了什么重要的内容,可能还需要读者自己研究深挖下。我只能浅尝辄止了。

插件介绍

下载地址:GitHub - Scholar01/sd-webui-mov2mov: This is the Mov2mov plugin for Automatic1111/stable-diffusion-webui.

下载后直接放到SD的插件目录即可。

主要使用步骤:

见下图

将AI视频转化为动漫风格

具体操作步骤如下:

  1. 在Stable Diffusion的WebUI界面中选择“mov2mov”选项卡。
  2. 点击“选择视频”按钮,选择要进行转换的AI视频文件。
  3. 在“模型选择”中,我们可以选择一款适合动漫风格的模型,例如“AWPainting”模型。该模型可以在国内知名的AI模型分享社区“哩布哩布AI”上下载,并放入Stable Diffusion对应文件夹中。
  4. 调整其他参数,如“迭代次数”、“步长”等,以达到满意的效果。
  5. 点击“开始转换”按钮,等待转换完成。

转换完成后,我们就可以在“输出文件夹”中看到转换后的动漫风格视频了。此时,我们可以使用视频编辑软件对其进行进一步的编辑和处理,如添加音效、字幕等,以制作出更加精美的AI动画。

注意:

Mov2Mov的本质是一帧一帧的处理,将原来每帧中的内容,替换成AI生成的。再形成视频。因此耗时也比较久。

AI视频领域组件评价 -- 4星能力

下面这个使用原始NBA视频,用卡通人物代替了。但是真实人物的动作都被大致保留了。形成了卡通画视频的效果。

AI视频领域组件评价 -- 4星能力

Text2Video

Text2Video 一键生成视频. 也是SD中的一个插件,主要提供用户输入文字,然后自动帮你一键生成视频内容。

听上去不错,但是实际的效果可能会偏差比较大。 但无论如何,简单易用对吧。

插件介绍

官方地址:

https://github.com/kabachuha/sd-webui-text2video?tab=readme-ov-file

模型和显存占用情况

6 GB 的 vram 应该足以在 256×256 分辨率下在低 vram vae 的 GPU 上运行

24 帧长的 256×256 视频绝对可以装入 12GB 的 NVIDIA GeForce RTX 2080 Ti,或者如果你有一个支持 Torch2 注意力优化的显卡,你可以将长达 125 帧(8 秒)的视频放入相同的 12 GB 的 VRAM 中!

在相同条件下,250 帧(16 秒)需要 20 GB。

具体使用

  1. 在使用前,我们需要下载针对Model Type2种分类下的模型文件,大于20G左右还是比较大的。
  2. ModelScope的下载地址: https://huggingface.co/ali-vilab/modelscope-damo-text-to-video-synthesis/tree/main 。下载完成后请放在目录stable-diffusion-webui/models/ModelScope/t2v
  3. VideoCrafter的下载地址:https://drive.google.com/file/d/13ZZTXyAKM3x0tObRQOQWdtnrI2ARWYf_/view 。下载完成后请放在目录models/VideoCrafter/model.ckpt

AI视频领域组件评价 -- 4星能力

我们在该插件的Prompt区域输入关键字,描述我们的视频的主要内容。点击生成。

可以看到Console中开始进行各种处理了

AI视频领域组件评价 -- 4星能力

让一个女孩子笑。

生成很快,效果还可以。

AI视频领域组件评价 -- 4星能力

总体来看,还是可以的。

至少比较有趣。

MoneyPrintTurbo

我翻译过来是钞票打印机. 国人自己开发的开源框架。使用起来很方便,不过就是时不时问题出现。

官方地址: GitHub - harry0703/MoneyPrinterTurbo: 利用AI大模型,一键生成高清短视频 Generate short videos with one click using AI LLM.

版本:MoneyPrinterTurbo v1.1.2

主界面:

AI视频领域组件评价 -- 4星能力

真实的使用过程需要配置具体内容:

  1. 需要去网站 申请 API Key。 https://www.pexels.com/

pexels_api_key

pexels_api_keys = [ “r6116DzQWaT8nhUIjM8Nnkn0pKXccRjOIXw7EWzTlqaT3xsUBXuHoYDB”,]

配置文件中内容是这样的

  1. 配置大模型 OpenAI的内容

openai_api_key = “你的Key” openai_base_url = “https://api.openai.com/v1” openai_model_name = “gpt-3.5-turbo”

  1. 可能需要配置Console翻墙能力

CMD中执行,需要

set http_proxy=http://127.0.0.1:7890 & set https_proxy=http://127.0.0.1:7890 cmd下运行

确保科学上网成功。

功能特性

  • 完整的 MVC架构,代码 结构清晰,易于维护,支持 API 和 Web界面
  • 支持视频文案 AI自动生成,也可以自定义文案
  • 支持多种 高清视频 尺寸
    • 竖屏 9:16,1080x1920
    • 横屏 16:9,1920x1080
  • 支持 批量视频生成,可以一次生成多个视频,然后选择一个最满意的
  • 支持 视频片段时长设置,方便调节素材切换频率
  • 支持 中文 和 英文 视频文案
  • 支持 多种语音 合成
  • 支持 字幕生成,可以调整 字体位置颜色大小,同时支持字幕描边设置
  • 支持 背景音乐,随机或者指定音乐文件,可设置背景音乐音量
  • 视频素材来源 高清,而且 无版权,也可以使用自己的本地素材
  • 支持 OpenAImoonshotAzuregpt4freeone-api通义千问Google GeminiOllama 等多种模型接入

后期计划

  • GPT-SoVITS 配音支持
  • 优化语音合成,利用大模型,使其合成的声音,更加自然,情绪更加丰富
  • 增加视频转场效果,使其看起来更加的流畅
  • 增加更多视频素材来源,优化视频素材和文案的匹配度
  • 增加视频长度选项:短、中、长
  • 增加免费网络代理,让访问OpenAI和素材下载不再受限
  • 朗读声音和背景音乐,提供实时试听
  • 支持更多的语音合成服务商,比如 OpenAI TTS
  • 自动上传到YouTube平台

同时它提供一键安装和Docker的不同方式。不过获取视频源的地方不是很针对中国市场,B站视频等目前的版本还没有支持到。所以视频内容不是很对的上文本内容。

但无论如何,生成垃圾视频的能力是完全足够了。

注意:

最近TTS语音模块貌似有访问不了的情况,结合论坛的修复方案,可以参考下图。

增加一段Proxy的设置代码即可。

AI视频领域组件评价 -- 4星能力

好了,今天就介绍到这里。这些视频制作的能力我评估给出4星价值。

后续我会介绍能力更强的5星视频能力。

当然这些都是免费的方案,请不要和付费的商业方案做对比。你懂的。

AI视频领域组件评价 -- 4星能力

2024年底了,祝大家2025 更好。

标签:视频,插件,AI,闭环,生成,https,组件
From: https://blog.csdn.net/ms44/article/details/144660579

相关文章

  • 元旦海报关键词怎么写?千鹿AI来帮你!附元旦不同风格关键词分享!
    随着元旦的日益临近,各大平台的庆祝氛围逐渐升温。如何让你的海报在节日的海洋中脱颖而出?一份富有元旦气息的精美海报至关重要!但是,传统的设计流程繁琐且耗时,难以满足大量高质量作品的需求。别急,千鹿AI的flux文生图功能为你带来了前所未有的便捷与创意!功能优势:高效快速:只需简单......
  • HarmonyOS NEXT开发实战:打造高效上拉刷新与下拉加载组件(一)空页面的设计与实现
    本文正在参加华为鸿蒙有奖征文征文活动前言:在鸿蒙开发的世界中,用户体验至关重要。我在网络上搜寻了一番,发现现有的上拉刷新和下拉加载组件要么功能不全,要么不够优雅。因此,我决定自己动手,打造一套既美观又实用的组件。本系列文章将深入解析如何使用鸿蒙系统组件封装出优秀的上拉......
  • HarmonyOS NEXT开发实战:实现高效下拉刷新与上拉加载组件(二)刷新核心逻辑与空页面集成
    前言:在上一篇文章中,我们深入探讨了如何在HarmonyOS中实现一个功能完备的空页面组件。现在,我们将进入下拉刷新和上拉加载功能的核心逻辑实现。这不仅仅是技术实现,更是对用户体验的深刻理解。本文将详细介绍如何将空页面与下拉刷新、上拉加载逻辑相结合,打造一个既高效又用户友好的......
  • Aloudata 入选 IDC「GenAI+Data」中国市场代表厂商
    近期,国际知名技术研究与咨询机构IDC发布了《GenAI+Data市场趋势分析及最佳实践案例》报告,总结了当前主要市场特点和数据变化影响,并给出技术布局建议,以供市场参考。报告中还绘制了GenAI+Data发展趋势图,从市场需求、未来发展潜力及成熟度方面列出了主要技术点以及代表厂商。......
  • 关于Harmony OS中Scroll组件的使用方法
    #创作灵感#在使用HarmonyOS进行开发时,常常会用到Scroll组件,这里对之前自己开发时使用Scroll组件的一些心得和建议进行一些汇总一、基础使用方法首先,对Scroll的一些基础使用进行举出Scroll可滚动的容器组件,当子组件的布局尺寸超过父组件的尺寸时,内容可以滚动。说明:该组......
  • vue父组件接收子组件方法传递多个参数时追加参数
    VUE3子组件<template> <viewclass=""> <viewclass=""@click="handleClick">1</view> <viewclass=""@click="handleClick2">2</view> </view></template><......
  • 用Python开启人工智能之旅(五)AI项目实战中Python基础
    用Python开启人工智能之旅(一)Python简介与安装用Python开启人工智能之旅(二)Python基础用Python开启人工智能之旅(三)常用的机器学习算法与实现用Python开启人工智能之旅(四)常用的机器学习算法与实现用Python开启人工智能之旅(五)AI项目实战中Python基础在实际的AI项目中,应用......
  • NLP论文速读(AAAI 2024)|面向序列生成的基于高效采样强化学习 (Efficient Sampling-ba
    论文速读|ESRL:EfficientSampling-basedReinforcementLearning forSequenceGeneration论文信息:简介:   本文探讨了将强化学习(ReinforcementLearning,RL)应用于序列生成模型的背景。序列生成是一个长期决策问题,而RL特别适合优化长期奖励,例如序列级别的评分......
  • 老师未来会被AI取代吗?说说你的看法
    在探讨“老师未来会被AI取代吗”这一问题时,特别是在前端开发这一具体领域,我们需要综合考虑多个方面。以下是我的看法:不会被完全取代人类情感与互动:教育不仅仅是知识的传授,还包括师生之间的情感交流、人格影响和社交互动。AI虽然可以模拟某些人类的反应,但在情感理解、表达和共......
  • 如果让你出一些html的视频教程,你应该怎么出?
    如果要出一系列关于HTML的视频教程,特别是针对前端开发的,以下是我建议的步骤和考虑因素:1.明确目标受众初学者:从未接触过HTML,需要从头开始。进阶者:已经了解基础,希望深入学习更高级的特性或技巧。开发者:有一定经验,想要了解最新HTML标准或特定功能。2.规划教程内容基础篇H......