首页 > 其他分享 >ControlNeXt: Powerful and Efficient Control for Image and Video Generation(2024,8)

ControlNeXt: Powerful and Efficient Control for Image and Video Generation(2024,8)

时间:2024-08-19 21:27:46浏览次数:5  
标签:Control Efficient Image boldsymbol mu Generation ControlNeXt

ControlNeXt: Powerful and Efficient Control for Image and Video Generation(2024,8)

paper
Github

进一步在ControlNet上进行了改进,主要针对一下两点

  1. 对于每一个模块添加一个Zero-Conv也会占用很多显存.
  2. Zero-Conv两个模态的输出的mean、var具有差异,导致收敛很慢.

ControlXt_2024-08-19_

针对1,使用一个轻量级的ResBlock进行替换,并且微调很小一部分参数,来替代原来的网络.

ControlXt_2024-08-19_

针对2,使用了Cross-Normalization,就是将在ResNet添加一个Normlization,来学习一个Mean、Var和原来输出类似的参数.具体如下:

首先对于输入\(x\),计算原始模型的\(\mu,\sigma\)

\[\boldsymbol{\mu}_m=\frac1n\sum_{i=1}^n\boldsymbol{x}_{m,i} ,\\\boldsymbol{\sigma}_m^2=\frac1n\sum_{i=1}^n(\boldsymbol{x}_{m,i}-\boldsymbol{\mu}_m)^2 . \]

然后使用这两个参数来进行Normlization.

\[\hat{\boldsymbol{x}}_c=\frac{\boldsymbol{x}_c-\boldsymbol{\mu}_m}{\sqrt{\boldsymbol{\sigma}_m^2+\boldsymbol{\epsilon}}}*\gamma, \]

需要注意的是,只有scale参数\(\gamma\),而没有shift参数.

标签:Control,Efficient,Image,boldsymbol,mu,Generation,ControlNeXt
From: https://www.cnblogs.com/chenfengshijie/p/18368150

相关文章

  • TransformControls 用于在网页中进行 3D 场景中物体的交互式操作
    demo案例:https://techbrood.com/threejs/examples/#misc_controls_transformTransformControls是Three.js中的一个类,用于在网页中进行3D场景中物体的交互式操作。让我们来详细讲解它的输入参数、输出、属性和方法:输入参数:TransformControls构造函数通常接受两个参数:camer......
  • Winform(Devexpress)中实现GridView(GridControl)没有数据时,表格显示图片
    1.问题描述:在GridView中当数据源为空或者没有数据时,Grid表格下的画布显示图片;当然要使用到GridView事件:事件是:CustomDrawEmptyForeground代码如下:privatevoid_GridView_CustomDrawEmptyForeground(objectsender,CustomDrawEventArgse){if(_......
  • EfficientMod:微软出品,高效调制主干网络 | ICLR 2024
    EfficientModulation(EfficientMod)融合了卷积和注意力机制的有利特性,同时提取空间上下文并对输入特征进行投影,然后使用简单的逐元素乘法将其融合在一起。EfficientMod的设计保证了高效性,而固有的调制设计理念则保证了其强大的表示能力来源:晓飞的算法工程笔记公众号论文:E......
  • C++:从Type到Control
    一、基本数据类型     计算机的存储空间由最基本的二进制数(比特)组成,若干连续的二进制位(一般为8位)组成一个字节并被分配一个内存地址(),所以单独的比特没有地址,通常情况下CPU也不会一个比特一个比特读取数据,相反,字节被当作基本操作单位。在此前提下,一切要存储在计算机上的......
  • 2024年图像配准最新算法EfficientLoFTR(cvpr2024) 【补丁For 双鱼眼全景视频拼接】
    前言对于双鱼眼全景拼接这个项目来说,单应性矩阵是最重要的一环。单应性矩阵中它既包含了相机的内参,也包含了相机的外参。因此就算你的相机没有特别好的定位,也能通过好的单应性矩阵救回来。2024最新DNN配准算法在双鱼眼相机拼接中,特征点检测与匹配是影响单应性矩阵最......
  • dom-to-image + canvas 实现拾色器(滴管取色)功能
    虽然HTML原生的input可以实现拾色器功能,但是很多时候我们需要自己设置样式和交互方式,就需要自己手动写一个滴管取色的组件,目前比较通用的一个方案就是将dom转换成二进制图片数据,再由canvas读取色值来实现自定义的拾色器滴管功能。运行截图:完整demo代码:(感兴趣的可以直接复制......
  • C# ControlTemplate 和 DataTemplate 一起使用
    <Windowx:Class="WpfApp1.Window2"xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"xmlns:d="http://schemas.microsoft.com/......
  • 1.Controller的初始化
    controller接口逻辑图实验拓扑:sw3560:iproutingvlan2namecontrollervlan3nameacsvlan4nameapintg0/24swaccvlan4intg0/22swaccvlan3spanning-treeportfastintg0/23swtrunkendot1qswmodetrunkintvlan2ipadd10.1.2.254255.255.255.......
  • 适配iOS18 Widget Extension控制中心新功能:ControlWidgetToggle和ControlWidgetButton
    热烈欢迎,请直接点击!!!进入博主AppStore主页,下载使用各个作品!!!注:博主将坚持每月上线一个新app!!支持原创,博客园原文链接:https://www.cnblogs.com/strengthen/p/18362397文末可以有demo下载。首先查看WWDC2024的官方视频:WWDC2024将App控件扩展到系统级别:https://developer.apple......
  • make vic_image 失败
    make步骤如下:cdVIC/vic/drivers/imagednfinstallopenmpidnfinstallopenmpi-devel.x86_64moduleloadmpi/openmpi-x86_64dnfinstall-ynetcdf-develdnfinstall-ynetcdfnetcdf-devel报错如下:/usr/bin/ld:/tmp/ccaypzjZ.o:/home/VIC/vic/drivers/image/../../......