一、Motivation
1、单模态监督问题:大多数方法往往只考虑从图像层面监督增强过程,而忽略了图像的详细重建和多模态语义对特征空间的指导作用。这种单模态监督导致不确定区域的次优重建和较差的局部结构,导致视觉结果不理想的出现。------》扩散模型缺乏有效性约束,容易出现多种生成效应
2、简单的引入CLIP问题:因为图像损坏给特征对齐带来了困难,导致视觉语言模型无法有效地捕获退化图像和语义之间的细粒度差距,所以简单地引入视觉语言信息并不能获得显著的性能
二、Contribution
1、网络结构:CLIP-Fourier Guided Wavelet Diffusion (CFWD). 将多模态引入到扩散模型中用于低光图像增强
2、多模态监督:首次将频域空间与多模态相结合,设计了多层次视觉语言导引网络------> 解决多模态特征对齐问题
3、高频混合空间:小波变换与傅里叶变换的有效结合,构建了具有高频混合空间,对扩散模型生成多样性的有效约束
三、Network
1. 前向加噪过程:首先将正常光照图像IH通过离散小波变换(DWT会进行下采样操作)得到AHK,分辨率变为原来的1/4.
K-DWT: 大佬链接:https://blog.csdn.net/qq_43426078/article/details/124130531
先将正常光照图像经过K-DWT(离散小波变换)产生1/4尺寸的低频域,之后前向加噪声
2. 反向去噪过程:
首先将低光照图像经过K-DWT(离散小波变换)产生1/4尺寸的低频域 + T时刻的噪声 产生 预测的粗糙的增强图像
没懂Inverse Inference过程为什么会产生多个样本
四、Experiments
标签:Diffusion,模态,via,CLIP,DWT,变换,CFWD,图像 From: https://www.cnblogs.com/yyhappy/p/18178993