首页 > 其他分享 >当前AIGC研究回顾—CV类

当前AIGC研究回顾—CV类

时间:2024-12-19 18:27:30浏览次数:11  
标签:Diffusion 回顾 文生 模型 AIGC 数据 CV block SD

AI技术本质是数据驱动(Data-Driven),模型能有效学习庞大数据,需要与数据规模相匹配的可学习参数规模(也要有对应的算力)

因此,技术可分为两条主线:

  • 数据

    • 数据如果在模型外,主要就是数据集,更多是质量和标注的问题,即预处理
    • 数据如果在模型内,则主要操作的是潜空间(Latent Space),
      • 接近模型输入输出的层,离像素图比较近,称为特征图Features / Feature Maps
      • 接近模型内部,是比像素更低维的向量,称为潜向量(Latent Code)
  • 模型

    AIGC模型即生成模型,基本是自编码器的结构,即模型包含两个部分,编码器和解码器可以概述为5类

    • 自回归类(GPT)
    • 生成对抗网络(GAN)
    • 流模型(Flow)
    • 变分自编码器(VAE)
    • 扩散模型(SD)

1.当前基线

当前开源性能最好的模型是 Stable-Diffusion-v1.5 (SD),

- 潜空间用到了 Latent SD,
- 文生图部分用到了GPT的模块attention QKV
- 训练用到了VAE和GAN

2.当前应用

主要是文生图、图生图(图像编辑、风格迁移)、视频合成,其中“文生图”是主要部分,方法根据主线分为2类:

2.1 推理—数据层面方法

主要是改变潜空间去噪过程的latent code,即推理过程。注入其他语意、图像、时序信息

2.2 微调—模型层面方法

由于SD模型参数已经足够大,且其预训练的数据集也足够大,更多应用改进只能使用局部参数学习和局部数据。
主要是在固定预训练模型参数的基础上,微调局部参数、如增加一些层,或者加入新的模型配合。

3. 代表性方法

3.1 推理类

- FreeU

这个工作思路是: 发现SD的U-Net各层block中:

	- 跳跃连接(skip connetions)的层输出features在傅立叶变换后是<低频分量,s>,即图像的全局结构,包括全局布局和平滑颜色,该分量变化缓慢,对噪声不敏感。

	- 其他层(backbone)输出的是<高频分量,b>,即图像的边缘和纹理信息。这些细节变化较大,即对噪声非常敏感。

2类分量的去噪生成效果是这样:
在这里插入图片描述

去噪过程需要在擦除噪声的前提下,同时保持重要且复杂的细节,该方法就是放大<低频分量,b>的权重,减小<低频分量,s>的权重,以提升图像生成的效果。
效果如图:

在这里插入图片描述

3.2 微调类

- ControlNet

这个思路也是:冻结SD的模型参数,复制模型的每一个block,并在copy的block上下增加一层convolution(初始参数为0)。

这样就得到了一个每个block多2层的复制模型,用于像素级标签(condition)的输入,并训练这个复制模型,使得SD可以根据conditon生成对应目标

效果是这样:
  • 第1行是条件:

在这里插入图片描述

  • 后两张是第1列是条件
    在这里插入图片描述

在这里插入图片描述

  • 微调随着迭代次数的效果:

在这里插入图片描述

Reference

  • https://zhuanlan.zhihu.com/p/696838411
  • https://www.explinks.com/blog/wx-diffusion-model-practice-part-thirteen-controlnet-structure-and-training-process/
  • FreeU: Free Lunch in Diffusion U-Net
  • Adding Conditional Control to Text-to-Image Diffusion Models
  • https://github.com/AUTOMATIC1111/stable-diffusion-webui

标签:Diffusion,回顾,文生,模型,AIGC,数据,CV,block,SD
From: https://blog.csdn.net/disanda/article/details/144547522

相关文章

  • 基于OpenCV和Python的人脸识别系统
    一、系统概述基于OpenCV和Python的人脸识别系统利用先进的算法和工具,提供高效、准确的人脸识别服务。该系统可以应用于安全监控、门禁系统、移动支付、智能设备解锁等多个场景,具有广泛的应用价值和商业价值。二、核心组件OpenCV:OpenCV是一个开源的计算机视觉和机器学习......
  • AIGC生成星际探险游戏
    工具:豆包提示词生成星际探险游戏,角色为星际旅行者王伟,飞船名词星际探险号,要求简洁清晰,直接进行对话,提示内容简介,通过选择数字进行对话,立即游戏生成内容如下《星际探险》游戏简介你将扮演星际旅行者王伟,驾驶着“星际探险号”飞船在浩瀚宇宙中展开惊险刺激的探险之旅。......
  • 视频融合平台EasyCVR热知识:5G网络对智能监控系统远程控制的影响有哪些潜在风险?
    随着5G技术的快速发展和广泛应用,智能监控系统正迎来一场革命性的变化。5G网络以其高速率、低延迟和大连接数的特性,极大地提升了智能监控系统的远程控制能力,使其在城市管理、交通监控、公共安全等多个领域发挥着越来越重要的作用。然而,正如任何技术进步都伴随着新的挑战一样,5G网络......
  • CVPR-23 Towards Universal Fake Image Detectors that Generalize Across Generative
    论文标题:TowardsUniversalFakeImageDetectorsthatGeneralizeAcrossGenerativeModels论文链接:https://arxiv.org/abs/2302.10174 01摘要翻译随着生成模型的快速发展,人们对通用假图像检测器的需求日益增长。在这项工作中,我们首先展示了现有的模式,即训练一个深......
  • OpenCV:C++——边框(copyMakeBorder )和轮廓(findContours ,
    一、添加边框1、函数声明        在OpenCV中,可以使用函数copyMakeBorder为图像设置边界。该函数可以为图像定义额外的填充(边框),原始边缘的行或列被复制到额外的边框。该函数声明如下:CV_EXPORTS_WvoidcopyMakeBorder(InputArraysrc,OutputArraydst,......
  • opencv CascadeClassifier
    opencv CascadeClassifierhttps://docs.opencv.org/3.4/db/d28/tutorial_cascade_classifier.htmlInthistutorial,WewilllearnhowtheHaarcascadeobjectdetectionworks.WewillseethebasicsoffacedetectionandeyedetectionusingtheHaarFeature-......
  • OpenCV零基础入门(3):ROI区域|颜色通道提取|边界填充|图像融合
    本文主要内容如下:ROI区域颜色通道提取边界填充图像融合1.截取部分图像数据(ROI区域)ROI(RegionofInterest),即感兴趣区域,是指在图像处理和计算机视觉中,从被处理的图像中以方框、圆、椭圆、不规则多边形等方式勾勒出的需要处理的区域。在机器视觉、图像处理等领域,ROI是一个重......
  • 私有化部署视频平台EasyCVR视频监控前端取电及实施建设
    在现代城市安全管理中,视频监控系统扮演着至关重要的角色。随着技术的进步,视频监控系统不仅需要提供清晰的图像,还需要具备高度的可靠性和稳定性。本文将详细介绍视频监控系统前端取电及实施建设的过程,包括供电方式、线路布局、安全措施以及监控平台的选择。通过这些详细的步骤和方......
  • 视频设备轨迹回放平台EasyCVR小知识:老鼠咬破线缆造成监控故障的预防与修复方法
    在维护视频监控系统的过程中,我们经常会遇到一些意外的挑战,其中之一就是老鼠咬破线缆导致的监控故障。这种情况不仅影响监控系统的稳定性和可靠性,还可能带来安全隐患。为了应对这一问题,我们可以从预防和修复两个方面入手,采取一系列有效的措施来保护线缆和监控设备。以下是一些具体......
  • EHOME视频平台EasyCVR矿山封闭局域网环境如何将内网视频数据共享到政务云?
    在探讨矿企智能化建设的进程中,一个关键议题便是如何在封闭局域网环境下,高效且安全地将内网的AI分析数据以及视频数据共享至政务云。这不仅是矿企提升安全生产水平、优化运营效率的重要途径,也是实现可持续发展目标不可或缺的一环。矿企智能化建设中的AI分析、视频监控与上云解决......