首页 > 其他分享 >CVPR 2023 | Collaborative Diffusion 怎样让不同的扩散模型合作?

CVPR 2023 | Collaborative Diffusion 怎样让不同的扩散模型合作?

时间:2023-05-22 23:11:05浏览次数:58  
标签:Diffusion Collaborative text 模型 mask CVPR 扩散

前言 CVPR 2023有哪些亮点?Collaborative Diffusion提供了一种简单有效的方法来实现不同扩散模型之间的合作。

本文转载自我爱计算机视觉

作者 | Huang Ziqi

仅用于学术分享,若侵权请联系删除

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

【CV技术指南】CV全栈指导班、基础入门班、论文指导班 全面上线!!

近一两年,扩散模型(diffusion models)展现了强大的生成能力。不同种类的扩散模型各显神通 —— text-to-image模型可以根据文字生成图片,mask-to-image模型可以从分割图生成图片,除此之外还有更多种类的扩散模型,例如生成视频、3D、motion等等。

倘若有一种方法让这些pre-trained的扩散模型合作起来,发挥各自的专长,那么我们就可以得到一个多功能的生成框架。比如当text-to-image模型与mask-to-image模型合作时,我们就可以同时接受text和mask输入,生成与text和mask一致的图片了。

论文: https://arxiv.org/abs/2304.10530

代码: https://github.com/ziqihuangg/Collaborative-Diffusion

网页: https://ziqihuangg.github.io/projects/collaborative-diffusion.html

视频: https://www.youtube.com/watch?v=inLK4c8sNhc

我们先看看不同扩散模型合作生成图片的效果~

当text-to-image和mask-to-image通过Collaborative Diffusion合作时,生成的图片可以达到和输入的text以及mask高度一致。

给定不同的多模态输入组合,Collaborative Diffusion可以生成高质量的图片,而且图片与多模态控制条件高度一致。即便多模态输入是相对少见的组合,例如留长头发的男生,和留寸头的女生,Collaborative Diffusion依旧可以胜任。

那不同的扩散模型究竟怎样实现合作呢?

首先,我们知道,扩散模型在生成图片的过程中,会从高斯噪声开始,逐步去噪,最终得到自然图像。

图片来源:CVPR 2022 Tutorial: Denoising Diffusion-based Generative Modeling: Foundations and Applications

基于扩散模型迭代去噪的性质,我们的Collaborative Diffusion在去噪的每一步都会动态地预测不同的扩散模型如何有效合作,各取所长。Collaborative Diffusion的基本框架如下图所示。

我们在每一步去噪时,用Dynamic Diffusers动态地预测每个扩散模型对整体预测结果带来的影响(也就是Influence Functions)。Influence Functions会选择性地增强或者减少某个扩散模型的贡献,从而让各位合作者(也就是扩散模型)发挥专长,实现合作共赢。

值得注意的是,预测得到的Influence Functions在时间和空间上都是适应性变化的。下图展示了mask-to-image和text-to-image模型合作时,在不同时间和空间位置的Influence Functions强度。

从上图中我们可以观察到,在时间上,决定mask-to-image模型影响的Influence Functions在去噪初期很强(第一行左边),到后期逐渐变弱(第一行右边),这是因为扩散模型在去噪初期会首先形成图片内容的布局,到后期才会逐渐生成纹路和细节;而在多模态控制人脸生成时,图片的布局信息主要是由mask提供的,因此mask分支的Influence Functions会随着时间由强变弱。与之相对应的text-to-image模型的Influence Functions(第二行)会随着时间由弱到强,因为text提供的多数信息是与细节纹路相关的,例如胡子的浓密程度,头发颜色,以及与年龄相关的皮肤皱纹,而扩散模型的去噪过程也是在后期才会逐步确定图片的纹理以及细节。

与此同时,在空间上,mask-to-image模型的Influence在面部区域分界处更强,例如面部轮廓和头发的外边缘,因为这些地方对整体面部布局是至关重要的。text-to-image模型的Influence则在面中,尤其是脸颊和胡子所在的区域较强,因为这些区域的纹理需要text提供的年龄,胡子等信息来填充。

Collaborative Diffusion的通用性

Collaborative Diffusion是一个通用的框架,它不仅适用于图片生成,还可以让text-based editing和mask-based editing方法合作起来。我们利用在生成任务上训练的Dynamic Diffusers来预测Influence Functions,并将其直接用到editing中。话不多说我们看图~

 

完整的实验细节和实验结果,以及更多图片结果,请参考论文(https://arxiv.org/abs/2304.10530)。

总结

  1. 我们提出了Collaborative Diffusion,一种简单有效的方法来实现不同扩散模型之间的合作。
  2. 我们充分利用扩散模型的迭代去噪的性质,设计了Dynamic Diffuser来预测在时间和空间上均有适应性的Influence Functions来控制不同的扩散模型如何合作。
  3. 我们实现了高质量的多模态控制的人脸生成和编辑。
  4. Collaborative Diffusion是一个通用的框架,不仅适用于图片生成,还适用于图片编辑,以及未来更多的基于扩散模型的其他任务。

代码已开源,各位大佬走过路过不要忘记star~

https://github.com/ziqihuangg/Collaborative-Diffusion

 

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

CVPR'23|泛化到任意分割类别?FreeSeg:统一、通用的开放词汇图像分割新框架

全新YOLO模型YOLOCS来啦 | 面面俱到地改进YOLOv5的Backbone/Neck/Head

通用AI大型模型Segment Anything在医学图像分割领域的最新成果!

为何 CV 里没有出现类似 NLP 大模型的涌现现象?

可复现、自动化、低成本、高评估水平,首个自动化评估大模型的大模型PandaLM来了

实例:手写 CUDA 算子,让 Pytorch 提速 20 倍

NeRF与三维重建专栏(一)领域背景、难点与数据集介绍

异常检测专栏(三)传统的异常检测算法——上

异常检测专栏(二):评价指标及常用数据集

异常检测专栏(一)异常检测概述

BEV专栏(二)从BEVFormer看BEV流程(下篇)

BEV专栏(一)从BEVFormer深入探究BEV流程(上篇)

可见光遥感图像目标检测(三)文字场景检测之Arbitrary

可见光遥感目标检测(二)主要难点与研究方法概述

可见光遥感目标检测(一)任务概要介绍

TensorRT教程(三)TensorRT的安装教程

TensorRT教程(二)TensorRT进阶介绍

TensorRT教程(一)初次介绍TensorRT

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群

聊聊计算机视觉入门

标签:Diffusion,Collaborative,text,模型,mask,CVPR,扩散
From: https://www.cnblogs.com/wxkang/p/17422026.html

相关文章

  • 本地Stable Diffusion AI 绘画 (四)
    本地StableDiffusionAI绘画(四)前面讲过了如何把StableDiffusion本地化,自己搭建自己的本地AI绘画。0基础绘画小白,今天就给大家画一种现实美女风。今天出几张美女写真集,嘿嘿。那么我们就按照这个风格格调,来出几张类似风格的图。Lora:<lora:cuteGirlMix4_v10:1>,Embeddin......
  • 本地Stable Diffusion AI 绘画 (三)
    本地StableDiffusionAI绘画(三)前面讲过了如何把StableDiffusion本地化,自己搭建自己的本地AI绘画。0基础绘画小白,今天就给大家画一种漫画写实风。在画绘画漫画写实风之前,我们先了解一下什么是漫画写实风,简单的做一个科普:写实通常被定义为现实主义手法,不仅仅局限于画风上......
  • CVPR 2023 | 神经网络超体?新国立LV lab提出全新网络克隆技术
    前言 神经网络开发到100%会发生什么?神经网络的究极形态又是什么?何为网络超体?上述问题的答案可能可以在电影超体(Lucy)中找到。本文转载自机器之心仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息......
  • Stable Diffusion又出大招!「文生动画」震撼发布淘汰导演,DC英雄一秒变身
    前言 StabilityAI又来卷了AI视觉圈了!StableAnimation震撼发布,动画效果令人惊叹。本文转载自新智元仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV各大方向专栏与各个部署框架最全教程整......
  • Stable Diffusion 的 ControlNet 扩展
    本文介绍如何安装ControlNet扩展?和ControlNet的模型安装,同时给了两个例子。一、ControlNet扩展安装进入StableDiffusion界面,点击扩展标签,选择从URL安装,然后输入ControlNet网址(https://github.com/Mikubill/sd-webui-controlnet),粘贴到对应的地方,然后点击安装。完成......
  • 记录内网Docker启动Stable-Diffusion遇到的几个坑
    摘要:最近看到K8s启动stable-diffusion的文章,想着在自己开发环境复现一下。没想到在内网环境还遇到这么多问题,记录一下。本文分享自华为云社区《内网Docker启动Stable-Diffusion(AI作画)》,作者:tsjsdbd。最近看到K8s启动stable-diffusion的文章,想着在自己开发环境复现一下。没想到......
  • AI绘画Stable Diffusion整合包V4三分钟超快速入门!
    本次整合包升级内容StableDiffusion整合包V4下载-torch2、xformers0.0.17、cudnn8.8打开无需任何操作即可满速(包括40系显卡-升级其它各种依赖版本-预置了Tagger(图反推关键词)的模型-预置了ControlNet、MultiDiffusion插件-优化了一些其他设置整合包只是打包了运行必须的py......
  • AI生成图片工具——Stable Diffusion
    官方网站stablediffusionweb.comStableDiffusionOnline(stablediffusionweb.com)生成的图片示例提示:对英文支持友好,对中文可能不准。页面截图经过机器翻译......
  • 【换模型更简单】如何用 Serverless 一键部署 Stable Diffusion?
    作者:寒斜本篇章是阿里云函数计算部署StableDiffusion系列的第三篇,如果说第一篇是尝试使用云服务来解决用户本地部署Stable Diffusion的问题(显卡成本,部署技术复杂),第二篇是面向技术同学解决云服务Stable Diffusion的实用性问题(自定义模型,扩展),那么本篇则是以更大众的方式实现......
  • 【论文翻译-RL×Diffusion】Planning with Diffusion for Flexible Behavior Synthesi
    PlanningwithDiffusionforFlexibleBehaviorSynthesis可视化:https://diffusion-planning.github.io/SergeyLevine组的大作,中了ICML2022年的longtalk。究竟是大佬整活,还是将扩散模型用于强化学习的开山之作呢?翻译可能有问题的地方,以原文为准(狗头)。摘要基于模型的强......