首页 > 其他分享 >CoDi: Any-to-Any Generation via Composable Diffusion

CoDi: Any-to-Any Generation via Composable Diffusion

时间:2023-07-11 17:44:55浏览次数:52  
标签:Diffusion 模态 via Text Image CoDi Video Audio Any

我们介绍了一种名为可组合扩散(CoDi)的新型生成模型,能够从任意输入模态的任意组合中生成任意组合的输出模态,例如语言、图像、视频或音频。与现有的生成人工智能系统不同,CoDi能够同时生成多个模态,并且其输入不限于文本或图像等子集模态。尽管许多模态组合缺乏训练数据集,我们提出在输入和输出空间中对模态进行对齐。这使得CoDi能够自由地根据任意输入组合进行条件生成,并生成任意模态组合,即使它们在训练数据中不存在。CoDi采用一种新颖的可组合生成策略,通过在扩散过程中建立共享的多模态空间,实现模态的同步生成,例如时间对齐的视频和音频。高度可定制和灵活的CoDi实现了强大的联合模态生成质量,并且在单模态合成方面优于或与最先进的单模态技术持平。

CoDi: Any-to-Any Generation via Composable Diffusion

Zineng Tang1*Ziyi Yang2†Chenguang Zhu2Michael Zeng2Mohit Bansal1† 1University of North Carolina at Chapel Hill, 2Microsoft Azure Cognitive Services Research * Work done at Microsoft internship and UNC. Corresponding Authors Paper Code Demo Video  

Abstract

We present Composable Diffusion (CoDi), a novel generative model capable of generating any combination of output modalities, such as language, image, video, or audio, from any combination of input modalities. Unlike existing generative AI systems, CoDi can generate multiple modalities in parallel and its input is not limited to a subset of modalities like text or image. Despite the absence of training datasets for many combinations of modalities, we propose to align modalities in both the input and output space. This allows CoDi to freely condition on any input combination and generate any group of modalities, even if they are not present in the training data. CoDi employs a novel composable generation strategy which involves building a shared multimodal space by bridging alignment in the diffusion process, enabling the synchronized generation of intertwined modalities, such as temporally aligned video and audio. Highly customizable and flexible, CoDi achieves strong joint-modality generation quality, and outperforms or is on par with the unimodal state-of-the-art for single-modality synthesis.

Model Architecture

Composable diffusion uses a multi-stage training scheme to be able to train on only a linear number of tasks but inference on all combinations of input and output modalities.

Multi-Outputs Joint Generation

Model takes in single or multiple prompts including video, image, text, or audio to generate multiple aligned outputs like video with accompanying sound.


Text + Image + Audio → Video + Audio

"Teddy bear on a skateboard, 4k, high resolution"

1.0

Text + Audio + Image → Text + Image

"Teddy bear on a skateboard, 4k, high resolution"

 

"A toy on the street sitting on a board"


Audio + Image → Text + Image


"Playing piano in a forest."


Text + Image → Text + Image

"Cyberpunk vibe."

"Cyberpunk, city, movie scene, retro ambience."


Text → Video + Audio

"Fireworks in the sky."

1.00

Text → Video + Audio

"Dive in coral reef."

1.00

Text → Video + Audio

"Train coming into station."

1.00

Text → Text + Audio + Image

"Sea shore sound ambience."

"Wave crashes the shore, sea gulls." 


Text → Text + Audio + Image

"Street ambience."

"Noisy street, cars, traffics.."

 

Multiple Conditioning

Model takes in multiple inputs including video, image, text, or audio to generate outputs.


Text + Audio → Image

"Oil painting, cosmic horror painting, elegant intricate artstation concept art by craig mullins detailed"

 

Text + Image → Image

"Gently flowers in a vase, still life, by Albert Williams"


Text + Audio → Video

"Forward moving camera view."


Text + Image → Video

"Red gorgonian and tropical fish."


Text + Image → Video

"Eating on a coffee table."


Video + Audio → Text

1.00

"Panda eating bamboo, people laughing."


Image + Audio → Audio

 

Text + Image → Audio

"Horn, blow whistle"

 

Single-to-Single Generation

Model takes in a single prompt including video, image, text, or audio to generate a single output.


Text → Image

"Concept art by sylvain sarrailh of a haunted japan temple in a forest"


Audio → Image

 

Image → Video


Image → Audio

 

Audio → Text

 

"A magical sound, game."


Image → Text

"Mountain view, sunset."


BibTeX

article{tang2023anytoany,
	title={Any-to-Any Generation via Composable Diffusion}, 
	author={Zineng Tang and Ziyi Yang and Chenguang Zhu and Michael Zeng and Mohit Bansal},
	year={2023},
	eprint={2305.11846},
	archivePrefix={arXiv},
	primaryClass={cs.CV}
}

标签:Diffusion,模态,via,Text,Image,CoDi,Video,Audio,Any
From: https://www.cnblogs.com/sddai/p/17545478.html

相关文章

  • 实例分享| anyRTC 部署安徽某市应急实战指挥平台
    在当前的社会环境下,应对各种突发事件和危机管理是各级政府和企事业单位的重要职责,为了提高应急指挥的效率和效果,充分利用现代信息技术为突发事件的应急处理服务是当前的大趋势,整合相关资源,应对各种自然灾害等突发紧急事件,第一时间应对突发紧急事件、实现快速反应、减少损失的目标......
  • 实例分享| anyRTC 部署安徽某市应急实战指挥平台
    在当前的社会环境下,应对各种突发事件和危机管理是各级政府和企事业单位的重要职责,为了提高应急指挥的效率和效果,充分利用现代信息技术为突发事件的应急处理服务是当前的大趋势,整合相关资源,应对各种自然灾害等突发紧急事件,第一时间应对突发紧急事件、实现快速反应、减少损失的目标。......
  • 解决启动dpdk时,报"VFIO group is not viable! Not all device in IOMMU group bound t
       问题如下图:    这个错误信息其实是linux内核的vfio驱动报出来的,主要原因是"在iommu分组中,不是所有的设备都被绑定到vfio驱动".所以,解决方案核心思想:将要使用的设备独立到一个iommu分组中。         步骤1:通过以下"list_iommu_group.sh"可以看......
  • AI绘画:StableDiffusion炼丹Lora攻略-实战萌宠图片生成
    写在前面的话近期在小红书发现了许多极其可爱、美观的萌宠图片,对这些美妙的图像深深着迷于是想着看看利用AI绘画StableDiffusion以下简称(SD)做出来。以下是详细实操的全过程,包括所有用的资料已经打包到网盘。最后尝试的最终效果如下:更多图片请查看网盘:「萌宠图片及关键词」......
  • AI绘画:StableDiffusion制作AI赛博机车图保姆级教程
    本教程收集于:AIGC从入门到精通教程汇总如果你具备StableDiffusion的基础知识,那制作AI赛博机车图会更为顺畅。即便没有这个基础,只要严格按照教程的步骤执行,也能成功制作出来。本教程的重点是指导操作过程,而不会深入解析StableDiffusion的各项功能原理。如果想详细学习SD基础可......
  • Codeforces Round 882 (Div. 2) C. Vampiric Powers, anyone?
    由题目观察可得,a[m+1]=a[i]^...a[m],,结合异或的性质a^b^a=b,可得如果在末尾添加一个a[m+1],a[m+1]会和末尾几个抵消掉,求得i~k这一段的异或和,k<m,因此通过该操作实际上我就可以求得所有长度连续区间的异或和,求其最大值,n=1e5+10,如果暴力求解肯定会超时,我们观察发现a[i]的范围为0~2^8......
  • Stable_Diffusion_提示词位置
    重点:提示词位置不一样,效果不一样在网上学习StableDiffusion时,发现有作者提出了这一点,并且做了实验,为了验证效果,加深理解,特此重新实验一遍。SD官方提到過提示詞不僅可以使用權重來調整圖片的結果,甚至連不同的順序都會有不一樣的效果!至於效果差多少,有時候可以差很多。我心血來......
  • AI 绘画| Stable Diffusion 最新版安装包,包含 WIN/MAC 版!
    StableDiffusion大概是时下最流行的两个项目之一,另外一个就是大名鼎鼎的ChatGPT,AI绘图现在已经是非常成熟,相信很多做设计的朋友都知道StableDiffusion,只需要描述一段文字,它就能帮你生成一张图片。今天给大家分享最新版的StableDiffusion安装包,对于想要入门折腾StableD......
  • 使用Stable Diffusion生成艺术二维码
    在数字艺术的世界中,二维码已经从单纯的信息承载工具转变为可以展示艺术表达的媒介。这是通过使用StableDiffusion的技术实现的,它可以将任何二维码转化为独特的艺术作品。接下来,我们将一步步教你如何使用StableDiffusion生成艺术二维码。需要的工具你需要一款名为AUTOMATIC1111......
  • 古风修仙美少女-InsCode Stable Diffusion 美图活动一期
    StableDiffusion模型在线使用地址:https://inscode.csdn.net/@inscode/Stable-Diffusion点我直接前往大家直接点击上面链接就是,如果自己主页打开,还容易找不到这个模型哦一.基本介绍1.背景介绍InsCode是一个集成了在线IDE、在线AI编程、在线大模型训练以及SD模型使用的综......