首页 > 其他分享 >[Paper Reading] DALLE: Zero-Shot Text-to-Image Generation

[Paper Reading] DALLE: Zero-Shot Text-to-Image Generation

时间:2024-03-16 23:56:06浏览次数:28  
标签:Shot DALLE Generation text image dVAE 生成 图像 Inception

DALLE: Zero-Shot Text-to-Image Generation

DALLE: Zero-Shot Text-to-Image Generation
时间:21.02(与CLIP同期论文)
机构:OpenAI

TL;DR

提出一个将文本与图像作为token,利用Transformer的自回归机制来生成图像。使用大规模数据(250M图文Pair)与大模型(12B)训练,模型效果达到可与特定领域模型性能相当的泛化效果。

Method

网络

Stage1: Learning the Visual Codebook

仅使用图像模态信息,训练一个dVAE,latent特征即visual codebook。好处:将256x256图像特征降维至32x32的image tokens(每个token的embedding dim为8192),提升了低频语义信息占比,降低了计算量。

Stage2: Learning the Prior

些阶段dVAE模型是fixed,image tokens与text token concat之后输入Tensformer。
Q: prior module之后得到得是什么?是否还需要用dVAE的decoder?
A: 文章中没有明确说明,有两种可能性。
a) Transformer仅用来融合image与text tokens,不直接生成图像,图像生成最终还是使用dVAE的Decoder。

文章中说训练过程dVAE的decoder是fixed,那就说明使用了dVAE。

b) Transformer的Decoder既可以自回归图像,又可以自回归文本(文本本来输入)。

文章说transformer的Loss有两部分,一部分是cross entropy for text,另一部分是cross entropy for image,那有可能是直接逐个回归pixel。

工程

Mix-Precision Training的下溢问题(underflow)。

描述:当训练大text-image模型时,在resblock激活之后的层,梯度的真实数值可能会低于fp16最小指值。
解决:部分使用fp32(比如, resblock之后);设置customize的scale缩放阈值;

节省显存占用

将模型参数切分分布到不同卡上,真正使用时再sync过来

降低跨机平均梯度耗时

PowerSGD,大体思路是,先将梯度进行低秩压缩,跨机跨卡sync之后再解压缩平均。

Experiment

Zero-shot text-image generation其实就是给文本生图像的任务,文章中使用的都是FID与IS等图像生成的评估指标。

图像生成评估指标 IS(Inception Score)是什么? FromChatGPT(提示词:图像生成评估指标 Inception Score是什么?) Inception Score(简称IS)是一个用于评估生成对抗网络(GANs)生成图像质量的客观指标。它由Tim Salimans等人在2016年的论文《Improved Techniques for Training GANs》中提出。Inception Score主要从两个方面来评价生成图像的质量:

清晰度(Clarity):对于单个生成图像,我们希望它在某个类别上的概率非常高,而在其他类别上的概率非常低。这样,图像就会显得清晰,即它应该很容易被识别为某个特定的类别。清晰度可以通过计算生成图像的条件概率分布的熵来衡量,熵越低,表示图像越清晰。

多样性(Diversity):对于一组生成图像,我们希望这些图像能够均匀地覆盖所有可能的类别。如果生成的图像能够代表数据集中的各个类别,那么这些图像就具有较高的多样性。多样性可以通过计算生成图像类别概率分布的边缘熵来衡量,边缘熵越高,表示生成图像的类别分布越均匀。

Inception Score的计算方法涉及到使用预训练的Inception网络(如Inception-V3)作为图像分类器。具体来说,Inception网络会为输入的生成图像输出一个概率分布向量,表示图像属于ImageNet数据集中1000个类别的概率。然后,Inception Score通过对这些概率分布进行计算来评估生成图像的质量和多样性。

总结与发散

与CLIP是同期工作,CLIP是多模态latent特征对齐的方法,不能做图像生成,而本文是text-image的图像生成方法。

相关链接

DALLE: Zero-Shot Text-to-Image Generation

标签:Shot,DALLE,Generation,text,image,dVAE,生成,图像,Inception
From: https://www.cnblogs.com/fariver/p/18077908

相关文章

  • Best AI Lead Generation Software Tools 2024
    Fromhttps://www.mapleadscraper.com/blog/best-ai-lead-generation-toolsExtractEmailsFromGoogleMapsWhyAILeadGenerationSoftwareisEssentialforYourBusinessMapLeadScraperhigh-qualityleadsiscrucialforbusinessestoclosedeals,increasereve......
  • 中间代码生成(Intermediate Code Generation)
    目录在编译器设计中,将高级语言代码(如C、C++、Java等)转换为低级语言(如汇编语言或机器语言)是一个复杂的过程,其中包括对不同类型的语句进行翻译。下面我将简要解释你提到的各种语句的翻译过程:声明语句的翻译:声明语句用于定义变量、类型或函数。在翻译时,编译器会为这些实体在符......
  • Semantic Kernel 学习笔记:通过 Kernel Memory 初步体验 Retrieval Augmented Generati
    学习材料:QuickintrotoKernelMemory:install,uploadadoc,askaquestion创建控制台项目dotnetnewconsoledotnetaddpackageMicrosoft.KernelMemory.Core创建IKernelMemory实例varmemory=newKernelMemoryBuilder().WithOpenAIDefaults(OPENAI_API_KEY......
  • F. Chat Screenshots
    原题链接题解每张截图除了第一个人,其余人均按相对位置排序这道题就变成了给定若干个相对位置,求是否存在可能的绝对位置我们可以建图,作拓扑排序,一个节点能被遍历到当且仅当其所有的父节点都被遍历到当且仅当出现环时,答案为NOcode#include<bits/stdc++.h>usingnamespacest......
  • 相对次序建有向图——cf_925_F. Chat Screenshots
    目录问题概述思路分析参考代码做题反思问题概述原题参考:F.ChatScreenshots聊天室内有n个人,存在一定的顺序,但是每个人看顺序时都会把自己放到最前面,其余人的位置不变,现在给出k组长度为n的排列,问是否冲突思路分析对于k组排列,除了自己的位置未知外,其余人的相对次序都是正确的......
  • CF1931F Chat Screenshots 另一种题解
    题目链接:CF或者洛谷本题拓扑排序不再赘述,来说说字符串哈希怎么做这题。本篇以另一种角度剖析题目背景,并不追求最优,例如有些地方其实可以暴力判断,主要以构造的角度阐述,顺便感谢灵茶山的朋友的讨论。结论三个串及其以上必定能构造出最初的那个串。下面进行证明:首先一个串,显......
  • 体光伏效应和二次谐波产生的微观理论(Photogalvanic effect 、bulk photovoltaic effec
    此领域较易入门,经典文献为:1.综述:https://www.nature.com/articles/s41563-021-00992-72.Sipe大佬的论文:开创领域的两篇最经典论文,值得全部重复:https://journals.aps.org/prb/abstract/10.1103/PhysRevB.61.5337https://journals.aps.org/prb/abstract/10.1103/PhysRevB.52.146......
  • 小样本学习One-shot
    2024/1/141.什么是One-shot单样本学习(One-shotlearning)是机器学习领域的一个研究方向,重点是让模型能够仅通过一个训练样本来学习信息。什么是一个训练样本:指的是模型训练过程中只使用一个或少量例子或数据点来学习一个特定类别或任务。如果实在难以理解可以找一篇论文直接......
  • 《年代秀》Generation show
    《年代秀》是一档由深圳广播电影电视集团深圳卫视制作的全明星代际互动综艺秀,2011年-2014年引进比利时大热综艺节目《Generationshow》(《时代秀》)的模式,2016年-2017年引进印度模式节目《whoisasking》。节目由10位明星嘉宾领衔五个年代小组通过年代答题、游戏竞技等环节进行同......
  • WhisperForConditionalGeneration requires the PyTorch library but it was not
    实现WhisperForConditionalGeneration所需的PyTorch库概述在这篇文章中,我将向你解释如何实现"WhisperForConditionalGenerationrequiresthePyTorchlibrarybutitwasnotfound"这个错误。作为一名经验丰富的开发者,我将帮助你了解整个过程,并提供详细的代码解释。表格展示步......