[Paper Reading] Improving Image Generation with Better Captions

时间：2024-03-20 23:46:24浏览次数：35

标签：训练 Generation text Image captioner Better DALLE3 image

DALLE3: Improving Image Generation with Better Captions

DALLE3: Improving Image Generation with Better Captions
时间：23/10
机构：OpenAI

TL;DR

本文认为text-image效果不够好的原因主要是训练集中text噪声太大，不够精确。本文展示了高描述性的text可以从本质上提升text-image任务的效果。本文没有开放DALLE3的全部训练细节，但展示了关键提升策略。

Method

captioner

利用已有训练集中的text与image信息，作者训练一个langue model作为captioner，不同于一般的LM，该captioner除了输入text之外还需要加入CLIP image embedding。这样，作者在一个小型数据集上训练了两个captioner，一个用来预测简短主题caption称为SSC(short synthetic captions)，另一个称为DSC(descriptive synthetic captions)，可以生成图像细节描述，包括环境背景等。关于如何训练captioner作者没有详细描述，感兴趣可以看一些网友的分析。

Experiment

Q: 仿真数据与真实数据混合比例对于效果的影响？
首先一个问题是，仿真数据那么好，为什么还需要和真实数据混合呢？因为在text2image这个任务上，生成效果很容易过拟合到训练text的分布上（比如，训练时所有text以空格开头，那推理时，如果没有以text开头，结果会出现异常）。最好的text分布就是人工标注的text，即Ground truth。GT缺少细节描述，仿真数据分布与人类输入text有gap，所以需要两者混合相互弥补。
结论：混入95%的DSC效果最佳（DALLE3就是这个配比训出来的）

Q: 使用训练集使用哪种caption效果更好？
结论：DSC > SSC > GT。评测时如果都不加入GT text，差距更明显。

Q: 与其它Text2image方法的效果对比。

总结与发散

OpenAI没有放出DALLE3的全部干货，不过训练集中的caption分布丰富性也确实是text2image目前核心问题之一。

资料查询

折叠Title

FromChatGPT(提示词：XXX)

标签：训练,Generation,text,Image,captioner,Better,DALLE3,image
From： https://www.cnblogs.com/fariver/p/18085065

DALLE2: Hierarchical Text-Conditional Image Generation with CLIP Latents
名称DALLE2:HierarchicalText-ConditionalImageGenerationwithCLIPLatents也叫UnCLIP时间：22.04机构：OpenAITL;DROpenAI的首篇从CLIP的imageembedding生成图像的方法，实验证明这种方法生成的图像能够保留丰富的语义与风格分布。MethodPriorPrior模块作用是给定tex......
【EDSR】《Enhanced Deep Residual Networks for Single Image Super-Resolution》
CVPRworkshops-2017code：https://github.com/limbee/NTIRE2017/tree/masterhttps://github.com/sanghyun-son/EDSR-PyTorch文章目录1BackgroundandMotivation2RelatedWork3Advantages/Contributions4Method4.1Residualblocks4.2Single-scalemodel4.3M......
论文解读：EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment A
EfficientSAM:LeveragedMaskedImagePretrainingforEfficientSegmentAnything文章汇总前提必读(本文的基础模型)：论文解读：SegmentAnything-CSDN博客问题SAM功能强大的原因是一个数据大，另一个encoder足够大足够强，但是也由于encoder足够的大所以不能做到实时分割，如Seg......
vue el-image 显示图片
一、前端图片<el-form-itemlabel="案件文件"><el-imagefit="contain"v-for="(item,index)offileList":key="index":src="item.url":preview-src-list="getImgList(index)"style="......
微信小程序：解决chooseImage:fail unknouwn scene报错
我自己用的是安卓的，在某些苹果机上正常运行，但在我一个朋友的11上就报这个错：开始以为是隐私协议的问题，我就把隐私协议打开了：但是错误依然，我就谷歌了一下，发现，这是个微信的bug。。https://developers.weixin.qq.com/community/develop/article/doc/000840f94fc390bc8d0c......
[Paper Reading] GLIDE: Towards Photorealistic Image Generation and Editing with
GLIDE:TowardsPhotorealisticImageGenerationandEditingwithText-GuidedDiffusionModelsGLIDE(GuidedLanguagetoImageDiffusionforGenerationandEditing)时间：22/03机构：OpenAITL;DR本文研究使用DiffusionModel做图像生成过程，如何更好地加入conditional信息......
猫头虎分享已解决Bug || Error: ImagePullBackOff (K8s)
博主猫头虎的技术世界......
零门槛打造个人图床：感谢Telegraph-Image
零门槛打造个人图床：感谢Telegraph-Image更好的阅读体验？幕前小话很早之前，我就用GitHub和Cloudflare搭建了自己的图床，不过没多久就发现cf自带的dev域名被墙了，于是就没再管它。直到上周，我在课上无聊时用手机随便翻了翻后台，没想到竟然又能打开了！并且后台多出了200多张网友......
imagepolicywebhook
imagePolicyWebhookimagePolicyWebhook是一个评估image的准入控制器。需要启动一个https的服务来执行该动作【功能实践】为webhook生成ssl证书生成server.csr和server-key.pemcat<<EOF|cfsslgenkey-|cfssljson-bareserver{"hosts":["image-bouncer-......
[Paper Reading] DALLE: Zero-Shot Text-to-Image Generation
DALLE:Zero-ShotText-to-ImageGenerationDALLE:Zero-ShotText-to-ImageGeneration时间：21.02（与CLIP同期论文）机构：OpenAITL;DR提出一个将文本与图像作为token，利用Transformer的自回归机制来生成图像。使用大规模数据(250M图文Pair)与大模型(12B)训练，模型效果达到可与特定......