首页 > 其他分享 >[Paper Reading] Improving Image Generation with Better Captions

[Paper Reading] Improving Image Generation with Better Captions

时间:2024-03-20 23:46:24浏览次数:35  
标签:训练 Generation text Image captioner Better DALLE3 image

DALLE3: Improving Image Generation with Better Captions

DALLE3: Improving Image Generation with Better Captions
时间:23/10
机构:OpenAI

TL;DR

本文认为text-image效果不够好的原因主要是训练集中text噪声太大,不够精确。本文展示了高描述性的text可以从本质上提升text-image任务的效果。本文没有开放DALLE3的全部训练细节,但展示了关键提升策略。

Method

captioner

利用已有训练集中的text与image信息,作者训练一个langue model作为captioner,不同于一般的LM,该captioner除了输入text之外还需要加入CLIP image embedding。这样,作者在一个小型数据集上训练了两个captioner,一个用来预测简短主题caption称为SSC(short synthetic captions),另一个称为DSC(descriptive synthetic captions),可以生成图像细节描述,包括环境背景等。关于如何训练captioner作者没有详细描述,感兴趣可以看一些网友的分析

Experiment

Q: 仿真数据与真实数据混合比例对于效果的影响?
首先一个问题是,仿真数据那么好,为什么还需要和真实数据混合呢?因为在text2image这个任务上,生成效果很容易过拟合到训练text的分布上(比如,训练时所有text以空格开头,那推理时,如果没有以text开头,结果会出现异常)。最好的text分布就是人工标注的text,即Ground truth。GT缺少细节描述,仿真数据分布与人类输入text有gap,所以需要两者混合相互弥补。
结论:混入95%的DSC效果最佳(DALLE3就是这个配比训出来的)

Q: 使用训练集使用哪种caption效果更好?
结论:DSC > SSC > GT。评测时如果都不加入GT text,差距更明显。

Q: 与其它Text2image方法的效果对比。

总结与发散

OpenAI没有放出DALLE3的全部干货,不过训练集中的caption分布丰富性也确实是text2image目前核心问题之一。

相关链接

https://blog.csdn.net/u012193416/article/details/134358194

资料查询

折叠Title FromChatGPT(提示词:XXX)

标签:训练,Generation,text,Image,captioner,Better,DALLE3,image
From: https://www.cnblogs.com/fariver/p/18085065

相关文章

  • DALLE2: Hierarchical Text-Conditional Image Generation with CLIP Latents
    名称DALLE2:HierarchicalText-ConditionalImageGenerationwithCLIPLatents也叫UnCLIP时间:22.04机构:OpenAITL;DROpenAI的首篇从CLIP的imageembedding生成图像的方法,实验证明这种方法生成的图像能够保留丰富的语义与风格分布。MethodPriorPrior模块作用是给定tex......
  • 【EDSR】《Enhanced Deep Residual Networks for Single Image Super-Resolution》
    CVPRworkshops-2017code:https://github.com/limbee/NTIRE2017/tree/masterhttps://github.com/sanghyun-son/EDSR-PyTorch文章目录1BackgroundandMotivation2RelatedWork3Advantages/Contributions4Method4.1Residualblocks4.2Single-scalemodel4.3M......
  • 论文解读:EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment A
    EfficientSAM:LeveragedMaskedImagePretrainingforEfficientSegmentAnything文章汇总前提必读(本文的基础模型):论文解读:SegmentAnything-CSDN博客问题SAM功能强大的原因是一个数据大,另一个encoder足够大足够强,但是也由于encoder足够的大所以不能做到实时分割,如Seg......
  • vue el-image 显示图片
    一、前端图片<el-form-itemlabel="案件文件"><el-imagefit="contain"v-for="(item,index)offileList":key="index":src="item.url":preview-src-list="getImgList(index)"style="......
  • 微信小程序:解决chooseImage:fail unknouwn scene报错
    我自己用的是安卓的,在某些苹果机上正常运行,但在我一个朋友的11上就报这个错: 开始以为是隐私协议的问题,我就把隐私协议打开了: 但是错误依然,我就谷歌了一下,发现,这是个微信的bug。。https://developers.weixin.qq.com/community/develop/article/doc/000840f94fc390bc8d0c......
  • [Paper Reading] GLIDE: Towards Photorealistic Image Generation and Editing with
    GLIDE:TowardsPhotorealisticImageGenerationandEditingwithText-GuidedDiffusionModelsGLIDE(GuidedLanguagetoImageDiffusionforGenerationandEditing)时间:22/03机构:OpenAITL;DR本文研究使用DiffusionModel做图像生成过程,如何更好地加入conditional信息......
  • 猫头虎分享已解决Bug || Error: ImagePullBackOff (K8s)
    博主猫头虎的技术世界......
  • 零门槛打造个人图床:感谢Telegraph-Image
    零门槛打造个人图床:感谢Telegraph-Image更好的阅读体验?幕前小话很早之前,我就用GitHub和Cloudflare搭建了自己的图床,不过没多久就发现cf自带的dev域名被墙了,于是就没再管它。直到上周,我在课上无聊时用手机随便翻了翻后台,没想到竟然又能打开了!并且后台多出了200多张网友......
  • imagepolicywebhook
    imagePolicyWebhookimagePolicyWebhook是一个评估image的准入控制器。需要启动一个https的服务来执行该动作【功能实践】为webhook生成ssl证书生成server.csr和server-key.pemcat<<EOF|cfsslgenkey-|cfssljson-bareserver{"hosts":["image-bouncer-......
  • [Paper Reading] DALLE: Zero-Shot Text-to-Image Generation
    DALLE:Zero-ShotText-to-ImageGenerationDALLE:Zero-ShotText-to-ImageGeneration时间:21.02(与CLIP同期论文)机构:OpenAITL;DR提出一个将文本与图像作为token,利用Transformer的自回归机制来生成图像。使用大规模数据(250M图文Pair)与大模型(12B)训练,模型效果达到可与特定......