首页 > 其他分享 >GPT-4生图未解禁?CMU华人博士新作,大模型GILL能生图能检索,人人可玩

GPT-4生图未解禁?CMU华人博士新作,大模型GILL能生图能检索,人人可玩

时间:2023-11-10 13:02:29浏览次数:50  
标签:GILL 生图 检索 图能 模型 生成 图像 文本


GPT-4生图未解禁?CMU华人博士新作,大模型GILL能生图能检索,人人可玩_相似度

来源 | 新智源  ID | AI-era

GPT-4多模态能力恐怕是要再等等了。

近日,来自CMU的研究人员全新提出了一种多模态模型GILL。

GPT-4生图未解禁?CMU华人博士新作,大模型GILL能生图能检索,人人可玩_相似度_02

论文地址:https://arxiv.org/pdf/2305.17216.pdf

它可以将文本或图像作为prompt,完成多模态对话。具体来说,可以实现生成文本、检索图像、生成新图像。

GPT-4生图未解禁?CMU华人博士新作,大模型GILL能生图能检索,人人可玩_模态_03

甚至,GILL还能从预先指定的数据集中进行图像检索,并在推理时决定是检索还是生成。

值得一提的是,通过嵌入空间之间的映射,CMU团队将冻结的大模型,与预训练的文生图模型相结合。

这样一来,GILL就能够实现广泛的应用,并且在多个文本到图像任务中优于基于Stable Diffusion等生成模型。

先来看一波演示。

演示

GILL能够将LLM预训练和冻结能力推广到许多不同任务中。具体包括:

GPT-4生图未解禁?CMU华人博士新作,大模型GILL能生图能检索,人人可玩_深度学习_04

https://huggingface.co/spaces/jykoh/gill

多模态对话生成

你可以提示GILL生成类似对话的文本,可以做到图像检索、图像生成,甚至多模态对话。

比如,你可以问它如何做拉面更有营养?GILL给出了加入蔬菜的建议。

我想要一款纹身。GILL瞬间就给你生成了符合要求的图案。

如何在市场上宣传这些蛋糕?GILL建议用一个简单的标牌,上面附上企业名称和小蛋糕的图片。

GPT-4生图未解禁?CMU华人博士新作,大模型GILL能生图能检索,人人可玩_深度学习_05

从视觉故事生成图像

另外,GILL还可以根据交错的图像和文本输入来生成更相关的图像。

GPT-4生图未解禁?CMU华人博士新作,大模型GILL能生图能检索,人人可玩_人工智能_06

多模态大模型GILL

GILL的全称是:Generating Images with Large Language Models,即用大型语言模型生成图像。

它能够处理任意交错的图像和文本输入,以生成文本、检索图像,和生成新图像。

GPT-4生图未解禁?CMU华人博士新作,大模型GILL能生图能检索,人人可玩_相似度

GILL模型架构概览。通过描述损失进行训练,以学习处理图像(左),并通过图像检索和图像生成损失进行训练,以学习生成图像(右)

研究表明,尽管2种模型使用完全不同的文本编码器,但可以有效地将冻结的纯文本LLM的输出嵌入空间,映射到冻结文本-图像生成模型,即Stable Diffusion的嵌入空间。

与其他需要交错图像-文本训练数据的方法相比,研究人员通过微调图像-描述对上的少量参数来实现这一点。

这个方法计算高效,并且不需要在训练时运行图像生成模型。

GPT-4生图未解禁?CMU华人博士新作,大模型GILL能生图能检索,人人可玩_计算机视觉_08

GILL的推理时间过程。该模型接受图像和文本输入,并生成与图像嵌入交错的文本。在决定是否检索或生成特定的token集后,并返回适当的图像输出

在推理过程中,模型接受任意交错的图像和文本输入,并产生与图像嵌入交错的文本。在决定是检索还是生成一组特定的标记后,它返回适当的图像输出(检索或生成)

在推理过程中,该模型接收任意交错的图像和文本输入,并生成交错图像嵌入的文本。在决定是检索还是生成一组特定的标记后,它会返回相应的图像输出(检索或生成)。

实验结果

上下文图像生成

为了测试模型在全新图像生成的基线方法的能力,研究人员在VIST和VisDial数据集上进行了实验。

这些数据集与之前的研究中使用的数据集相同,用于对多模态文本和图像上下文条件下的图像检索进行基准测试。

GILL模型组合了多模态信息以产生相关的图像和文本输出,性能优于仅限于图像检索的基线模型。

GPT-4生图未解禁?CMU华人博士新作,大模型GILL能生图能检索,人人可玩_相似度_09

评估指标

评估的重点是生成模型处理复杂语言描述的能力。因此,研究人员计算了衡量生成图像内容相关性的指标。

这里,有2个指标来评估模型:

1. CLIP相似度:使用CLIP ViT-L图像编码器来生成生成图像和相应真实图像的合并表示,并得出它们的余弦相似度。分数越高表示生成的图像与真实图像越相似。

2.学习感知图像块相似度(LPIPS):LPIPS评估图像块之间的距离。测量真实图像和生成图像之间的LPIPS。较低的值表示2个图像在感知空间中更接近,而较高的值表示2个图像更不相似。

从视觉故事生成

VIST是一个用于顺序视觉和语言任务的数据集,其中包含构成故事的5个图像和文本序列的示例。

评估结果显示,将GILL与文本到图像生成基线进行比较。

当2个模型都输入一个故事描述时,性能相当,SD获得了比较好的CLIP相似度得分,并且两个模型获得了相似的 LPIPS。

然而,当所有5个故事描述都作为输入提供时,GILL优于SD,将CLIP相似度从0.598提高到0.612,将LPIPS从0.704 提高到0.6。

有趣的是,当进一步提供完整的多模态上下文时,GILL得到了显着改进,获得了0.641的CLIP相似度和0.3的LPIPS。

GPT-4生图未解禁?CMU华人博士新作,大模型GILL能生图能检索,人人可玩_相似度_10

从视觉对话生成

研究人员还在VisDial数据集上测试了模型。

与VIST类似,评估模型准确合成所描述图像的能力,并提供越来越多的问答对话上下文作为输入。

评估结果显示,输入长度较短时,SD优于GILL。

然而,当输入上下文增加时,GILL逐渐改进,并且可以合成与真实图像更相似的图像。

当提供完整的10轮对话时,GILL的性能显着优于SD,比CLIP相似度(0.622-0.645)和LPIPS(0.723-0.714)都有所提高。

这些结果,进一步凸显了GILL在处理类似对话的长文本输入方面的有效性。

GPT-4生图未解禁?CMU华人博士新作,大模型GILL能生图能检索,人人可玩_人工智能_11

研究人员还引入了GILLMapper模块,允许模型有效地映射到Stable Diffusion图像生成骨干网,在PartiPrompts的许多示例中优于或匹配SD。

GPT-4生图未解禁?CMU华人博士新作,大模型GILL能生图能检索,人人可玩_深度学习_12

GILLMapper模型架构以隐藏的 [IMG] 表示和学习的查询嵌入向量序列为条件。

GPT-4生图未解禁?CMU华人博士新作,大模型GILL能生图能检索,人人可玩_模态_13

局限性

虽然GILL引入了许多令人兴奋的功能,但它是一个早期的研究原型,有几个局限性。

- GILL的许多功能依赖于LLM主架构。因此,它也继承了LLM典型的许多问题:

- GILL并不总是在提示时产生图像,或者当它对对话有用时。

- GILL的局限性在于它有限的视觉处理。目前,研究只使用4个视觉向量来表示每个输入图像(由于计算限制),这可能无法捕获下游任务所需的所有相关视觉信息。

- GILL继承了LLM的一些意外行为,例如潜在的幻觉,它生成的内容是错误的,或者与输入数据无关。它有时还会生成重复的文本,并且并不总是生成连贯的对话文本。

作者介绍

Jing Yu Koh

Jing Yu Koh是CMU机器学习系的二年级博士生,导师是Daniel Fried和Ruslan Salakhutdinov。

目前,他主要的研究方向是基础语言理解。

丹尼尔·弗里德和鲁斯兰·萨拉库蒂诺夫为我提供建议。我致力于基础语言理解,通常是在视觉和语言问题的背景下。

在此之前,他是谷歌研究中心的一名研究工程师,在那里研究视觉和语言问题以及生成模型。

GPT-4生图未解禁?CMU华人博士新作,大模型GILL能生图能检索,人人可玩_模态_14

参考资料:

https://www.cxs.cmu.edu/news/2023/gill

https://jykoh.com/gill


标签:GILL,生图,检索,图能,模型,生成,图像,文本
From: https://blog.51cto.com/u_13046751/8296228

相关文章

  • 大连理工大学——延期博士、结业博士——毕业生图像采集——拍摄毕业生图像总结
    由于种种原因,导致在校期间一直没有参加拍摄毕业生图像,离校后想着总是要弄个结业证回来的,于是就研究起来这个“毕业生图像采集”的事情来。 由于是离校生,所以没法参加学校组织的统一拍照,不过也给出了一条线上的个人拍摄的途径,下面给出操作步骤。  总的来说,分为两步,第一步是......
  • Generative AI 新世界 | 文生图领域动手实践:预训练模型的微调
    在上期文章,我们探讨了预训练模型的部署和推理,包括运行环境准备、角色权限配置、支持的主要推理参数、图像的压缩输出、提示工程(PromptEngineering)、反向提示(NegativePrompting)等内容。亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案......
  • 在 SDXL 上用 T2I-Adapter 实现高效可控的文生图
    T2I-Adapter是一种高效的即插即用模型,其能对冻结的预训练大型文生图模型提供额外引导。T2I-Adapter将T2I模型中的内部知识与外部控制信号结合起来。我们可以根据不同的情况训练各种适配器,实现丰富的控制和编辑效果。同期的ControlNet也有类似的功能且已有广泛的应用。然......
  • 园子的商业化努力-阿里云开发者社区合作:AI入门必修,9分钟搭建文生图应用
    这是阿里云开发社区在园子里推广的一个活动,欢迎感兴趣的园友参与!活动链接:https://click.aliyun.com/m/1000377296/活动主题:领取NAS和PAI-EAS试用资源,分享你的AIGC创作心得活动时间:2023/7/17-2023/8/13活动玩法:Step1:免费领取文件存储NAS、模型在线服务PAI-EAS两款云产品免费......
  • Stable Diffusion修复老照片-图生图
    修复老照片的意义就不多说了,相信大家都明白,这里直接开讲方法。1、原理这个方法需要一个真实模型,以便让修复的照片看起来比较真实,我这里选择:realisticVisionV20,大家有更好的给我推荐哦。还需用搭配两个特殊设置:ControlNetTile:这是一个ControlNet模型,用于放大和补充细节。在......
  • 道德与社会问题简报 #4: 文生图模型中的偏见
    简而言之:我们需要更好的方法来评估文生图模型中的偏见介绍文本到图像(TTI)生成现在非常流行,成千上万的TTI模型被上传到HuggingFaceHub。每种模态都可能受到不同来源的偏见影响,这就引出了一个问题:我们如何发现这些模型中的偏见?在当前的博客文章中,我们分享了我们对TT......
  • 探秘高逼格艺术二维码的制作过程-AI绘画文生图
    前几天看到几个逼格比较高的二维码,然后自己动手做了一下,给大家看看效果:1、文生图(狮子):2、文生图(城市): 下边将开始介绍怎么做的,有兴趣的可以继续读一读。这里使用的AI绘图工具是StableDiffusion,没有的同学需要去部署一个,计算平台国内建议使用AutoDL,国外可以白嫖Kaggle的......
  • Generative AI 新世界 | 走进文生图(Text-to-Image)领域
    在之前的四篇“GenerativeAI新世界”中,我们带领大家一起探索了生成式AI(GenerativeAI),以及大型语言模型(LLMs)的全新世界概览。并在文本生成(TextGeneration)领域做了一些概述、相关论文解读、以及在亚马逊云科技的落地实践和动手实验。亚马逊云科技开发者社区为开发者们提供......
  • Midjourney|文心一格 Prompt:完整参数列表、风格汇总、文生图词典合集
    Midjourney|文心一格Prompt:完整参数列表、风格汇总、文生图词典合集1.Midjourney完整参数列表参数名称调用方法使用案例注意事项V5V4V3niji版本在关键词后加空格,然后带上版本参数:--v或者—v--version或者—versionvibrantcaliforniapoppies--v5......
  • 非AI文生图,献丑了
    多图预警!大家好,我是DOM哥也许你会好奇上面的这几张图片是怎么生成的,接下来我就开始隆重介绍这款文生图工具当然,并非AI的那个文生图啦预览地址:https://dombro.site/tools#/text-image非常简洁的界面啊!左边是预览区,右边是配置区图片模式呢,是能把一张图片变成由文字组......