首页 > 其他分享 >【可控图像生成系列论文(一)】MimicBrush 港大、阿里、蚂蚁集团合作论文解读

【可控图像生成系列论文(一)】MimicBrush 港大、阿里、蚂蚁集团合作论文解读

时间:2024-06-19 20:30:53浏览次数:10  
标签:参考 港大 论文 编辑 区域 图像 Net MimicBrush

在这里插入图片描述
背景:考虑到用户的不同需求,图像编辑是一项实用而富有挑战性的任务,其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。

创新点:在本文作者提出了一种新的编辑形式,称为模仿编辑,以帮助用户更方便地发挥他们的创造力。

  • 具体地说,为了编辑感兴趣的图像区域,用户可以自由地直接从一些野生参考中获得灵感(例如,一些在线的相对图片),而不必处理参考和来源之间的匹配问题。
  • 这样的设计要求系统自动地从参考中找出期望执行编辑的内容。
  • 为此,作者提出了一种称为 MimicBrush 的生成训练框架,该框架从视频剪辑中随机选择两个帧,屏蔽一个帧的一些区域,并使用另一帧的信息学习恢复屏蔽的区域。
  • 这样,该模型从扩散模型的先验知识发展而来,能够以自我监督的方式捕捉单独图像之间的语义对应关系。

结论:作者通过实验证明了该的方法在各种测试用例下的有效性,以及它相对于现有替代方案的优越性。作者还构建了一个基准,以便于进一步研究。

与前人工作的区别

在这里插入图片描述
如图2所示:不同管道的概念比较。要编辑局部区域,除了获取源图像和源掩码(指示要编辑的区域)外,

  • 修复(Inpainting)模型还使用文本提示来指导生成。
  • 图像合成(Composition)方法采用参考图像和掩模/框来裁剪出特定的参考区域。
  • 不同的是,本方法只是需要一张参考图像,参考区域由模型本身自动发现。

具体方法

为了实现模仿编辑,作者设计了一个名为 MimicBrush 的框架,它使用双扩散 UNet 来处理源图像和参考图像

更具体地说,作者以自监督的方式训练它,从视频中随机取两个帧来模拟源图像和参考图像。由于视频帧同时包含语义对应和视觉变化,MimicBrush 学习自动发现参考区域并将其重新绘制到源图像中,并与其周围环境自然融合。

在 MimicBrush 中,作者将带 Mask 的源图像送入 Imitative U-Net,将参考图送入 Reference U-Net。然后 将Reference U-Net 的注意力键和值注入到 Imitative U-Net 中,这有助于重建 Mask 区域。如图 1 所示,MimicBrush 克服了源图像和参考图像在不同姿势、光照甚至类别上的差异。生成区域高度保留了参考图像中视觉概念的细节,并与背景和谐互动。
在这里插入图片描述
图3 所示:MimicBrush 的训练过程。

  • 首先,作者从视频序列中随机抽取两帧作为参考图像和源图像。
  • 然后对源图像进行掩蔽 Mask ,并对源图像进行数据增强。
  • 然后,再将源图像的噪声图像潜像、掩模、背景潜像和深度潜像输入到 Imitative U-Net中。
  • 参考图像也被增强并发送到 Reference U-Net。
  • 训练双U-Nets以恢复源图像的掩蔽区域。
  • 其中,Reference U-Net的注意力键和值(Key、Query)与 Imitative U-Net连接,以帮助合成掩蔽区域。

任务定义和评估标准

在这里插入图片描述
图4展示了本文的基准示例。它涵盖了部分合成 Part Composition(第一行)和纹理迁移 Texture Transfer(第二行)的任务。每个任务都包括一个内部ID和内部ID track。在示例图像旁边示出了每个 track 的注释数据和评估度量。

标签:参考,港大,论文,编辑,区域,图像,Net,MimicBrush
From: https://blog.csdn.net/weixin_44212848/article/details/139664567

相关文章

  • GLORY论文阅读笔记
    GoingBeyondLocal:GlobalGraph-EnhancedPersonalizedNewsRecommendations论文阅读笔记Abstract现存的问题:​ 近期的大多数工作主要侧重于使用先进的自然语言处理技术从丰富的文本数据中提取语义信息,并采用基于内容的方法从局部历史新闻中提取信息。然而,这种方法缺乏全局......
  • GSVA: Generalized Segmentation via Multimodal Large Language Models论文阅读笔记
    Motivation&AbsGeneralizedReferringExpressionSegmentation(GRES):相比于原始的RES任务,一个文本描述里可能出现多个需要分割的物体,或者没有需要分割的物体,难点在于建模不同实体之间复杂的空间关系,以及识别不存在的描述。现有的方法如LISA难以处理GRES任务,为此作者提出了GSV......
  • 基于Java Web的“大学生艺术节”管理系统的设计与实现论文
    目录第1章绪论11.1课题背景11.2课题意义11.3研究内容2第2章开发环境与技术32.1MYSQL数据库32.2JSP技术32.3SSM框架4第3章系统分析53.1可行性分析53.1.1技术可行性53.1.2经济可行性53.1.3操作可行性53.2系统流程63.2.1操作流程......
  • 基于html5的演唱会购票系统的设计与实现论文
    目录基于html5的演唱会购票系统的设计与实现11系统概述11.1研究背景11.2研究目的11.3系统设计思想12相关技术32.1MYSQL数据库32.2B/S结构32.3SSM框架简介42.5HTML5简介63系统分析63.1可行性分析63.1.1技术可行性73.1.2经济可行性73.1.3操......
  • 最新区块链论文速读--CCF C会议 ICPADS 2023 共28篇 附pdf下载 (3/4)
    Conference:InternationalConferenceonParallelandDistributedSystems(ICPADS)CCFlevel:CCFCCategories:ComputerArchitecture/ParallelandDistributedComputing/StorageSystemsYear:2023Num:28第1~7篇区块链文章请点击此处查看第8~14篇区块链文章请点击......
  • 论文阅读:Corrective Retrieval Augmented Generation
    CorrectiveRetrievalAugmentedGeneration(https://arxiv.org/pdf/2401.15884.pdf)https://github.com/jiangnanboy/paper_read_note一.序言RAG即检索增强生成(retrievalaugmentedgeneration),当检索到不准确的数据时,会产生对模型的生成干扰。CorrectiveRetrievalAugme......
  • 论文阅读:T-RAG: LESSONS FROM THE LLM TRENCHES
    T-RAG:LESSONSFROMTHELLMTRENCHES(https://arxiv.org/abs/2402.07483)https://github.com/jiangnanboy/paper_read_note一.概述大型语言模型(llm)越来越多地应用于各个领域,包括对私有企业文档的问答,其中数据安全性和鲁棒性至关重要。检索增强生成(retrieve-augmented......
  • 论文阅读:UniMS-RAG: Unified Multi-Source RAG for Personalised Dialogue
    UniMS-RAG:UnifiedMulti-SourceRAGforPersonalisedDialogue(https://arxiv.org/abs/2401.13256)https://github.com/jiangnanboy/paper_read_note一.概述本研究探讨如何分解RAG过程,加入多文件检索、记忆和个人信息等元素。大型语言模型(llm)在自然语言任务中表现出色,但......
  • 论文阅读:Improved Graph Contrastive Learning for Short Text Classification
    LiuY,HuangL,GiunchigliaF,etal.Improvedgraphcontrastivelearningforshorttextclassification[C]//ProceedingsoftheAAAIConferenceonArtificialIntelligence.2024,38(17):18716-18724.GIFT模型的github网址整体框架图首先,构建一个由Gw、Ge和Gp三......
  • [论文阅读] BBDM@ Image-to-Image Translation With Brownian Bridge Diffusion Model
    Pretitle:BBDM:Image-to-ImageTranslationWithBrownianBridgeDiffusionModelssource:CVPR2023paper:https://arxiv.org/abs/2205.07680code:https://github.com/xuekt98/BBDM关键词:I2I,BrownianBridge,Diffusion阅读理由:挺新奇的MotivationGAN-based......