首页 > 其他分享 >DreamBooth Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

DreamBooth Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

时间:2023-06-28 17:11:06浏览次数:57  
标签:Diffusion mathbf DreamBooth Models 模型 dog 文生 左上角

目录

Ruiz N., Li Y., Jampani V., Pritch Y., Rubinstein M. and Aberman K. DreamBooth: Fine tuning text-to-image diffusion models for subject-driven generation. arXiv preprint arXiv:2208.12242, 2022.

可控文生图.

Motivation

  • 之前的文生图模型缺乏可控性. 虽然我们可以通过特别的模型生成大差不差的图片.

  • 如上图所示, 我们可以通过 "retro style yellow alarm clock with a white clock face and a yellow number three on the right part of the clock face in the jungle" 来生成一个在丛林中和左上角相似的闹钟. 但是可以发现, 这个闹钟或多或少和左上角的闹钟有区别.

  • 有些时候, 我们希望将目标物体抠出来, 然后通过文字描述来改变它的姿态, 它的场景等等, 可以设想, 想想自己一拳就能打爆太阳的场景. 但是普通的文生图只能保证有一个人打爆了太阳系, 但是很难精准的让这个人是你.

DreamBooth

  • DreamBooth 的思想很简单, 它通过微调模型让模型记忆特定的物体, 然后你可以通过特定的 prompt 来激活这个物体.

  • 如上图所示, 对于普通的 diffusion 模型, 我们可以通过 "A dog" 来生成一只随意的狗. DreamBooth 则是希望通过 "A [V] dog" 来生成包含左上角的狗的图片. 这里 [V] 是一个符号, 你可以认为它是这只狗的独一无二的名字.

  • 当然, 为了微调, 我们需要将 V, token 化并得到它的向量表示:

    \[f(\mathbf{V}). \]

  • 其实, 一个比较简单的做法是随机选择一些符号构成 V, 比如 "xxy5sty00", 但是这种做法有可能会导致

    \[f(\mathbf{V}) \]

    和一些已有的概念有比较大的联系.

  • 所以作者特意找一些不常见的 tokens 并映射回来得到 \(\hat{\mathbf{V}}\), 最后 'inverting the vocabulary' 得到最后的符号 [V].

  • 回到上图中, 可以发现它包含两个损失:

    1. Reconstruction Loss: 它要求经过 "A [V] dog" prompt 生成的图片和左上角的图片接近;
    2. Class-Specific Prior Preservation Loss: 它首先通过原本的模型得到图片 \(\mathbf{x}_{\mathbf{pr}}\), 该图片和噪声 \(\bm{\epsilon}\) 进行融合, 以此和 "A dog" 为条件生成图 \(\mathbf{x}'\), 我们要求它和 \(\mathbf{x}_{\mathbf{pr}}\) 接近.
  • 总的损失可以表示为:

代码

[official]

标签:Diffusion,mathbf,DreamBooth,Models,模型,dog,文生,左上角
From: https://www.cnblogs.com/MTandHJ/p/17511954.html

相关文章

  • 免费体验Stable Diffusion deforum文转视频插件,还有deforum API 接口部署介绍!
    如何使用ServerlessDevs和函数计算快速体验部署StableDiffusion,这个是小白也能简单体验安装部署的教程.有电脑就能操作,依托阿里云原生服务.不用考虑硬件问题本篇主要讲解怎么安装跟部署自定义安装插件跟模型.以deforum文转视频插件举例.deforumapi接口自定义开发镜像定......
  • AI绘画关键词Prompt:分享一些质量比较高的StableDiffusion(SD)关键词网站
    今天向大家推荐一些SD(StableDiffusion)高质量的关键词网站。这些网站的质量可靠,能为大家在创建AI绘画时提供有效的参考。以下是六个推荐的网站,优缺点分析。有几个质量还算是挺高的。大家可以参考一下结合使用~网站链接:https://prompthero.com(免费)此网站的关键词质量评分......
  • Automatic quality of generated text Evaluation for Large Language Models,针对大模
    一、LLM生成结果自动化评测的技术挑战和研发背景LargeLanguageModels(LLMs)haverecentlygrownrapidlyandtheyhavethepotentialtoleadtheAItransformation.ItiscriticaltoevaluateLLMsaccuratelybecause: Highqualityrequirementsforgenerativere......
  • Stable Diffusion 常用的视角
    角度提示词可以帮助摄影师选择拍摄角度,使得拍摄出的照片更有层次感和视觉冲击力。我们用草地上的一只猫来常见的视角效果:注意:这里我们没法固定seed种子了,因为seed部分时候会固定视角,我们提示词的视角会不起作用。默认不带任何视角PromptacatonthegrassSteps:20,Sampler:E......
  • Stable Diffusion 的 CFG Scale 参数
    在图像生成过程中,CFGScale参数是一个关键因素,它控制着文本提示对生成图像的影响程度。简而言之CFGScale:参数越大,生成的图像与文本提示的相关性越高,但可能会失真。数值越小,相关性则越低,越有可能偏离提示或输入图像,但质量越好。在实际应用中,将其设置在7到11之间往往能获得最......
  • Stable Diffusion 的随机种子 seed
    seed参数允许您指定一个随机种子,将用于初始化图像生成过程。相同的种子值每次都会产生相同的图像集,这对于再现性和一致性很有用。如果将种子值保留为-1,则每次运行文本-图像特性时将生成一个随机种子。最重要的是,具有相同参数、prompt和seed将产生完全相同的图像。多亏了这一......
  • Stable Diffusion 反向提示词 Negative prompts
    反向提示词(Negativeprompts)用于描述图片中不希望出现的内容。常用于阻止生成特定的事物、样式或修复某些图像异常。下面是一些例子从“宁静的精灵森林”中移除“苔藓”宁静的精灵森林peacefulelvenforest,thickforest,largelivingtreesarevisibleinthebackground,b......
  • 云上使用 Stable Diffusion ,模型数据如何共享和存储
    随着人工智能技术的爆发,内容生成式人工智能(AIGC)成为了当下热门领域。除了ChatGPT之外,文本生成图像技术更令人惊艳。StableDiffusion,是一款开源的深度学习模型。与Midjourney提供的直接将文本转化为图像的服务不同的是它允许用户自行搭配并训练自己的图像风格,这一特性吸引了......
  • Linux安装StableDiffusion
    安装conda:https://www.xtuos.com/5532.htmlhttps://cloud.tencent.com/developer/article/2063049配置conda切换国内镜像源:https://blog.51cto.com/u_15073468/5528338condaconfig--addchannelshttp://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/condaconfig--add......
  • Stable Diffusion的发展历史
    StableDiffusion是一个基于深度学习的文本到图像模型,于2022年发布。它主要用于根据文本描述生成详细的图像,尽管它也可以应用于其他任务,如修复、绘制和生成由文本提示引导的图像到图像的翻译。它是由StabilityAI创业公司与许多学术研究人员和非营利组织合作开发的。早期发展S......