首页 > 其他分享 >4张图片就可以微调扩散模型

4张图片就可以微调扩散模型

时间:2024-02-19 11:47:19浏览次数:31  
标签:模型 微调 生成 图像 扩散 文本 描述

稳定扩散模型因其从文本描述生成高质量、多样化图像的能力而获得了极大的关注。但是这些预训练模型在生成高度定制或个性化主题的图像时可能会有所不足。

这时就需要我们进行手动的微调。微调可以根据相对较小的图像集向模型教授新的、独特的主题。我们今天使用DreamBooth在不影响模型原始功能的情况下实现微调过程。

基础概念

1、生成模型和文本到图像的合成

生成模型是一类机器学习模型,旨在生成与给定数据集相似的新数据实例。他们捕捉潜在的数据分布,产生新的样本。

文本到图像模型是生成模型的一个子集,因为它们以极高的准确性和保真度将文本描述转换为相应的视觉表示而特别有趣。

Stable Diffusion是一种文本到图像的模型,它利用Transformer架构的一种变体来根据文本输入生成图像。

这些模型的生成过程可以描述如下:

给定一个文本描述T,模型的目标是生成一个图像I,使联合概率P(I,T)最大化。这通常是通过训练模型来最大化条件概率P(I∣T)来实现的,以确保生成的图像与文本描述一致。

2、生成模型的微调

微调是指在一个新的、通常更小的数据集上调整预训练的模型,以使模型适应特定的需求,而不会失去从原始数据集学习到的泛化性。这种方法在数据稀缺或需要定制的应用程序中至关重要。

在数学上,微调调整模型的参数θ以优化新数据集Dnew上的损失函数L,同时防止与原始参数θ origin的显著偏差。这可以被表述为一个正则化问题:

 

https://avoid.overfit.cn/post/1b02c6c3d93749558941777786b64513

标签:模型,微调,生成,图像,扩散,文本,描述
From: https://www.cnblogs.com/deephub/p/18020738

相关文章

  • Go Gin 框架的模型绑定与验证详解
    GoGin框架的模型绑定与验证详解原创 云原生Go 源自开发者 2024-02-1823:22 广东 听全文源自开发者专注于提供关于Go语言的实用教程、案例分析、最新趋势,以及云原生技术的深度解析和实践经验分享。119篇原创内容公众号在Web开发中,模型绑定和验证......
  • 如何将OSGB格式的倾斜模型转换成3DTiles?
       通过以下方法可以将OSGB转换成3DTiles。 方法/步骤1、下载三维地图浏览器http://www.geosaas.com/download/map3dbrowser.exe,安装完成后桌面上出现”三维地图浏览器“图标。 2、双击桌面图标打开”三维地图浏览器“ 3、点击“倾斜模型”下拉菜单,然后点击“OSG......
  • SciTech-BigDataAIML-Model:模型-
    自变量/解释变量:决定因变量/被解释变量的变量。因变量/被解释变量:被自变量/解释变量影响的变量。内生变量:在模型内部被决定的变量。外生变量:独立于模型的其他解释变量的解释变量,模型的其他解释变量的变化不影响该变量的变化,而我们要研究的外生变量的变化反过来会造......
  • 书生开源大模型训练营-第5讲-笔记
    1、大模型部署的背景a、大模型部署的挑战对设备的要求:存储大推理:生成token的速度、动态shape、内存管理服务:高并发下的吞吐量、单用户的响应时间b、技术方案:模型并行、量化Transfomer优化、推理优化2、LMDeploy介绍a、是在N卡上的全流程方案,包括轻量化、推理和服务,当......
  • 开年王炸 | OpenAI首个文生视频模型Sora发布,这一次短视频、影视、游戏等行业或许将被
    前言北京时间2月16日,OpenAI突然发布首个文生视频模型Sora。这一模型可以根据用户输入的提示词直接生成长达60秒的高清视频,并且包含高度细致的场景、复杂的多角度镜头,以及生动的角色表情。平地一声雷,这次依然让人惊呼“又是王炸”,AI视频要变天了。Sora是什么Sora是OpenAI发布......
  • 立体之路:解锁3D可视化模型下的交通新世界
    在科技的浪潮中,每一个革新都是对人类未来生活的深度洞察。而今,当可视化这一技术走进我们的视野,它不仅是一场视觉盛宴,更是一次对未来出行方式的全新探索。 一、从平面到立体,解锁道路新视角你是否曾站在十字路口,对着复杂的交通网络感到迷茫?传统的道路地图,虽然详尽,但总是缺乏直观......
  • Sora、Pika文生视频模型对比
    OpenAI重磅发布文生视频模型Sora,Sora在视频时长与视觉效果等方面相较于Pika、Runway等主流文生视频工具有了极大幅度的提升。具体来看,Sora生成的视频具有超长时长、世界模型、多镜头切换的三大特性:1)超长时长Sora可生成长达一分钟的高清视频,而此前Pika、Runway等模型生......
  • POLIR-Economics-Microeconomics: 经济模型{静态分析+比较静态分析+动态分析}}@<<西方
    经济理论经济理论是在对现实的经济事物的主要特征和内在联系进行概括和抽象的基础上,对现实的经济事务进行的系统描述;西方经济学家认为由于现实的经济事务是错综复杂的,所以在研究每一个经济事物时,往往要舍弃一些非基本的因素,只就经济事物的基本因素及其相互之间的......
  • 双塔模型总结
    双塔模型介绍由于进入召回/粗排的候选数目比精排多很多,召回/粗排无法做的很精排一样复杂。现在业内比较通用的方案是采用双塔模型,左边塔建模userembedding,右边塔建模itemembedding,由于用户的行为经常发生变化,usertower需要经常更新,但是item状态很少发生变化,可以离线算好所有的......
  • 文本转视频生成模型Sora浅析
    OpenAI官网Sora介绍:https://openai.com/soraOpenAI官网Sora研究:https://openai.com/research/video-generation-models-as-world-simulators北京时间2024年2月16日凌晨OpenAI正式发布了文本生成视频模型Sora原理浅析:Sora是一种扩散模型。使用Transformer架构。将视频和图......