首页 > 其他分享 >【FLUX教程】OminiControl:一个新的FLUX通用控制模型,单个模型实现图像主题控制和深度控制。

【FLUX教程】OminiControl:一个新的FLUX通用控制模型,单个模型实现图像主题控制和深度控制。

时间:2025-01-21 09:57:30浏览次数:3  
标签:控制 OminiControl AI 模型 生成 unsetunset FLUX 图像

OminiControl 也开源了其可控生成模型。OminiControl 是一个最小但功能强大的FLUX通用控制框架,可以一个模型实现图像主题控制和深度控制。比如一个提示词加一个服装图片就能让生成的人物穿上服装。或者实现将图片中的物品放到生成图片的指定位置。 主要有以下特点:

  • 通用控制:支持主题驱动控制和空间控制(例如边缘引导和绘画生成)的统一控制框架。

  • 极简设计:在保留原始模型结构的同时注入控制信号。仅向基础模型引入 0.1% 的额外参数。

unsetunset相关链接unsetunset

论文:https://arxiv.org/pdf/2411.15098

模型:

试用:

unsetunset论文阅读unsetunset

unsetunset摘要unsetunset

本文介绍了 OminiControl,这是一个高度通用且参数高效的框架,它将图像条件集成到预先训练的扩散变换器 (DiT) 模型中。OminiControl 的核心是利用参数重用机制,使 DiT 能够使用自身作为强大的主干对图像条件进行编码,并使用其灵活的多模态注意处理器对其进行处理。与现有方法不同,这些方法严重依赖具有复杂架构的附加编码器模块,OminiControl有以下特点:

  1. 有效且高效地结合了注入的图像条件,仅需 0.1% 的附加参数。

  2. 以统一的方式处理广泛的图像调节任务,包括主题驱动生成和空间对齐条件,例如边缘、深度等。

这些功能是通过对 DiT 本身生成的图像进行训练来实现的,这对主题驱动生成特别有益。广泛的评估表明,OminiControl 在主题驱动和空间对齐条件生成方面均优于现有的基于 UNet 和 DiT 的模型。此外,论文还发布了训练数据集 Subjects200K,这是一个包含超过 200,000 张身份一致图像的多样化集合,以及一条高效的数据合成管道,以推进主题一致生成的研究。

unsetunset方法unsetunset

**扩散变压器 (DiT) 架构和图像调节的集成方法概述。**OminiControl利用了一个参数复用机制,使DiT能够使用自身作为强大的后端来编码图像条件,并通过其灵活的多模态注意力处理器处理这些条件。与现有依赖于具有复杂架构的额外编码模块的方法不同,OminiControl以仅0.1%的额外参数有效且高效地整合了注入的图像条件,并以统一的方式解决了包括主题驱动生成和空间对齐条件(如边缘、深度等)在内的广泛图像条件控制生成任务。两种方法整合图像条件的结果比较。与直接添加相比,多模态方法表现出更好的条件跟踪效果。

来自Subjects200K 数据集的示例。每对图像显示同一物体在不同位置、角度和光照条件下的状态。该数据集包括各种物体,例如衣服、家具、车辆和动物,共计超过 200,000张图像。该数据集以及生成管道将公开发布。

unsetunset结果unsetunset

主题驱动生成

文字提示
  • 提示 1:此物品的近距离视图。它放在一张木桌上。背景是一个黑暗的房间,电视开着,屏幕上正在播放烹饪节目。屏幕上的文字写着“Omini Control!”。

  • 提示 2:电影风格的镜头。在月球上,这个物品驶过月球表面。上面有一面旗帜,上面写着“Omini”。背景是地球在前景中若隐若现。

  • 提示3:在一个包豪斯风格的房间里,这件物品被放置在一张闪亮的玻璃桌上,旁边放着一瓶鲜花。在午后的阳光下,百叶窗的阴影投射在墙上。

  • 提示 4:“在海滩上,一位女士坐在一把写着‘Omini’的沙滩伞下。她穿着这件衬衫,脸上挂着灿烂的笑容,身后背着冲浪板。背景是夕阳西下。天空呈现出美丽的橙色和紫色。”

试穿效果

场景变化

Dreambooth数据集

空间对齐控制

图像修复(左:原始图像;中:蒙版图像;右:填充图像)

  • 提示:蒙娜丽莎戴着一个白色的 VR 耳机,上面写着“Omini”。

  • 提示:一本黄色的书,封面上用大号字体写着“OMINI”。底部写着“for FLUX”的字样。

unsetunset限制unsetunset

  • 由于训练中缺乏人类数据,该模型的主体驱动生成主要针对物体而不是人类主体。

  • 主题驱动的生成模型可能不太适合FLUX.1-dev。

  • 发布的型号目前仅支持512x512的分辨率。

unsetunset待办事项unsetunset

  • 发布更高分辨率(1024x1024)的模型。

  • 发布训练代码。

unsetunset结论unsetunset

OminiControl 使用统一的 token 方法,为跨不同任务的 Diffusion Transformers 提供参数高效的图像调节控制,无需额外的模块。该方法优于传统方法,而新的 Subjects200K 数据集(包含超过 200,000 张高质量、主题一致的图像)支持主题一致生成的进步。结果证实了 OminiControl 在扩散模型中的可扩展性和有效性。

关于AI绘画技术储备

学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!

对于0基础小白入门:

如果你是零基础小白,想快速入门AI绘画是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案

包括:stable diffusion安装包、stable diffusion0基础入门全套PDF,视频学习教程。带你从零基础系统性的学好AI绘画!

零基础AI绘画学习资源介绍

标签:控制,OminiControl,AI,模型,生成,unsetunset,FLUX,图像
From: https://blog.csdn.net/m0_56144365/article/details/145266493

相关文章

  • 【PyTorch】使用回调和日志记录来监控模型训练
    就像船长依赖仪器来保持航向一样,数据科学家需要回调和日志记录系统来监控和指导他们在PyTorch中的模型训练。在本教程中,我们将指导您实现回调和日志记录功能,以成功训练模型。一、理解回调和日志记录回调和日志记录是PyTorch中有效管理和监控机器学习模型训练过程的基本工具。1......
  • Mybatis实现RBAC权限模型查询
    RBAC(Role-BasedAccessControl,基于角色的访问控制)是一种常用的权限管理模型,它通过角色来管理用户权限。在RBAC模型中,权限是授予角色的,用户通过扮演某些角色获得相应的权限。本文将介绍如何使用MyBatis实现RBAC权限模型的查询。一、RBAC权限模型简介核心概念用户(User) :系统的......
  • 如何在LangChain中缓存模型响应
    在开发涉及语言模型(LLM)的应用程序时,缓存模型响应可以显著提升性能和降低成本。通过这一技术指南,我们将深入探讨如何在LangChain中实现响应的缓存,确保在不影响系统表现的情况下有效利用计算资源。技术背景介绍在很多情况下,特别是对相同输入多次调用模型时,直接缓存先前的......
  • AI与药学 | Med-Pal:轻量级大型语言模型在药物咨询领域的应用
    随着新冠疫情的催化,数字医疗正以前所未有的速度发展,传统的面对面医疗服务模式逐渐向线上转移。数字健康工具的普及提升了患者的健康素养,也为医护人员带来了更沉重的文书工作和认知负担。大型语言模型(LLMs)的出现,为解决这一矛盾提供了新的可能。LLMs在经过优化后,有望成为总......
  • 大模型的幻觉太严重了,姑且作为参考。
    假设:输入(中文):"我有一本书"目标(英文):"Ihaveabook"一,训练阶段:在训练阶段,我们希望训练模型从源语言(中文)生成目标语言(英文)。在这个过程中,解码器依赖于编码器的输出,并通过与目标序列进行比较来计算损失,并优化模型参数。#1.输入序列(中文):输入句子为中文“我有一本书”,它将......
  • 浪涌如何影响以太网的控制器或者PHY
    本文章是笔者整理的备忘笔记。希望在帮助自己温习避免遗忘的同时,也能帮助其他需要参考的朋友。如有谬误,欢迎大家进行指正。一、摘要以太网广泛应用于各种领域,会受到诸多恶劣条件的影响。一种特别恶劣的条件是IEC61000-4-5中强调的瞬态浪涌。此浪涌脉冲施加在以太网PHY层的......
  • [Deep Learning] 使用多分类的Sequential神经网络模型实现新闻分类
    一、内容实现概述本文主要讲述使用keras库内置的Sequential(序列)模型,实现新闻分类。具体实现过程如下:导入所需库:预先导入keras库导入数据:调用keras库内置的房价数据库(imdb,即互联网电影资料库)方法load_data(),导入并分割好数据数据预处理:对由整数表示的电影评论数......
  • 阳振坤:AI 大模型的基础是数据,AI越发达,数据库价值越大
    2024年1月12日,第四届OceanBase数据库大赛决赛在北京圆满落幕。在大赛的颁奖典礼上,OceanBase首席科学家阳振坤老师为同学们献上了一场主题为“爱上数据库”的公开课,他不仅分享了个人的成长历程,还阐述了对数据库行业现状与未来的见解和思考。阳老师回忆了自己年轻时,与如今的同......
  • PM部分成员模型:深度剖析角球预测的方案
    在角球的世界里,预测比赛结果和球员表现一直是球迷、教练和分析师们关注的焦点。传统的分析方法往往存在一定的局限性,而新的统计模型——部分成员模型(PartialMembershipModel,简称PM)为角球预测带来了新的曙光。今天,就让我们深入探讨一下这个模型是如何在角球领域发挥作用的。P......
  • 学弟一看就会的RDKX5模型转换及部署,你确定不学?
    作者:SkyXZCSDN:SkyXZ~-CSDN博客博客园:SkyXZ-博客园宿主机环境:WSL2-Ubuntu22.04+Cuda12.6、D-Robotics-OE1.2.8、Ubuntu20.04GPUDocker端侧设备环境:RDKX5-Server-3.1.0        买了RDKX5还只停留在树莓派的使用思想?想部署深度学习但对着BPU不知从何下手?好不容......