首页 > 其他分享 >【AI绘画】FLUX:这款新的人工智能图像生成器非常善于创造人手

【AI绘画】FLUX:这款新的人工智能图像生成器非常善于创造人手

时间:2024-08-04 17:28:01浏览次数:11  
标签:FLUX.1 AI image 生成器 dev FLUX 图像 模型

FLUX.1 是 Stable Diffusion 的公开重量级继承者,可将文本转化为图像。

在这里插入图片描述
FLUX.1 dev 生成图像:“A beautiful queen of the universe holding up her hands, face in the background.”。

就在7月下旬,人工智能初创公司黑森林实验室(Black Forest Labs)宣布成立公司,并发布了第一套名为 FLUX.1 的文本到图像人工智能模型。这家总部位于德国的公司由开发了稳定扩散(Stable Diffusion)技术并发明了潜在扩散技术的研究人员创立,旨在为图像和视频创建先进的生成式人工智能。

FLUX.1 的发布是在 Stability AI 于 6 月中旬发布 Stable Diffusion 3 Medium 之后七周左右。Stability AI 的产品因在生成人体解剖图方面表现不佳而受到图像合成爱好者的广泛批评,用户在社交媒体上分享了肢体变形的例子。稳定人工智能公司的三位主要工程师罗宾-隆巴赫(Robin Rombach)、安德烈亚斯-布拉特曼(Andreas Blattmann)和多米尼克-洛伦茨(Dominik Lorenz)早些时候离职,他们后来与潜在扩散联合开发者帕特里克-埃塞尔(Patrick Esser)等人一起创建了黑森林实验室(Black Forest Labs)。

Black Forest Labs 发布了三种 FLUX.1 文本到图像模型:高端商业 "pro "版、非商业使用的中端开放权重 "dev "版和更快的开放权重 "schnell "版("schnell "在德语中意为快速)。Black Forest Labs 声称,其模型在图像质量和文本提示的遵从性等方面优于 Midjourney 和 DALL-E 等现有选择。
在这里插入图片描述

AI-generated image by FLUX.1 dev: “A close-up photo of a pair of hands holding a plate full of pickles.”

在这里插入图片描述
AI-generated image by FLUX.1 dev: A hand holding up five fingers with a starry background.

在这里插入图片描述
AI-generated image by FLUX.1 dev: “An Ars Technica reader sitting in front of a computer monitor. The screen shows the Ars Technica website.”

在这里插入图片描述
AI-generated image by FLUX.1 dev: “a boxer posing with fists raised, no gloves.”

在这里插入图片描述
AI-generated image by FLUX.1 dev: “An advertisement for ‘Frosted Prick’ cereal.”

在这里插入图片描述
AI-generated image of a happy woman in a bakery baking a cake by FLUX.1 dev.

在这里插入图片描述
AI-generated image by FLUX.1 dev: “An advertisement for ‘Marshmallow Menace’ cereal.”

在这里插入图片描述
AI-generated image of “A handsome Asian influencer on top of the Empire State Building, instagram” by FLUX.1 dev.

根据我们的经验,两个更高端的 FLUX.1 模型的输出在及时保真度上一般可与 OpenAI 的 DALL-E 3 相媲美,逼真度似乎接近 Midjourney 6。与稳定版 Diffusion XL 相比,它们有了很大的改进,而稳定版 Diffusion XL 是团队在稳定版下发布的最后一个重要版本(如果不算 SDXL Turbo)。

FLUX.1 模型采用了该公司所谓的 “混合架构”,结合了变压器和扩散技术,参数扩展到 120 亿个。Black Forest Labs 称,它在以前的扩散模型基础上进行了改进,加入了流匹配和其他优化功能。

FLUX.1 在生成人类双手方面似乎很有能力,而这正是早期图像合成模型(如 Stable Diffusion 1.5)的一个薄弱环节,原因是缺乏以双手为重点的训练图像。从早期开始,其他人工智能图像生成器(如 Midjourney)也掌握了手部图像的生成,但值得注意的是,FLUX 1 的开放权重模型能相对准确地呈现各种姿势的手部图像。

我们从 GitHub 上下载了 FLUX.1 开发模型的权重文件,但它高达 23GB,无法容纳在我们 RTX 3060 显卡的 12GB VRAM 中,因此需要量化才能在本地运行(减小文件大小),据说(通过 Reddit 上的聊天)有些人已经取得了成功。

相反,我们在人工智能云托管平台 Fal 和 Replicate 上使用 FLUX.1 模型进行了实验,虽然 Fal 提供了一些免费的启动点数,但使用这些平台需要付费。

如何在消费级显卡运行Flux.1

Diffusers

pip install git+https://github.com/huggingface/diffusers.git

然后可以使用 FluxPipeline 运行模型

import torch
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-schnell", 
                                    torch_dtype=torch.bfloat16,
                                    revision="refs/pr/1",
                                   )
# 减少显存使用的方法如下
# pipe.vae.enable_tiling()
# pipe.vae.enable_slicing()
pipe.enable_sequential_cpu_offload() #save some VRAM by offloading the model to CPU. Remove this if you have enough GPU power
# pipe.enable_xformers_memory_efficient_attention()

prompt = "A cat holding a sign that says hello world"
image = pipe(
    prompt,
    guidance_scale=0.0,
    output_type="pil",
    num_inference_steps=4,
    max_sequence_length=256,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-schnell.png")

Colab T4 运行 schnell 和 dev

参考 camenduru/flux-jupyter

git clone https://github.com/camenduru/flux-jupyter.git

可以在Colab中先尝试,再将其搬到自己的本地环境中。

注意:官方提供的flux包没有量化手段,只能用于参考,不可直接用于消费级显卡环境。苹果用户可以使用MPS,但我没有Mac,不便测试,多多谅解

最后

说到 “信任和安全”,该公司没有提到它是从哪里获得的训练数据,这些数据教会了 FLUX.1 模型如何生成图像。从我们可以用模型生成的包含受版权保护的人物形象的输出结果来看,黑森林实验室很可能使用了大量未经授权的互联网图像搜刮数据,这些数据可能是由 LAION 收集的,该组织收集的数据集用于训练稳定扩散(Stable Diffusion)。目前这还只是猜测。虽然 FLUX.1 的基本技术成就值得关注,但我们感觉该团队很可能像 Stability AI 一样,在 "合理使用 "图片搜刮的道德规范方面玩得不亦乐乎。这种做法最终可能会招致类似针对 Stability AI 的诉讼。

虽然文本到图片的生成是黑森林目前的重点,但该公司计划下一步扩展到视频生成领域,并表示 FLUX.1 将作为正在开发的新文本到视频模型的基础,该模型将与 OpenAI 的 Sora、Runway 的 Gen-3 Alpha 和 Kuaishou 的 Kling 展开竞争,按需扭曲媒体现实。"黑森林的公告称:"我们的视频模型将以高清晰度和前所未有的速度实现精确创作和编辑。

标签:FLUX.1,AI,image,生成器,dev,FLUX,图像,模型
From: https://blog.csdn.net/weixin_41446370/article/details/140901737

相关文章

  • 使用 django 的 EmailMessage 发送波斯语电子邮件时出现问题
    我对django相当陌生,并尝试使用django.core.mail.EmailMessage发送包含波斯语字母的电子邮件。这是我的代码:fromdjango.core.mailimportEmailMessagefromdjango.confimportsettingsdefcustom_sender(subject:str,body:str,recipient_list:list[str],......
  • Continue-AI编程助手本地部署llama3.1+deepseek-coder-v2
    领先的开源人工智能代码助手。您可以连接任何模型和任何上下文,以在IDE内构建自定义自动完成和聊天体验推荐以下开源模型:聊天:llama3.1-8B推理代码:deepseek-coder-v2:16b嵌入模型nomic-embed-text模型默认存储路径:C:\Users\你的用户名\.ollama\models\blobs模型离线下......
  • OpenAI Function Call大模型调用单个多个agent案例
    参考:https://platform.deepseek.com/api-docs/zh-cn/function_callinghttps://blog.csdn.net/qq_31095905/article/details/139143778https://blog.csdn.net/jacbo/article/details/136278619##官方案例https://cookbook.openai.com/examples/how_to_call_functions_wi......
  • aiohttp 存在超时问题,但请求没有超时问题
    我正在尝试使用两种不同的方法在Python中获取网页:requests和aiohttprequests方法工作正常,但aiohttp方法会导致超时。代码如下:importasyncioimportaiohttpimportrequestsheaders={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x6......
  • 科大讯飞AI学习机T20 Pro 怎么样 优缺点评测
    探索学习新天地,科大讯飞AI学习机T20Pro带你领略知识的魅力!这款专为求知若渴的学子打造的13.3英寸家教机,搭载星火认知大模型,8GB运存配合512GB超大存储,流畅运行各类学习应用,无论是小学生还是高中生,全龄段的学习需求都能轻松满足。智能护眼功能守护孩子视力健康,让学习更加安心。让A......
  • 科大讯飞AI学习机P30 值得入手吗
    科大讯飞AI学习机P30是一款功能强大的学习设备,适用于小学到高中各个年龄段的学生。其拥有6GB内存和256GB存储空间,运行更加流畅,存储更加充裕,能够满足学生各种学习和娱乐需求。11英寸护眼平板设计有效减少了眼睛疲劳,保护了学生的视力健康。此外,P30还配备了丰富的英语学习资源和交互......
  • 腰部 KOL 发展潜力预测与企业定制 AI 智能名片 O2O 商城小程序的协同发展
    摘要:随着社交媒体和内容创作平台的蓬勃发展,KOL(关键意见领袖)在品牌推广和营销领域的作用日益凸显。在头部KOL资源竞争激烈的当下,腰部KOL成为了新的运营重点。然而,挖掘有潜力的腰部KOL并非易事。本文通过分析腰部KOL晋升为头部KOL的关键指标,探讨如何运用多元回归模型进......
  • AI智能名片小程序:匹配法则下的粉丝经济新探索
    摘要:在数字化时代,企业与消费者之间的互动方式正经历着前所未有的变革。AI智能名片小程序作为这一变革中的新兴产物,不仅重塑了传统商务交流的场景,更在匹配法则的指导下,深刻影响着品牌与粉丝关系的构建与维护。本文旨在探讨AI智能名片小程序如何运用匹配法则,精准把握并满足粉丝的......
  • 基于大预言模型的AI逻辑推理#AI夏令营 #Datawhale #夏令营
    这是基于第二届世界科学智能大赛逻辑推理赛道:复杂推理能力评估(点击跳转赛事官网)的一篇从0基础入门AI的实践课,适合于零基础小白,本篇文章是我自己的学习笔记,供大家参考1.大语言模型介绍大语言模型的概念大语言模型(英文:LargeLanguageModel,缩写LLM),是一种人工智能模型,旨在理......
  • 使用LangChain访问个人数据第五章-检索
    需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统需要学习LangChian开发的同学请查看基于LangChain开发应用程序本部分前几个章节请查看使用LangChain访问个人数据第一章-简介使用LangChain访问个人数据第......