仅十亿参数！AI图像生成模型Meissonic AI在手机上就能生成高质量图像

时间：2024-10-20 12:21:56浏览次数：7

最近，科研团队联合推出了一款名为 Meissonic 的开源 AI 图像生成模型。惊喜的是，这款模型仅使用了十亿个参数，却能生成高质量的图像。这种紧凑的设计让 Meissonic 有潜力在移动设备上实现本地化的文本转图像应用。

在这里插入图片描述
这项技术的背后，研发团队包括阿里巴巴、Skywork AI 以及多所大学的研究者。他们采用了一种独特的变换器架构和新颖的训练方法，使得 Meissonic 能够在普通游戏 PC 上运行，甚至未来可能在手机上使用。

在这里插入图片描述
Meissonic 的训练方法采用了一种被称为 “遮蔽图像建模” 的技术，简单来说，就是在训练过程中会隐藏图像的一部分。模型学习如何根据可见的区域和文本描述来重建缺失的部分。这种方式帮助模型理解图像元素和文本之间的关系。

Meissonic 的架构让它能够生成1024x1024像素的高分辨率图像，无论是逼真的场景还是风格化的文本、表情包，甚至卡通贴纸，都能轻松应对。

与传统的自回归模型逐步生成图像不同，Meissonic 则是通过并行的迭代优化来同时预测所有的图像信息，这一创新显著减少了解码的步骤，大约减少了99% 的时间，大幅提升了图像生成的速度。

在模型的构建过程中，研究者们经历了四个步骤:

首先，他们用2亿张256x256像素的图像教授模型基本概念;接着，用1000万对经过严格筛选的图像 - 文本对提升其文本理解能力;然后，通过增加特殊的压缩层，使得模型能够输出1024x1024像素的图像;最后，他们进行了微调，结合人类偏好的数据来提升模型的性能。

在这里插入图片描述
有趣的是，尽管 Meissonic 的参数量较小，但在多项基准测试中表现优于一些更大的模型，比如 SDXL 和 DeepFloyd-XL，其在 “人类偏好分数” 上获得了28.83的高分。此外，Meissonic 还能够在不额外训练的情况下进行图像的修补和扩展，允许用户轻松添加缺失的图像部分或创造性地增强现有的图像。

研究团队认为，这种方法可能会促进定制 AI 图像生成器的快速、低成本开发，也有望推动移动设备上文本转图像应用的发展。感兴趣的朋友们可以在 Hugging Face 上找到演示版本，并在 GitHub 上查看模型的代码，使用普通8GB 显存的消费者 GPU 便可轻松运行。

demo:https://huggingface.co/spaces/MeissonFlow/meissonic

项目:https://github.com/viiika/Meissonic

Demo

git clone https://github.com/viiika/Meissonic
cd Meissonic
conda create --name meissonic python=3.8
conda activate meissonic
pip install -r requirements.txt

Gradio Web UI

python app.py

文本到图像的生成

python inference.py --prompt "Your creative prompt here"

Inpainting and Outpainting

python inpaint.py --mode inpaint --input_image path/to/image.jpg
python inpaint.py --mode outpaint --input_image path/to/image.jpg

标签：AI,模型,图像,生成,--,Meissonic,python,文本
From： https://blog.csdn.net/weixin_41446370/article/details/143079837

小而强大！H2O.ai 发布新AI视觉模型文档分析领域超越科技巨头
近日，H2O.ai宣布推出两款新型视觉语言模型，旨在提升文档分析和光学字符识别（OCR）任务的效率。这两款模型分别是H2OVLMississippi-2B和H2OVL-Mississippi-0.8B，它们在性能上与大型科技公司的模型相比，展现出令人瞩目的竞争力，可能为处理文档繁重工作流的企业提供更为高效的解决......
适用于 .NET 稳定的官方OpenAI库
前言今天给大家分享一个由OpenAI官方提供，旨在为.NET开发者提供方便的接口来访问OpenAI的RESTAPI。这个项目通过NuGet包的形式发布，使得.NET应用程序能够轻松地集成和使用OpenAI的各种AI模型和功能，如文本生成、图像生成、音频转写等。类库主要特性命名空间组织......
python脚本+kaili检测笑脸漏洞
一、笑脸漏洞简介：笑脸漏洞（Smile vulnerability）是指在计算机系统或网络中，由于某些设计或实现缺陷而导致的安全漏洞。该漏洞的名称源于其影响的用户界面或体验往往看起来友好和无害，但实际上可能会导致严重的安全问题。笑脸漏洞可以在多种应用和系统中存在，尤其......
jasypt的版本问题：从2.0升级为3.0版本会发生报错：Failed to bind properties under ‘sp
目录1.详细的报错信息2.解决方案3.那为什么这样解决呢？4.补充BindException异常4.1什么是属性绑定？4.2 为什么会出现BindException？4.3BindException的常见场景4.4如何解决BindException？由于昨晚写完一篇关于SpringBoot集成jasypt对敏感信息进行加......
用C++实现自己的智能指针：深入探讨内存管理与RAII模式
解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界C++中的内存管理一直以来是程序员的一个难点，尤其是在处理动态内存分配时。智能指针（如std::unique_ptr和std::shared_ptr）通过RAII（资源获取即初始化）的设计理念，极大地简化了动态内存的管理，减少了内存泄漏的风险。然......
Artistic Oil Paint 艺术油画着色器插件
只需轻轻一点，即可将您的视频游戏转化为艺术品！（也许更多…）。✓整个商店中最可配置的选项。✓六种先进算法。✓细节增强算法。✓完整的源代码（脚本和着色器）。✓包含在“艺术包”中。......
YOLOv11改进策略【卷积层】| ECCV-2024 Histogram Transformer 直方图自注意力适用于
一、本文介绍本文记录的是利用直方图自注意力优化YOLOv11的目标检测方法研究。在目标检测任务中，清晰准确的图像对于目标检测至关重要，本文创新方法通过恢复图像质量，可以减少因图像质量低导致的误检和漏检，实现有效涨点。专栏目录：YOLOv11改进目录一览|涉及卷积层、轻量化......
基于双路神经网络的滚动轴承故障诊断融合了原始振动信号和二维信号时频图像的多输
基于双路神经网络的滚动轴承故障诊断融合了原始振动信号和二维信号时频图像的多输入(多通道)故障诊断方法单路和双路都可时频图像算法可选小波变换，短时傅里叶变换，马尔可夫变迁场，格拉姆角场，S变换，递归图，灰度图等基于双路神经网络的滚动轴承故障诊断融合了原始振动信号和......
C++的RAII原则
C++的RAII原则内容ResourceAcquisitionIsInitialization(RAII)isacoreprogrammingconceptinC++(andotherresource-managedlanguages).Itensuresthatresources,suchasmemory,filehandles,ornetworkconnections,areacquiredandreleasedproperlyb......
GPTs及Assistant API快速开发AI应用实战
前言随着人工智能技术的飞速发展，GPTs（如GPT-3、GPT-4等）和OpenAI的AssistantAPI已经成为构建智能应用的重要工具。这些技术不仅提供了强大的自然语言处理能力，还大大简化了AI应用的开发流程。本文将通过几个实战项目，展示如何利用GPTs和AssistantAPI快速开发AI应用。第二......

仅十亿参数！AI图像生成模型Meissonic AI在手机上就能生成高质量图像

Demo

Gradio Web UI

相关文章

赞助商

阅读排行