首页 > 其他分享 >Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

Stable Diffusion读你大脑信号就能重现图像，研究还被CVPR接收了

时间：2024-09-05 09:56:08浏览次数：25

标签：Diffusion 插件 Stable LDM CVPR 图像重建

大脑活动到图像，Stable Diffusion 能重建。

如果人工智能可以解读你的想象，将你脑海中的图像变成现实，那会怎样？

动图封面

虽然这听起来有点赛博朋克。但最近发表的一篇论文，让 AI 圈吵翻了天。

这篇论文发现，他们使用最近非常火的 Stable Diffusion，就能重建大脑活动中的高分辨率、高精准图像。作者写道，与之前的研究不同，他们不需要训练或微调人工智能模型来创建这些图像。

论文地址：https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full.pdf
网页地址：https://sites.google.com/view/stablediffusion-with-brain/

他们是怎么做到的呢？

在此研究中，作者基于 Stable Diffusion 来重建通过功能磁共振成像 (fMRI) 而获得的人脑活动图像。作者也表示，通过研究与大脑相关功能的不同组成部分（例如图像 Z 的潜在向量等），也有助于了解隐扩散模型的机制。

这篇论文也已经被 CVPR 2023 接收。

该研究的主要贡献包括：

证明了其简单框架可以从具有高语义保真度的大脑活动中重建高分辨率（512×512）图像，而无需训练或微调复杂的深度生成模型，如下图所示；
通过将特定组成部分映射到不同的大脑区域，该研究从神经科学的角度定量解释了 LDM 的每个组成部分；
该研究客观地解释了 LDM 实现的文本到图像转换过程如何结合条件文本表达的语义信息，同时保持原始图像的外观。

方法概览

该研究的总体方法如下图 2 所示。图 2（上）是该研究中使用的 LDM 示意图，其中，ε 表示图像编码器，D 表示图像解码器，τ 表示文本编码器（CLIP）。

图 2（中）是该研究的解码分析示意图。研究者分别从早期（蓝色）和高级（黄色）视觉皮层内的 fMRI 信号中解码了呈现图像 (z) 和相关文本 c 的潜在表征。这些潜在表征被用作生成重建图像 X_zc 的输入。

图 2（下）是该研究的编码分析示意图。研究者构建了编码模型来预测来自 LDM 不同组成部分的 fMRI 信号，包括 z、c 和 z_c。

有关 Stable Diffusion 这里就不做过多介绍，相信很多人都比较了解。

结果

我们来看一下该研究的视觉重建结果。

解码

下图 3 展示了一个主体（subj01）的视觉重建结果。研究者为每个测试图像生成了五个图像，并选择了具有最高 PSM 的图像。一方面，只用 z 重建的图像在视觉上与原始图像一致，但未能抓住其语义内容。另一方面，只用 c 重建的图像生成的图像具有很高的语义保真度，但在视觉上却不一致。最后，使用 z_c 重建的图像可以生成具有高语义保真度的高分辨率图像。

图 4 展示了所有测试者对同一图像的重建图像（所有图像都是用 z_c 生成的）。总体来说，各测试者的重建质量是稳定和准确的。

图 5 是定量评估的结果：

编码模型

图 6 显示了编码模型对与 LDM 相关的三种潜像的预测精度：z，原始图像的潜像；c，图像文本注释的潜像；以及 z_c，经过与 c 交叉注意力反向扩散过程后的 z 的加噪潜像表征。

图 7 显示，当加入少量的噪声时，z 对整个皮层的体素活动的预测比 z_c 更好。有趣的是，当增加噪声水平时，z_c 对高位视觉皮层内体素活动的预测优于 z，表明图像的语义内容逐渐被强调。

在迭代去噪过程中，添加噪声的潜在表征如何变化？图 8 显示，在去噪过程的早期阶段，z 信号主导了 fMRI 信号的预测。在去噪过程的中间阶段，z_c 对高位视觉皮层内活动的预测比 z 好得多，表明大部分语义内容在这个阶段出现了。结果显示了 LDM 如何从噪声中提炼和生成图像。

*你也想了解自己的梦境吗？那这100款Stable Diffusion超实用插件，涵盖目前几乎所有的，主流插件你一定要收好

全文超过4000字。

我把它们整理成更适合大家下载安装的【压缩包】，无需梯子，并根据具体的内容，拆解成一二级目录，以方便大家查阅使用。

单单排版就差不多花费1个小时。

希望能让大家在使用Stable Diffusion工具时，可以更好、更快的获得自己想要的答案，以上。

如果感觉有用，帮忙点个支持，谢谢了。

想要原版100款插件整合包的小伙伴，可以来点击下方插件直接免费获取

100款Stable Diffusion插件：

面部&手部修复插件：After Detailer

在我们出图的时候，最头疼的就是出的图哪有满意，就是手部经常崩坏。只要放到 ControlNet 里面再修复。

现在我们只需要在出图的时候启动 Adetailer 就可以很大程度上修复脸部和手部的崩坏问题

AI换脸插件：sd-webui-roop

换脸插件，只需要提供一张照片，就可以将一张脸替换到另一个人物上，这在娱乐和创作中非常受欢迎。

模型预设管理器：Model Preset Manager

这个插件可以轻松的创建、组织和共享模型预设。有了这个功能，就不再需要记住每个模型的最佳 cfg_scale、实现卡通或现实风格的特定触发词，或者为特定图像类型产生令人印象深刻的结果的设置!

现代主题：Lobe Theme

已经被赞爆的现代化 Web UI 主题。相比传统的 Web UI 体验性大大加强。

提示词自动补齐插件：Tag Complete

使用这个插件可以直接输入中文，调取对应的英文提示词。并且能够根据未写完的英文提示词提供补全选项，在键盘上按↓箭头选择，按 enter 键选中

提示词翻译插件：sd-webui-bilingual-localization

这个插件提供双语翻译功能，使得界面可以支持两种语言，对于双语用户来说是一个很有用的功能。

提示词库：sd-webui-oldsix-prompt

提供提示词功能，可能帮助用户更好地指导图像生成的方向。

上千个提示词，无需英文基础快速输入提示词，该词库还在不断更新。

以后再也不担心英文写出不卡住思路了！

由于篇幅原因，有需要完整版Stable Diffusion插件库的小伙伴，点击下方插件即可免费领取

标签：Diffusion,插件,Stable,LDM,CVPR,图像,重建
From： https://blog.csdn.net/m0_71745258/article/details/141884274

相关文章

(5-4-05)基于Stable Diffusion的文生图系统：（5）概率分布+编码和嵌入
5.概率分布文件distributions.py定义了与概率分布相关的抽象类和具体实现，包括抽象分布类AbstractDistribution、狄拉克分布DiracDistribution和对角高斯分布DiagonalGaussianDistribution。这些类提供了样本生成、模式计算和KL散度等功能，支持概率模型中的采样和分布计......
软件开发过程中 Alpha、Beta、RC、Stable 版本都有什么区别？
在传统软件开发过程中，软件版本周期可分为三个阶段，分别是：α、β、λ。Alpha(α)：内部测试版。这个是最早的版本，这个版本包含很多BUG功能也不全，主要是给开发人员和测试人员测试和找BUG用的。Beta(β)：公开测试版。这个版本比Alpha版发布得晚一些，主要是给社区用户和忠实用户测......
AI绘画Stable Diffusion：从新手到高手，漫画小说创收不是梦，几条视频变现几k（Ai工具+教程）
许多人都被大量的小说推文项目所淹没，看着别人收益高、账号做得好，很多人讲述这个项目时，要么不透露具体AI工具名称，要么不提供推文授权渠道，让人无从下手，干着急。今天，向阳将带给大家一期全新的纯AI制作小说推文项目，这个新玩法将让你轻松掌握保姆级的详细教程。在本文的结尾......
Stable Diffusion【XL Lora】推荐！AI助力服装设计，让服装拆分设计就是这么高效！
今天给大家介绍一个服装饰品分类背景的基于SDXL的Lora模型：分类背景XUER。该模型是由作者（B站绪儿已成精）炼制，非常适合饰品服装分类背景。绪儿大佬其实推出了很多非常棒的模型，比如之前非常受大家喜欢的敦煌飞天、超梦幻场景等模型。下面我们来实际体验一下，看使用这个模型出来的图片......
OVMR：华为北大联手，基于多模态融合的SOTA开放词汇识别 | CVPR 2024
即插即用的方法OVMR将新类别的多模态线索嵌入到VLM中，以增强其在开放词汇识别中的能力。它最初利用多模态分类器生成模块将示例图像嵌入到视觉标记中，然后通过推断它们与语言编码器的上下文关系来自适应地融合多模态线索。为了减轻低质量模态的负面影响，通过一个无参数融合模块根据......
『SD』Stable Diffusion WebUI 安装插件（以汉化为例）
本文简介点赞+关注+收藏=学会了StableDiffusionWebUI是允许用户自行安装插件的，插件的种类有很多，有将页面翻译成中文的插件，也有提示词补全插件，也有精细控制出图的插件。以汉化为例，StableDiffusionWebUI默认是英文的，我们只需装个汉化插件然后重启一下项目就能......
Stable Diffusion进阶篇，ComfyUI文字生成视频的一条龙服务（附完整工作流）
有些小伙伴发现了一个问题，那就是根据图片生成出来的视频看着怪怪的：前半段看着好像还可以，但是后面部分的面部就开始崩坏了。而今天这篇笔记则是要简单了解一下一些进阶参数以及一些文生图生视频的内容，不然的话我担心内容太少字数都凑不够。我这里准备了ComfyUI文字生成......
Stable Diffusion教程，直接一键安装使用！（附SD整合包）
▼今天给大家分享的是**开源免费StableDiffusion教程无需魔法一键安装使用！**下载包里面有安装教程，大家如果有需要自行下载就可以了。StableDiffusion是基于LatentDiffusionModel（LDM）的，LDM是一款顶尖的文转图合成技术。在了解LDM的工作原理之前，让我们先看看什么是......
AI绘画实操 Stable Diffusion 到底怎么玩儿，新手必看的AI绘画入门安装使用教程
大家好，我是灵魂画师向阳2024年，是AI绘画技术飞速发展的一年，各种AI绘画工具层出不穷，为了让大家在了解和学习AI绘画的过程中少走弯路，今天我将详细介绍目前世界上使用用户最多，社区最大，生态最丰富的免费图像生成模型——StableDiffusion，并为你提供详细的安装教程，让你轻松踏入AI......
（多模态）MedM2G: Unifying Medical Multi-Modal Generation via CrossGuided Diffusion
1.摘要医学生成模型以其高质量的样本生成能力而闻名，加速了医学应用的快速增长。然而，目前的研究主要集中在针对不同医疗任务的单独医学生成模型上，受限于医学多模态知识的不足，制约了医学的综合诊断。在本文中，我们提出MedM2G，即医学多模态生成框架，其关键创新是在统一模型内对齐......

赞助商

阅读排行