首页 > 其他分享 >你大脑中的画面,现在可以高清还原了

你大脑中的画面,现在可以高清还原了

时间:2023-07-04 20:55:05浏览次数:49  
标签:编码器 大脑 CLIP 高清 还原 图像 EEG 文本 生成

前言 AI 直接把你脑中的创意画出来的时刻,已经到来了。

本文转载自机器之心

仅用于学术分享,若侵权请联系删除

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

【CV技术指南】CV全栈指导班、基础入门班、论文指导班 全面上线!!

近几年,图像生成领域取得了巨大的进步,尤其是文本到图像生成方面取得了重大突破:只要我们用文本描述自己的想法,AI 就能生成新奇又逼真的图像。

但其实我们可以更进一步 —— 将头脑中的想法转化为文本这一步可以省去,直接通过脑活动(如 EEG(脑电图)记录)来控制图像的生成创作。

这种「思维到图像」的生成方式有着广阔的应用前景。例如,它能极大提高艺术创作的效率,并帮助人们捕捉稍纵即逝的灵感;它也有可能将人们夜晚的梦境进行可视化;它甚至可能用于心理治疗,帮助自闭症儿童和语言障碍患者。

最近,来自清华大学深圳国际研究生院、腾讯 AI Lab 和鹏城实验室的研究者们联合发表了一篇「思维到图像」的研究论文,利用预训练的文本到图像模型(比如 Stable Diffusion)强大的生成能力,直接从脑电图信号生成了高质量的图像。

论文地址:https://arxiv.org/pdf/2306.16934.pdf

项目地址:https://github.com/bbaaii/DreamDiffusion

 

方法概述

近期一些相关研究(例如 MinD-Vis)尝试基于 fMRI(功能性磁共振成像信号)来重建视觉信息。他们已经证明了利用脑活动重建高质量结果的可行性。然而,这些方法与理想中使用脑信号进行快捷、高效的创作还差得太远,这主要有两点原因:

首先,fMRI 设备不便携,并且需要专业人员操作,因此捕捉 fMRI 信号很困难;

其次,fMRI 数据采集的成本较高,这在实际的艺术创作中会很大程度地阻碍该方法的使用。

相比之下,EEG 是一种无创、低成本的脑电活动记录方法,并且现在市面上已经有获得 EEG 信号的便携商用产品。

但实现「思维到图像」的生成还面临两个主要挑战:

1)EEG 信号通过非侵入式的方法来捕捉,因此它本质上是有噪声的。此外,EEG 数据有限,个体差异不容忽视。那么,如何从如此多的约束条件下的脑电信号中获得有效且稳健的语义表征呢?

2)由于使用了 CLIP 并在大量文本 - 图像对上进行训练,Stable Diffusion 中的文本和图像空间对齐良好。然而,EEG 信号具有其自身的特点,其空间与文本和图像大不相同。如何在有限且带有噪声的 EEG - 图像对上对齐 EEG、文本和图像空间?

为了解决第一个挑战,该研究提出,使用大量的 EEG 数据来训练 EEG 表征,而不是仅用罕见的 EEG 图像对。该研究采用掩码信号建模的方法,根据上下文线索预测缺失的 token。

不同于将输入视为二维图像并屏蔽空间信息的 MAE 和 MinD-Vis,该研究考虑了 EEG 信号的时间特性,并深入挖掘人类大脑时序变化背后的语义。该研究随机屏蔽了一部分 token,然后在时间域内重建这些被屏蔽的 token。通过这种方式,预训练的编码器能够对不同个体和不同脑活动的 EEG 数据进行深入理解。

对于第二个挑战,先前的解决方法通常直接对 Stable Diffusion 模型进行微调,使用少量噪声数据对进行训练。然而,仅通过最终的图像重构损失对 SD 进行端到端微调,很难学习到脑信号(例如 EEG 和 fMRI)与文本空间之间的准确对齐。因此,研究团队提出采用额外的 CLIP 监督,帮助实现 EEG、文本和图像空间的对齐。

具体而言,SD 本身使用 CLIP 的文本编码器来生成文本嵌入,这与之前阶段的掩码预训练 EEG 嵌入非常不同。利用 CLIP 的图像编码器提取丰富的图像嵌入,这些嵌入与 CLIP 的文本嵌入很好地对齐。然后,这些 CLIP 图像嵌入被用于进一步优化 EEG 嵌入表征。因此,经过改进的 EEG 特征嵌入可以与 CLIP 的图像和文本嵌入很好地对齐,并更适合于 SD 图像生成,从而提高生成图像的质量。

基于以上两个精心设计的方案,该研究提出了新方法 DreamDiffusion。DreamDiffusion 能够从脑电图(EEG)信号中生成高质量且逼真的图像。

具体来说,DreamDiffusion 主要由三个部分组成:

1)掩码信号预训练,以实现有效和稳健的 EEG 编码器;

2)使用预训练的 Stable Diffusion 和有限的 EEG 图像对进行微调;

3)使用 CLIP 编码器,对齐 EEG、文本和图像空间。

首先,研究人员利用带有大量噪声的 EEG 数据,采用掩码信号建模,训练 EEG 编码器,提取上下文知识。然后,得到的 EEG 编码器通过交叉注意力机制被用来为 Stable Diffusion 提供条件特征。

为了增强 EEG 特征与 Stable Diffusion 的兼容性,研究人员进一步通过在微调过程中减少 EEG 嵌入与 CLIP 图像嵌入之间的距离,进一步对齐了 EEG、文本和图像的嵌入空间。

 

实验与分析

与 Brain2Image 对比

研究人员将本文方法与 Brain2Image 进行比较。Brain2Image 采用传统的生成模型,即变分自编码器(VAE)和生成对抗网络(GAN),用于实现从 EEG 到图像的转换。然而,Brain2Image 仅提供了少数类别的结果,并没有提供参考实现。

鉴于此,该研究对 Brain2Image 论文中展示的几个类别(即飞机、南瓜灯和熊猫)进行了定性比较。为确保比较公平,研究人员采用了与 Brain2Image 论文中所述相同的评估策略,并在下图 5 中展示了不同方法生成的结果。

下图第一行展示了 Brain2Image 生成的结果,最后一行是研究人员提出的方法 DreamDiffusion 生成的。可以看到 DreamDiffusion 生成的图像质量明显高于 Brain2Image 生成的图像,这也验证了本文方法的有效性。

 

消融实验

预训练的作用:为了证明大规模 EEG 数据预训练的有效性,该研究使用未经训练的编码器来训练多个模型进行验证。其中一个模型与完整模型相同,而另一个模型只有两层的 EEG 编码层,以避免数据过拟合。在训练过程中,这两个模型分别进行了有 / 无 CLIP 监督的训练,结果如表 1 中 Model 列的 1 到 4 所示。可以看到,没有经过预训练的模型准确性有所降低。

mask ratio:本文还研究了用 EEG 数据确定 MSM 预训练的最佳掩码比。如表 1 中的 Model 列的 5 到 7 所示,过高或过低的掩码比会对模型性能都会产生不利影响。当掩码比为 0.75 达到最高的整体准确率。这一发现至关重要,因为这表明,与通常使用低掩码比的自然语言处理不同,在对 EEG 进行 MSM 时,高掩码比是一个较好的选择。

CLIP 对齐:该方法的关键之一是通过 CLIP 编码器将 EEG 表征与图像对齐。该研究进行实验验证了这种方法的有效性,结果如表 1 所示。可以观察到,当没有使用 CLIP 监督时,模型的性能明显下降。实际上,如图 6 右下角所示,即使在没有预训练的情况下,使用 CLIP 对齐 EEG 特征仍然可以得到合理的结果,这凸显了 CLIP 监督在该方法中的重要性。

 

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

中科院自动化所发布FastSAM | 精度相当,速度提升50倍!!!

大核卷积网络是比 Transformer 更好的教师吗?ConvNets 对 ConvNets 蒸馏奇效

MaskFormer:将语义分割和实例分割作为同一任务进行训练

CVPR 2023 VAND Workshop Challenge零样本异常检测冠军方案

视觉魔法师:开启语义分割的奇幻之旅

沈春华团队最新 | SegViTv2对SegViT进行全面升级,让基于ViT的分割模型更轻更强

刷新20项代码任务SOTA,Salesforce提出新型基础LLM系列编码器-解码器Code T5+

可能95%的人还在犯的PyTorch错误

从DDPM到GLIDE:基于扩散模型的图像生成算法进展

CVPR最佳论文颁给自动驾驶大模型!中国团队第一单位,近10年三大视觉顶会首例

最新轻量化Backbone | FalconNet汇聚所有轻量化模块的优点,成就最强最轻Backbone

ReID专栏(二)多尺度设计与应用

ReID专栏(一) 任务与数据集概述

libtorch教程(三)简单模型搭建

libtorch教程(二)张量的常规操作

libtorch教程(一)开发环境搭建:VS+libtorch和Qt+libtorch

NeRF与三维重建专栏(三)nerf_pl源码部分解读与colmap、cuda算子使用

NeRF与三维重建专栏(二)NeRF原文解读与体渲染物理模型

NeRF与三维重建专栏(一)领域背景、难点与数据集介绍

异常检测专栏(三)传统的异常检测算法——上

异常检测专栏(二):评价指标及常用数据集

异常检测专栏(一)异常检测概述

BEV专栏(二)从BEVFormer看BEV流程(下篇)

BEV专栏(一)从BEVFormer深入探究BEV流程(上篇)

可见光遥感图像目标检测(三)文字场景检测之Arbitrary

可见光遥感目标检测(二)主要难点与研究方法概述

可见光遥感目标检测(一)任务概要介绍

TensorRT教程(三)TensorRT的安装教程

TensorRT教程(二)TensorRT进阶介绍

TensorRT教程(一)初次介绍TensorRT

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群

聊聊计算机视觉入门

标签:编码器,大脑,CLIP,高清,还原,图像,EEG,文本,生成
From: https://www.cnblogs.com/wxkang/p/17526972.html

相关文章

  • Docker 数据卷的备份和还原
    数据备份方法:dockerrun--volumes-from[containername]-v$(pwd):/backupcentostarczvf/backup/backup.tar[containerdatavolume]例子:dockerrun--volumes-fromdata-volume2-v/root/backup:/backup--namedatavolume-copycentostarzcvf/backup/data-volume......
  • 卫星影像地图在工程建设中的应用,附高清影像数据获取方法
    1.引言在工程建设过程中,了解项目区域范围内的现状至关重要。卫星地图具有较高的图像分辨率和详细、准确的地理信息的特点,被广泛应用于工程建设的前期规划设计、施工现场。那么卫星地图在工程建设中都有哪些应用呢? 2.卫星地图在工程建设中的作用2.1地籍调查在前期的拆迁等调......
  • 使用MySQL Shell备份和还原MySQL
    MySQLShell是MySQL的高级客户端和代码编辑器。除了提供的SQL功能之外,与MySQL类似,MySQLShell还为JavaScript和Python提供脚本功能,并包含用于使用MySQL的API。XDevAPI使用户能够处理关系型和文档数据,强烈建议MySQLServer8.0和5.7与MySQLShell8.0一起使用。MySQLShell包含用......
  • 还原 SM2 压缩公钥的几种方法
    写这篇文章的起因是朋友让我帮忙解决一个与SM2算法加密相关的问题。由于我对SM2算法并不熟悉,因此在解决问题的过程中走了很多弯路,花了很多时间去了解SM2算法以及如何通过代码还原压缩公钥。随着越来越多的系统采用国密算法,我们在与其对接时难免会遇到类似的问题。然而,关于这......
  • 数据库备份、还原与恢复
    开篇一张图,内容全靠编。一本正经de胡说八道:数据库备份、还原与恢复基本概念  如果了解过其它数据库(如oracle)的备份,肯定见过类似这样的一句话:普通完全备份不可以做为增量备份的基备份;或者,执行增量备份时,系统会自动做一次0级的备份(如果没有0级备份)。那为什么其它数据库不可以......
  • 爬取英雄联盟全皮肤+高清处理
    喜欢lol原画的朋友喜欢把这些精美壁纸当成电脑桌面,要是能每天一换那就完美了。截止目前,英雄联盟共有英雄160多个,皮肤总数量高达1700多。这里就分享一下如何爬取皮肤吧。一.思路百度搜索任意一个皮肤网站,找到获取皮肤的接口,通过这个接口及其特有的规则,来做皮肤爬取......
  • git 入门、reset的3种模式、回滚文件、还原文件、变基、merge
    git基础知识盗用网上的一张图,git有工作目录、索引区(也叫暂存区)、历史区,这3个区,一定要记在脑子里,基本上git所有的操作都是操作这3个区。新建一个文件并提交的一般操作是,新建文件gitadd到索引区gitcommit到历史区(添加-a参数会自动提交到索引区,相当于第2步+第3步)gitreset有3种......
  • PPT| 城市大脑驱动的新型智慧城市解决方案 P38
    PPT总共有38页,受篇幅有限,有需要PPT的同学可以关注:智慧城市之家......
  • gitlab备份与还原
    一.备份配置修改vim/etc/gitlab/gitlab.rbgitlab_rails['manage_backup_path']=truegitlab_rails['backup_path']="/data/gitlab-backups"//备份文件存储路径,如果没有配置,则备份数据到默认”/var/opt/gitlab/backups“下gitlab_rails['backup_archive_permi......
  • 读书《你能写出好故事:写作的诀窍、大脑的奥秘、认知的陷阱》
     作者简介作者丽萨·克龙(LisaCron),现任加州大学洛杉矶分校写作项目的老师,她毕业于加州大学伯克利分校,在出版业、电视业工作多年,也是纽约华纳兄弟电影公司、洛杉矶威秀电影公司等的故事顾问。擅于写故事,尤其擅于指导被人讲故事。坏故事的特点好故事的特点我不知道谁是主人公。(没......