基于分层自监督学习将视觉Transformer扩展到千兆像素图像

时间：2022-10-10 12:00:13浏览次数：44

标签：Transformer 4096 16 WSI 千兆像素图像 HIPT 256

基于分层自监督学习将视觉Transformer扩展到千兆像素图像_计算机视觉

基于分层自监督学习将视觉Transformer扩展到千兆像素图像_计算机视觉_02

公众号ID｜ComputerVisionGzq

论文地址：https://arxiv.org/pdf/2206.02647.pdf

计算机视觉研究院专栏

作者：Edison_G

Vision Transformers (ViT) 及其多尺度和分层变体已成功地捕获图像表示，但它们的使用通常被研究用于低分辨率图像（例如256×256、384×384）。

概括

对于计算病理学中的千兆像素全玻片成像 (WSI)，WSI在20倍放大倍率下可大至150000×150000像素，并在不同分辨率下呈现视觉标记的层次结构：从捕获单个细胞的16×16图像到4096×4096图像表征组织微环境内的相互作用。

研究者引入了一种新的ViT架构，称为分层图像金字塔变换器 (HIPT)，它利用WSI中固有的自然分层结构，使用两个级别的自监督学习来学习高分辨率图像表示。HIPT使用10,678千兆像素WSI、408,218 4096×4096图像和104M 256×256图像对33种癌症类型进行了预训练。在9个幻灯片级任务上对HIPT表示进行基准测试，并证明：

1) 具有分层预训练的HIPT优于当前最先进的癌症分型和生存预测方法；

2) 自监督ViT能够对重要的归纳建模关于肿瘤微环境中表型的层次结构的偏见。

主要框架

基于分层自监督学习将视觉Transformer扩展到千兆像素图像_计算机视觉_03

整张幻灯片图像(WSI)的层次结构。左边：与自然图像不同，由于WSI具有固定的比例，因此存在不同图像分辨率的视觉标记的层次结构。右边：除了将单个256×256图像表示为256 [16×16]标记的序列外，还可以将这些256×256图像视为4096中更大的、不相交的[256×256]标记序列的一部分4096×4096区域。

基于分层自监督学习将视觉Transformer扩展到千兆像素图像_目标检测_04

HIPT 架构

受在自然语言处理中使用分层表示的启发，其中嵌入可以在字符、单词、句子和段落级别聚合以形成文档表示，在x16单元格、x256补丁、x4096区域级以形成幻灯片表示。为了在每个阶段对视觉概念之间的重要依赖关系进行建模，将Transformer自注意力调整为置换等变聚合层。请注意，由于使用x256标记修补x4096区域的复杂性与使用x16标记修补x256图像的复杂性相同，可以使用类似的自监督ViT技术为低分辨率图像预训练高分辨率图像的聚合层。

基于分层自监督学习将视觉Transformer扩展到千兆像素图像_目标检测_05

Multi-Head Self-Attention Visualization of SelfSupervised ViTs

对于浸润性导管癌(IDC)，展示了ViT256-16和ViT4096-256的自监督可视化，分别在x256和x4096区域上进行了预训练。对于x256补丁，ViT256-16能够描绘x16 tokens中的基质、细胞和“空白”存在。对于x4096区域，ViT4096-256描绘了粗粒度的形态特征，例如肿瘤巢及其周围的促纤维增生（松散）基质。

实验

基于分层自监督学习将视觉Transformer扩展到千兆像素图像_计算机视觉_06

基于分层自监督学习将视觉Transformer扩展到千兆像素图像_计算机视觉_07

HIPT中的Hierarchical Attention Maps

基于分层自监督学习将视觉Transformer扩展到千兆像素图像_层次结构_08

ViT256-16 DINO Pretraining

基于分层自监督学习将视觉Transformer扩展到千兆像素图像_层次结构_09

Hierarchical Attention Maps for Colorectal Cancer (CRC)

© THE END

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

基于分层自监督学习将视觉Transformer扩展到千兆像素图像_计算机视觉_10

标签：Transformer,4096,16,WSI,千兆,像素,图像,HIPT,256
From： https://blog.51cto.com/u_15726357/5743104

图解Swin Transformer
参考链接：https://zhuanlan.zhihu.com/p/367111046https://blog.csdn.net/qq_39478403/article/details/120042232......
《Hyperspectral Image Transformer Classification Networks》论文笔记
论文题目：《HyperspectralImageTransformer ClassificationNetworks》论文作者：XiaofeiYang,WeijiaCao,YaoLu,andYicongZhou,SeniorMember,IEEE论文......
CVPR2022| BodyMap可用于换装，Vision Transformers 又立功！
整理：AI算法与图像处理CVPR2022论文和代码整理：https://github.com/DWCTOD/CVPR2022-Papers-with-Code-Demo欢迎关注公众号AI算法与图像处理，获取更多干货：大家好, 最近正在......
CVPR2022论文速递（2022.4.11）！共12篇！跟踪/transformer/对比学习等
整理：AI算法与图像处理CVPR2022论文和代码整理：https://github.com/DWCTOD/CVPR2022-Papers-with-Code-Demo欢迎关注：大家好, 最近正在优化每周分享的CVPR论文,目前考虑......
谷歌自己的坑自己添 | 大改Transformer注意力，最终速度、内存利用率都大幅度提升（附源代
”计算机视觉研究院专栏作者：Edison_G长按扫描二维码关注我回复“谷歌”获取源代码简述：Google介绍了Performance，Transformer体系结构，它可以估计具有可证明精度的正则(Softmax......
MVX-Net | 多模型三位像素网络用于3D目标检测
上周应该是很多考生难忘的日子，那就是一年一度的考研日，相信很多同学准备了一年都会有好的收获，去理想的大学读研，更希望你们可以加入“计算机视觉战队”，和我们一起来学习人工智......
利用TRansformer进行端到端的目标检测及跟踪（附源代码）
计算机视觉研究院专栏作者：Edison_G现存的用检测跟踪的方法采用简单的heuristics，如空间或外观相似性。这些方法，尽管其共性，但过于简单，不足以建模复杂的变化，如通过遮挡跟踪。公......
聊聊 Transformer
结构Transformer由两个模块构成，分别为编码器模块与解码器模块。如图I所示，编码器模块是若干个encoder组件堆在一起，同样解码器模块也是若干个decoder组件堆在一起（原......
Vision Transformer和MLP-Mixer联系和对比
VisionTransformer和MLP-Mixer是深度学习领域最新的两个体系结构。他们在各种视觉任务中都非常成功。视觉VisionTransformer的性能略好于MLP-Mixers，但更复杂。但是这两个......
25.移动端像素比
像素简介1.基本概念像素屏幕是由一个一个发光的小点构成，这一个个小点就是像素分辨率：1920x1080说的就是屏幕中小点的数量在前端开发中像素分成两种情况讨论，css像素......

基于分层自监督学习将视觉Transformer扩展到千兆像素图像

相关文章

赞助商

阅读排行