首页 > 其他分享 >[Paper Reading] Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

[Paper Reading] Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

时间:2024-08-28 15:50:25浏览次数:17  
标签:模态 Multi Predict Transfusion image Transformer feature token text

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

link
时间:24.08
机构:Waymo & University of Southern California

TL;DR

提出一种使用混合模态token来训练transformer,名为transfusion,是一种生成式AI模型。主要工作使用了2T的tokens结合语言模型的next token prediction以及diffusion训练了一个7B的模型,实验证明在图像与文本领域都有很好的效果。

比如,图像生成方面超过DALLE2与SDXL,文本生成达到Llama1的水平。

Method


方法解读

  • token准备:text模态被tokenize为token,image经过VAE Encoder编码为feature再通过Linear或者UNet提取image token(推测实际用的时候还是保留spatial信息的feature map,再输入diffusion model)。
  • Attention Mask:text使用mask将feature token屏蔽,而image token前后不需要屏蔽。推理过程text token部分是通过Auto-regressive模式逐个预测,而image token使用diffusion模式迭代T次输出后,再进行后续的text token regressive。
  • 多模态Transformer:文本方面不解释了,image feature token经过Transformer是在不断生成噪声并对图像去噪,猜测使用DIT这种Diffusion模型,所以可以和text复用Transformer。参考这篇知乎文章也有可能是利用transformer直接seq2seq预测的(见下图)。

Loss

数据

  • 2T tokens:1T text tokens,3.5B caption image pairs (1T为1万亿,1B为10亿,所以 1T=1000B)

Experiment


Ablation

计算量分布

总结与发散

1.方法比较简单,训练出一个兼容两种token的Transformer可能比较难
2.两种模态可以一起输入后,应用场景会比较大提升
3.text数据量以及多样性应该比caption image pairs好得多

相关链接

https://zhuanlan.zhihu.com/p/716378337
https://www.zhihu.com/question/665151133/answer/3606964055

资料查询

折叠Title FromChatGPT(提示词:XXX)

标签:模态,Multi,Predict,Transfusion,image,Transformer,feature,token,text
From: https://www.cnblogs.com/fariver/p/18384838

相关文章

  • 【ACMMM2024】Multi-Scale and Detail-Enhanced Segment Anything Model for Salient
    论文:https://arxiv.org/pdf/2408.04326代码:https://github.com/BellyBeauty/MDSAM论文的研究动机就是使用SAM来解决显著性检测(SOD)问题,主要有两个改进:提出了LightweightMulti-ScaleAdapter,LMSA来微调SAM提出了Multi-LevelFusionModule,MLFM和DetailEnhancementM......
  • Multipass虚拟机ssh登录(密码方式)
    Multipass虚拟机ssh登录(密码方式)[!NOTE]以Ubuntu24,04LTS为例准备工作为了演示新建一个示例虚拟机。multipasslaunch--namevm01-c4-m4G-d100G--networkbridged操作步骤进入虚拟机multipassshellvm01设置密码multipass默认会给所有实例生......
  • DocKylin: A Large Multimodal Model for Visual Document Understanding with Effici
    DocKylin:ALargeMultimodalModelforVisualDocumentUnderstandingwithEfficientVisualSlimmingarxiv:http://arxiv.org/abs/2406.19101视觉处理器+LLM:视觉处理器:SwinTransformer创新点:通过:1、去除图片冗余像素;2、去除冗余token。来减小模型中的视觉处理器的参数量......
  • Vulkan入门系列17 - 多重采样( Multisampling)
    一:概述        我们的程序现在可以加载多个级别的纹理,从而解决了在渲染远离观察者的物体时出现的伪影问题。现在图像变得平滑多了,但仔细观察,你会发现绘制的几何图形边缘呈现锯齿状。这在我们早期渲染一个四边形的程序中尤为明显:        这种不希望有的效果......
  • 论文解读Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation
    Multi-PromptAlignmentforMulti-SourceUnsupervisedDomainAdaptationNeurlIPS2023摘要大多数现有的无监督域适应(UDA)方法依赖于共享网络来提取领域不变特征。无论如何,当面对多个源域时,优化这样的网络涉及更新整个网络的参数,这样既昂贵又有挑战性,特别是与最小最大......
  • [oeasy]python031_[趣味拓展]unix起源_Ken_Tompson_Ritchie_multics
    [趣味拓展]unix起源_Ken_Tompson_Ritchie_multics......
  • Neo-GNNs: Neighborhood Overlap-aware Graph Neural Networks for Link Prediction
    目录概符号说明MotivationNeo-GNN代码Neo-GNNs:Neighborhoodoverlap-awaregraphneuralnetworksforlinkprediction.NeurIPS,2021.概一种计算上相对高效的,同时利用结构信息和特征信息的链接预测模型.符号说明\(\mathcal{G}=(\mathcal{V},\mathcal{E})\),gra......
  • 【0316】Postgres内核之VACUUM (FULL)运行 portal multi query (11)
    上一篇文章:【0315】Postgres内核之VACUUM(FULL)运行portalquery(10)1.执行portalmultiquery在【0315】Postgres内核之VACUUM(FULL)运行portalquery(10)一文中讲解了Postgres内核运行portal查询的实现。之后通过判断portal->strategy的值(PORTAL_MULTI_QUERY)走到了Po......
  • 读论文《Behavior Pattern Mining-based Multi-Behavior Recommendation》
    论文地址:arxiv.org/pdf/2408.12152v1项目地址:GitHub-rookitkitlee/BPMR基于行为模式挖掘的多行为推荐:论文提出了一种新颖的多行为推荐算法(BPMR),旨在通过分析用户和项目之间的复杂交互模式来提高推荐系统的有效性。这种方法特别关注于用户除了购买之外的其他行为,例如页面浏览......