Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model(2024,8)

时间：2024-09-04 23:02:45浏览次数：12

标签：Multi Predict Transfusion 模型补丁 token 图像文本

Paper
TODO: 目前没有开源代码,实时关注一下official code,Meta的工作基本开源的.本文给出了一种新的T2I的方法.
lucidrains的代码

transfusion_2024-09-04_

本质是将LLM的transformer和图像中的diffusion结合了起来,使用同一个transformer来同时处理文本和图像信息.之前的DiT架构都是使用一个预训练的TextEncoder来提取文本信息,,并通过Concat、AdaLN、
CrossAttention、MMDit等方式将文本信息融入模型,而本文的方式直接同时训练文本和图像信息,并且是使用同一个模型来进行处理.

transfusion_2024-09-04_

如上图,图像经过一个VAE来得到tokens,并插入到文本token中,文本也会在经过一个tokenizer之后通过一个轻量级的模块进行处理,然后再通过一个transformer来处理文本和图像的信息.

transfusion_2024-09-04_

文本的attention方式和图像不一致,文本因为要采用causal的方式,而图像则需要采用bidirectional的方式.

Loss : \(\mathcal{L}_\text{Transfusion}=\mathcal{L}_\text{LM}+\lambda\cdot\mathcal{L}_\text{DDPM}\)

对于文本采用了LLM modeing,对于图像采用了DDPM的loss,训练细节和效果可以参看论文.

论文通过提出Transfusion方法来解决多模态模型的训练问题。Transfusion的核心思想是训练一个单一的模型来同时处理离散和连续的数据模态，具体解决方案包括以下几个关键步骤：

数据表示：将文本数据表示为离散的token序列，将图像数据通过变分自编码器（VAE）编码为连续的潜在空间补丁序列。在混合模态的示例中，使用特殊的开始图像（BOI）和结束图像（EOI）标记来分隔文本和图像序列。
模型架构：使用一个单一的Transformer模型来处理所有序列，无论其模态如何。对于文本，使用嵌入层将token转换为向量；对于图像，尝试了两种将局部窗口的补丁向量压缩成单个Transformer向量的方法：简单的线性层和U-Net的上下块。
注意力机制：结合了因果注意力（用于文本token）和双向注意力（用于图像补丁）。这允许图像内的每个补丁能够相互注意，同时只能注意序列中先前出现的文本或图像补丁。
训练目标：对文本token应用语言建模目标（LLM），对图像补丁应用扩散目标（LDDPM）。通过简单地将两种模态上计算的损失相加，并引入一个平衡系数λ，来训练模型。
推理算法：根据训练目标，解码算法在两种模式（LM和扩散）之间切换。在LM模式下，从预测分布中逐个采样token。当采样到BOI标记时，切换到扩散模式，按照扩散模型的标准程序解码图像。
实验验证：通过一系列受控实验，论文展示了Transfusion在不同模型大小和数据量下的性能，以及与Chameleon方法的比较。实验结果表明，Transfusion在每种模态组合中的扩展性都优于Chameleon方法。
架构改进：论文还探讨了Transfusion模型的不同变体，包括使用不同大小的图像补丁、不同的编码/解码架构（线性层与U-Net块），以及限制图像噪声的程度，以提高特定任务的性能。
图像编辑能力：论文进一步展示了Transfusion模型在图像编辑任务上的潜力，通过在少量图像编辑数据上微调预训练模型，使其能够根据指令执行图像编辑。

标签：Multi,Predict,Transfusion,模型,补丁,token,图像,文本
From： https://www.cnblogs.com/chenfengshijie/p/18397493

处理 multipart/form-data
multipart/form-dataContentType，专门用于处理包含二进制数据（如图片、视频或文档）和常规文本数据的表单，通常用来上传文件。要处理multipart/form-data请求，我们必须用@MultipartConfig或在web.xml中配置Servlet。@MultipartConfig提供了各种参数来控制文件上传行为，如loc......
论文阅读01-Improving Closed and Open-Vocabulary Attribute Prediction using Trans
论文框架研究背景和动机这篇论文试图解决什么问题？为什么这个问题重要？这个问题在当前的研究领域中有哪些已知的解决方案？研究方法和创新点论文提出了什么新的方法或模型？这个方法或模型是如何工作的？它与现有的方法相比有哪些改进？论文中的创新点是否显著且有实际意义？理......
（多模态）MedM2G: Unifying Medical Multi-Modal Generation via CrossGuided Diffusion
1.摘要医学生成模型以其高质量的样本生成能力而闻名，加速了医学应用的快速增长。然而，目前的研究主要集中在针对不同医疗任务的单独医学生成模型上，受限于医学多模态知识的不足，制约了医学的综合诊断。在本文中，我们提出MedM2G，即医学多模态生成框架，其关键创新是在统一模型内对齐......
Paper Reading: Multi-class imbalance problem: A multi-objective solution
目录研究动机文章贡献本文方法问题定义多分类多目标选择集成框架多类样本的客观建模理论分析实验结果数据集和实验设置对比实验结果运行时间优化边界的有效性优点和创新点PaperReading是从个人角度进行的一些总结分享，受到个人关注点的侧重和实力所限，可能有理解不到位的地方。具......
载波监听多址接入碰撞检测 CSMA/CD(carrier sense multiple access collision detecti
载波监听多址接入/碰撞检测CSMA/CD(carriersensemultipleaccess/collisiondetection)概念解析在总线局域网使用的协议多址接入MA：多个站连接在同一条线上，竞争使用总线。载波监听CS:每一个站在发送帧之前都要检测一下总线上是否有其他站点在发送帧（”先听后说“）......
CF1741F-Multi-ColoredSegments
https://www.luogu.com.cn/problem/CF1741Fhttps://codeforces.com/contest/1741/problem/F参考：https://www.luogu.com.cn/article/bb54tb8m考虑用线段树维护每个点被几条线段覆盖，然后按照颜色分类，每次做其中一类，把同类颜色从线段树中去掉，然后先区间求和看有没有重叠，再左端点往......
PyTorch深度学习实战（26）—— PyTorch与Multi-GPU
当拥有多块GPU时，可以利用分布式计算（DistributedComputation）与并行计算（ParallelComputation）的方式加速网络的训练过程。在这里，分布式是指有多个GPU在多台服务器上，并行指一台服务器上的多个GPU。在工作环境中，使用这两种方式加速模型训练是非常重要的技能。本文将介绍PyTorch中......
KASAN 中kasan_multi_shot 的作用
kasan_multi_shot是Linux内核配置选项之一，与KernelAddressSanitizer(KASAN)相关。KASAN是一种内核内存错误检测工具，能够检测内核代码中的各种内存错误，例如越界访问、使用未初始化的内存、双重释放等。默认情况下，KASAN在检测到内存错误后会触发内核panic并停止系统的......
并行处理的魔法：PyTorch中torch.multiprocessing的多进程训练指南
并行处理的魔法：PyTorch中torch.multiprocessing的多进程训练指南在深度学习领域，模型训练往往需要大量的计算资源和时间。PyTorch，作为当前最流行的深度学习框架之一，提供了torch.multiprocessing模块，使得开发者能够利用多核CPU进行多进程训练，从而显著加速训练过程。本文将深......
[Paper Reading] Transfusion: Predict the Next Token and Diffuse Images with One
Transfusion:PredicttheNextTokenandDiffuseImageswithOneMulti-ModalModellink时间：24.08机构：Waymo&UniversityofSouthernCaliforniaTL;DR提出一种使用混合模态token来训练transformer，名为transfusion，是一种生成式AI模型。主要工作使用了2T的tokens结合语言......

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model(2024,8)

相关文章

赞助商

阅读排行