Transfusion

2024-09-04Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model(2024,8)
Transfusion:PredicttheNextTokenandDiffuseImageswithOneMulti-ModalModel(2024,8)PaperTODO:目前没有开源代码,实时关注一下officialcode,Meta的工作基本开源的.本文给出了一种新的T2I的方法.lucidrains的代码本质是将LLM的transformer和图像中的diffusion结
2024-08-28[Paper Reading] Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
Transfusion:PredicttheNextTokenandDiffuseImageswithOneMulti-ModalModellink时间：24.08机构：Waymo&UniversityofSouthernCaliforniaTL;DR提出一种使用混合模态token来训练transformer，名为transfusion，是一种生成式AI模型。主要工作使用了2T的tokens结合语言
2024-08-26语言图像模型大一统！Meta将Transformer和Diffusion融合，多模态AI王者登场
前言就在刚刚，Meta最新发布的Transfusion，能够训练生成文本和图像的统一模型了！完美融合Transformer和扩散领域之后，语言模型和图像大一统，又近了一步。也就是说，真正的多模态AI模型，可能很快就要来了！欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读