网站首页
编程语言
数据库
系统相关
其他分享
编程问答
Transfusion
2024-09-04
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model(2024,8)
Transfusion:PredicttheNextTokenandDiffuseImageswithOneMulti-ModalModel(2024,8)PaperTODO:目前没有开源代码,实时关注一下officialcode,Meta的工作基本开源的.本文给出了一种新的T2I的方法.lucidrains的代码本质是将LLM的transformer和图像中的diffusion结
2024-08-28
[Paper Reading] Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
Transfusion:PredicttheNextTokenandDiffuseImageswithOneMulti-ModalModellink时间:24.08机构:Waymo&UniversityofSouthernCaliforniaTL;DR提出一种使用混合模态token来训练transformer,名为transfusion,是一种生成式AI模型。主要工作使用了2T的tokens结合语言
2024-08-26
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
前言 就在刚刚,Meta最新发布的Transfusion,能够训练生成文本和图像的统一模型了!完美融合Transformer和扩散领域之后,语言模型和图像大一统,又近了一步。也就是说,真正的多模态AI模型,可能很快就要来了!欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读