首页 > 其他分享 >(多模态)VLP

(多模态)VLP

时间:2022-12-16 19:22:21浏览次数:43  
标签:模态 transformer 1.1 CLIP 视觉 VLP 图文

0、图文多模态学习

包含以下:

  • 普通多模态学习,如图文检索、视觉问答、视觉推理、视觉蕴含: CLIP
  • language guided detection
  • language guided segmentation
  • 文本图像生成:Dall.E2, Stable Diffusion
  • 文本视频生成

1、普通多模态学习:图文检索、视觉问答、视觉推理、视觉蕴含

1.1 只用encoder-transformer方法

1.1.1 ViLT

1.1.2 CLIP

1.1.3 ALBEF

1.1.4 VLMo

1.1 用encoder-transformer,用decoder-transformer方法

标签:模态,transformer,1.1,CLIP,视觉,VLP,图文
From: https://www.cnblogs.com/pyclq/p/16987627.html

相关文章