标签:模态 transformer 1.1 CLIP 视觉 VLP 图文
0、图文多模态学习
包含以下:
- 普通多模态学习,如图文检索、视觉问答、视觉推理、视觉蕴含: CLIP
- language guided detection
- language guided segmentation
- 文本图像生成:Dall.E2, Stable Diffusion
- 文本视频生成
1、普通多模态学习:图文检索、视觉问答、视觉推理、视觉蕴含
1.1.1 ViLT
1.1.2 CLIP
1.1.3 ALBEF
1.1.4 VLMo
标签:模态,
transformer,
1.1,
CLIP,
视觉,
VLP,
图文
From: https://www.cnblogs.com/pyclq/p/16987627.html