FashionViL

2024-10-29《FashionViL: Fashion-Focused Vision-and-Language Representation Learning》中文校对版
文章汉化系列目录文章目录文章汉化系列目录摘要1引言2相关工作3方法论3.1模型概述3.2预训练任务4实验*4.1预训练数据集和下游任务4.2比较结果4.3消融研究4.4可视化5结论摘要大规模视觉-语言（V+L）表示学习的预训练已被证明在提升各种下游V+L任务上非