因果关系的self-attention,拥有前半句,生成后半句
解决了生成任务,如何解决噪声数据?
BLIP 2
查询和当前这个文本最相关的图像信息是什么,同时把不想关的文本信息丢掉,目标文本指导查询图像
当前已经能从图像编码器中提取到更有用的视觉信息
标签:文本,查询,BLIP,图像,半句,ALBEF From: https://www.cnblogs.com/Tsukinousag1/p/17231955.html
因果关系的self-attention,拥有前半句,生成后半句
解决了生成任务,如何解决噪声数据?
查询和当前这个文本最相关的图像信息是什么,同时把不想关的文本信息丢掉,目标文本指导查询图像
当前已经能从图像编码器中提取到更有用的视觉信息
标签:文本,查询,BLIP,图像,半句,ALBEF From: https://www.cnblogs.com/Tsukinousag1/p/17231955.html