首页 > 其他分享 >transformer->多模态

transformer->多模态

时间:2024-09-08 22:36:07浏览次数:10  
标签:模态 视频 transformer 模型 https 图像 文本

Transformer (language)

https://www.cnblogs.com/kongen/p/18088002

https://www.infoq.cn/article/qbloqm0rf*sv6v0jmulf

https://arxiv.org/pdf/2402.06196

https://arxiv.org/pdf/1706.03762

 

ViT(Vision Transformer)

https://zhuanlan.zhihu.com/p/703561123

ViT,全称Vision Transformer,是计算机视觉领域的新晋明星!它巧妙地将自然语言处理中的Transformer模型引入到图像识别任务中,让图像也能像文字一样被“翻译”和理解。简单来说,ViT把图像切割成一系列小块(patch),然后像处理单词一样处理这些图像块,通过自注意力机制捕捉它们之间的关系,从而实现图像分类等任务。ViT的出现,为计算机视觉领域带来了新的视角和思路,让图像识别更加高效和准确!

标签:模态,视频,transformer,模型,https,图像,文本
From: https://www.cnblogs.com/lightsong/p/18403642

相关文章