Transformer (language)
https://www.cnblogs.com/kongen/p/18088002
https://www.infoq.cn/article/qbloqm0rf*sv6v0jmulf
https://arxiv.org/pdf/2402.06196
https://arxiv.org/pdf/1706.03762
ViT(Vision Transformer)
https://zhuanlan.zhihu.com/p/703561123
ViT,全称Vision Transformer,是计算机视觉领域的新晋明星!它巧妙地将自然语言处理中的Transformer模型引入到图像识别任务中,让图像也能像文字一样被“翻译”和理解。简单来说,ViT把图像切割成一系列小块(patch),然后像处理单词一样处理这些图像块,通过自注意力机制捕捉它们之间的关系,从而实现图像分类等任务。ViT的出现,为计算机视觉领域带来了新的视角和思路,让图像识别更加高效和准确!
标签:模态,视频,transformer,模型,https,图像,文本 From: https://www.cnblogs.com/lightsong/p/18403642