• 2024-10-28YOLOv11改进策略【模型轻量化】| 替换骨干网络为 ICCV 2023的EfficientViT 用于高分辨率密集预测的多尺度线性关注
    一、本文介绍本文记录的是基于EfficientViT的YOLOv11轻量化改进方法研究。EfficientViT通过构建多尺度线性注意力模块将全局感受野与多尺度学习相结合,并以此模块为核心构建网络,构建轻量级且硬件高效的操作,以提升性能并降低硬件部署难度。本文在替换骨干网络中配置了原论
  • 2024-10-16YOLOv11改进策略【卷积层】| ICCV-2023 SAFM 空间自适应特征调制模块 对C3k2进行二次创新
    一、本文介绍本文记录的是利用空间自适应特征调制模块SAFM优化YOLOv11的目标检测方法研究。SAFM通过更好地利用特征信息来实现模型性能和效率的平衡。本文通过二次创新C3k2,能够动态选择代表性特征,并结合局部上下文信息,提升模型的检测精度。专栏目录:YOLOv11改进目录一览
  • 2024-08-16SMCA:港中文提出注意力图校准的DETR加速方案 | ICCV 2021
    为了加速DETR收敛,论文提出了简单而有效的SpatiallyModulatedCo-Attention(SMCA)机制,通过在初始边界框位置给予较高的协同注意力响应值的约束来构建DETR的回归感知协同注意力。此外,将SMCA扩展为多头注意力和尺度选择注意力后,对比DETR可以实现更好的性能(108周期45.6mAPvs500周期
  • 2024-07-23CeiT(ICCV 2021, SenseTime)论文与代码解析
    paper:IncorporatingConvolutionDesignsintoVisualTransformersofficialimplementation:GitHub-coeusguo/ceit背景近年来,Transformer在自然语言处理(NLP)任务中取得了巨大的成功,并且开始有一些尝试将其应用于视觉领域。然而,纯Transformer架构在视觉任务中通常需要大量的
  • 2024-07-17MViT:性能杠杠的多尺度ViT | ICCV 2021
    论文提出了多尺度视觉Transformer模型MViT,将多尺度层级特征的基本概念与Transformer模型联系起来,在逐层扩展特征复杂度同时降低特征的分辨率。在视频识别和图像分类的任务中,MViT均优于单尺度的ViT。来源:晓飞的算法工程笔记公众号论文:MultiscaleVisionTransformers论文
  • 2024-07-16LeViT:Facebook提出推理优化的混合ViT主干网络 | ICCV 2021
    论文提出了用于快速图像分类推理的混合神经网络LeVIT,在不同的硬件平台上进行不同的效率衡量标准的测试。总体而言,LeViT在速度/准确性权衡方面明显优于现有的卷积神经网络和ViT,比如在80%的ImageNettop-1精度下,LeViT在CPU上比EfficientNet快5倍来源:晓飞的算法工程笔记公众号论
  • 2024-07-02Swin Transformer:最佳论文,准确率和性能双佳的视觉Transformer | ICCV 2021
    论文提出了经典的VisionTransormer模型SwinTransformer,能够构建层级特征提高任务准确率,而且其计算复杂度经过各种加速设计,能够与输入图片大小成线性关系。从实验结果来看,SwinTransormer在各视觉任务上都有很不错的准确率,而且性能也很高 来源:晓飞的算法工程笔记公众号论
  • 2024-06-24CaiT(ICCV 2021,Meta)论文与代码解析
    paper:GoingdeeperwithImageTransformersofficialimplementation:https://github.com/facebookresearch/deitthird-partyimplementation:https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/cait.py出发点这篇文章的研究重点是改进视觉Transfo
  • 2024-06-05LeViT(ICCV 2021)原理与代码解析
    paper:LeViT:aVisionTransformerinConvNet'sClothingforFasterInferenceofficialimplementation:https://github.com/facebookresearch/LeViTthird-partyimplementation:https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/levit.
  • 2024-05-22PVT:特征金字塔在Vision Transormer的首次应用,又快又好 | ICCV 2021
    论文设计了用于密集预测任务的纯Transformer主干网络PVT,包含渐进收缩的特征金字塔结构和spatial-reductionattention层,能够在有限的计算资源和内存资源下获得高分辨率和多尺度的特征图。从物体检测和语义分割的实验可以看到,PVT在相同的参数数量下比CNN主干网络更强大来源:晓飞的
  • 2024-05-20T2T-ViT:更多的局部结构信息,更高效的主干网络 | ICCV 2021
    论文提出了T2T-ViT模型,引入tokens-to-token(T2T)模块有效地融合图像的结构信息,同时借鉴CNN结果设计了deep-narrow的ViT主干网络,增强特征的丰富性。在ImageNet上从零训练时,T2T-ViT取得了优于ResNets的性能MobileNets性能相当来源:晓飞的算法工程笔记公众号论文:Tokens-to-Token
  • 2024-03-28【 ICCV代码复现】Swin Transformer图像分类实战教程 (训练自己的数据集)
    SwinTransformer图像分类实战教程一、环境配置1.官方环境配置2.数据集结构二、修改配置等文件1.修改config.py2.修改build.py3.修改utils.py三、训练1.Train2.Evaluation四、常见报错1.TypeError:__init__()gotanunexpectedkeywordargument‘t_mul‘我用
  • 2023-12-13Swin Transformer 马尔奖论文(ICCV 2021最佳论文)
    目录简介作者之一的微软亚研院的首席研究员胡瀚老师在bibili讲过该论文swintransformer比ViT做的更好的原因之一就是它将图片的一些特性嵌入到了网络模型之中,比如说平移不变性和尺寸不变性等,这样使得网络能够在cv领域做的更好。该文章提出的SwinTransformer可以被当做通用的
  • 2023-12-03Guo_AD-NeRF_Audio_Driven_Neural_Radiance_Fields_for_Talking_Head_Synthesis_ICCV_2021_paper
    可以看看这个向量场的虚拟人像的效果.看论文第三章: 3.2: F_theta是一个神经网络,a是声音d是viewdirection,x是3dlocation.普通的向量场是F_theta:d,x--->(c,σ)表示d是一个方向,表示观看者水平的偏移角度和数值的偏移角度.x是一个3d坐标表示看物
  • 2023-10-29ICCV 2023 | 通用数据增强技术,随机量化适用于任意数据模态
    前言 本文提出了一种适用于任意数据模态的自监督学习数据增强技术。本文转载自机器之心仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV各大方向专栏与各个部署框架最全教程整理【CV技术指
  • 2023-10-09ICCV 2023 | 当尺度感知调制遇上Transformer,会碰撞出怎样的火花?
    作者|AFzzz1文章介绍近年来,基于Transformer和CNN的视觉基础模型取得巨大成功。有许多研究进一步地将Transformer结构与CNN架构结合,设计出了更为高效的hybridCNN-TransformerNetwork,但它们的精度仍然不尽如意。本文介绍了一种新的基础模型SMT(Scale-AwareModulationTransformer
  • 2023-09-27ICCV 2023 清华ETH提出 Retinexformer 刷新十三大暗光增强榜单
    前言 本文介绍了ICCV2023上的新工作《Retinexformer:One-stageRetinex-basedTransformerforLow-lightImageEnhancement》本文转载自我爱计算机视觉仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读
  • 2023-09-17ICCV 2023 | 超越SAM!EntitySeg:更少的数据,更高的分割质量!
    前言 在本文中,High-QualityEntitySegmentation对分割问题进行了全新的探索。本文转载自CVer仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV各大方向专栏与各个部署框架最全教程整理【CV
  • 2023-08-27ICCV 2023 | 通过可靠、多样和类平衡的伪标签重新审视跨域三维目标检测
    前言 本文介绍了ICCV2023被接收的文章RevisitingDomain-Adaptive3DObjectDetectionbyReliable,DiverseandClass-balancedPseudo-Labeling的介绍。这个工作通过生成可靠、多样且类别平衡的伪3D物体,实现了单模型多类别同时自训练,从而将检测器自适应到目标域的三维
  • 2023-08-12ICCV 2023 | 旷视研究院入选论文亮点解读
    前言 近日,国际计算机视觉大会ICCV(InternationalConferenceonComputerVision)公布了2023年论文录用结果,本届会议共有8068篇投稿,接收率为26.8%。ICCV是全球计算机领域顶级的学术会议,每两年召开一次,ICCV2023将于今年10月在法国巴黎举行。今年,旷视研究院14篇论文入选,涵
  • 2023-08-12ICCV 2023 | Actformer:从单人到多人,迈向更加通用的3D人体动作生成
    前言 本文的主要贡献为:1.提出了基于GAN和Transformer混合架构的通用3D人体动作生成框;2.不仅能够实现单人动作生成,还能拓展到多人交互式动作生成;3.基于GTA游戏引擎构造了一个合成的多人打架数据集,包括2~5个人同时交互,现已开源。本文转载自PaperWeekly作者|徐良仅用
  • 2023-07-22ICCV 2023 | 南开大学提出LSKNet:遥感旋转目标检测新SOTA
    前言 最近关于遥感物体检测的研究主要集中在改进旋转包围框的表示方法上,但忽略了遥感场景中出现的独特的先验知识。这种先验知识是非常重要的,因为微小的遥感物体可能会在没有参考足够长距离背景的情况下被错误地检测出来,而不同类型的物体所要求的长距离背景可能会有所不同。本文
  • 2022-12-11初识超分重建——如何让女神更清晰,我的白月光【ICCV, 2021 超分重建之 BSRGAN】
    ❤️【深度学习入门项目】❤️之【超分重建】❤️原创:墨理学AI❤️声明:这是一个【大话超分重建】的博文,非专业技术文章,请大佬轻踩❤️【带你了解】❤️????俘获芳心小技巧===
  • 2022-11-10Mohamed Hassan-2021-StochasticSceneAwareMotionPrediction-ICCV
    #StochasticScene-AwareMotionPrediction#paper1.paper-info1.1MetadataAuthor::[[MohamedHassan]],[[DuyguCeylan]],[[RubenVillegas]],[[JunSaito]
  • 2022-11-08基于条件纹理和结构并行生成的图像修复【ICCV 2021 翻译】
    ????声明:作为全网AI领域干货最多的博主之一,❤️不负光阴不负卿❤️????​​????Followme????​​,一起Get更多有趣AI????????声明:精简翻译,未完全校对积压的存