目录
【3D雷达】
[ECCV 2024] Better Call SAL: Towards Learning to Segment Anything in Lidar
论文链接:https://arxiv.org/pdf/2403.13129
代码链接:https://github.com/nv-dvl/segment-anything-lidar
文中提出了SAL(Lidar中的任意物体分割)方法,该方法包括一个可文本提示的零样本模型,用于在Lidar中分割和分类任何对象,以及一个伪标签引擎,该引擎有助于在没有手动监督的情况下进行模型训练。虽然现有的Lidar全景分割(LPS)范式依靠预先定义的少数几类对象的手动监督,但作者利用2D视觉基础模型生成免费的3D监督
。伪标签由实例掩码和相应的CLIP令牌组成,使用校准的多模态数据将其提升到Lidar。通过在这些标签上训练所提模型,将2D基础模型提炼到Lidar SAL模型中。即使没有手动标签,所提模型在无类别分割方面达到了91%,在零样本Lidar全景分割方面达到了完全监督的最新技术的54%。此外,所提方法超越了几个不进行提炼而只将图像特征提升到3D的基线。更重要的是,作者证明了SAL支持任意类提示,可以轻松扩展到新的数据集,并且在自我标注数据量增加时显示出显著的改进潜力。
【目标检测】
[2024 单点监督目标检测] ointOBB-v2: Towards Simpler, Faster, and Stronger Single Point Supervised Oriented Object Detection
论文链接:https://arxiv.org/pdf/2410.08210v1
代码链接:https://github.com/taugeren/PointOBB-v2
单点监督目标检测在社区内引起了关注并取得了初步进展。与那些依赖单次样本或强大的预训练模型的方法不同(例如SAM),PointOBB由于其无先验特征而显示出了前景。这篇论文提出了PointOBB v2,这是一种更简单、更快、更强的方法,用于从点生成伪旋转框,而不依赖于任何其他先验。具体而言,首先通过使用非均匀正负采样来训练网络,生成一个类别概率图(CPM)。作者展示了CPM能够学习到近似的目标区域及其轮廓。然后,应用主成分分析(PCA)来准确估计物体的朝向和边界。通过进一步引入分离机制,解决了CPM上重叠造成的混淆问题,使其能够在高密度场景中运行。广泛的比较证明了所提方法在DOTA v1.0/v1.5/v2.0数据集上的训练速度比之前的最先进方法PointOBB快15.58倍,并且精度提高了11.60%/25.15%/21.19%。这显著推进了单点监督定向检测的前沿。
【CNN】
[2024 UniRepLKNet] Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations
论文链接:https://arxiv.org/pdf/2410.08049
代码链接:https://github.com/AILab-CVC/UniRepLKNet
本文提出了在设计现代卷积神经网络(ConvNets)中采用大卷积核的范式。并证明了使用少数几个大卷积核,而不是堆叠多个小卷积核,可能是一个更优的设计策略。该工作引入了一套针对大卷积核ConvNets的架构设计指南,优化了它们的效率和性能。作者提出了UniRepLKNet架构,该架构提供了专门为大卷积核ConvNets设计的系统化架构设计原则,强调了它们独特的捕捉广泛空间信息的能力,而无需深层网络堆叠。这导致了一种模型,不仅在ImageNet上达到了88.0%的准确率,在ADE20K上达到了55.6%的mIoU,在COCO box AP上达到了56.4%,而且还在时间序列预测、音频、点云和视频识别等各种模式上展示了令人印象深刻的可扩展性和性能。这些结果表明,与视觉Transformer相比,大卷积核ConvNets具有更快的推理速度。大卷积核ConvNets具有更大的有效感受野和更高的形状偏差,远离了小卷积核CNN典型的纹理偏差。
标签:DL,20241011,卷积,模型,Lidar,ConvNets,速看,https,3D From: https://blog.csdn.net/qq_40734883/article/details/142834116