解决长尾问题，BEV-CLIP：自动驾驶中复杂场景的多模态BEV检索方法

理想汽车的工作，原文，BEV-CLIP: Multi-modal BEV Retrieval Methodology for Complex Scene in Autonomous Driving

链接：https://arxiv.org/pdf/2401.01065.pdf

自动驾驶中对复杂场景数据的检索需求正在增加，尤其是随着乘用车已经具备了在城市环境中导航的能力，必须解决长尾场景问题。同时，在已有的二维图像检索方法下，场景检索可能会出现一些问题，如缺乏全局特征表示和亚层次文本检索能力。

为了解决这些问题，作者提出了BEV-CLIP，这是第一种多模态BEV检索方法，它利用描述性文本作为输入来检索相应的场景。该方法利用大型语言模型（LLM）的语义特征提取能力，促进零样本检索大量文本描述，并结合知识图中的半结构化信息，提高语言嵌入的语义丰富性和多样性。实验结果表明在NuScenes数据集上，文本到BEV特征检索的准确率为87.66%。论文中的示例支持本文的检索方法也被证明在识别某些长尾场景方面是有效的！

本文旨在研究在自动驾驶场景中开发视觉文本检索系统的两个基本问题。

（1）如何克服二维图像特征固有的局限性，特别是它们在自动驾驶场景中有效表示全局特征的能力较差？

（2）哪些方法可能会增强自动驾驶领域中文本表示目前不令人满意的效果？为了解决这两个问题，提出以下建议。

特征提取：建议使用BEV框架，因为它为自动驾驶场景描述提供了统一的表示。通过组合多视角相机数据，BEV框架从自上而下的角度将2D感知投影到详细的3D描述中。该方法克服了在基于2D的后融合方法中经常出现的与特征截断相关的限制，并为决策规划和控制等下游任务实现了统一的感知格式。此外，在检索任务的上下文中，BEV特征的结合显著增强了模型将文本数据与3D空间内的位置属性相关联的能力！

作为一个值得注意的解决方案，BEVFormer，一种基于transformer的BEV编码器，仅从相机输入生成全局特征，并用作各种下游任务的端到端模型。因此，对BEV特征进行场景检索是解决提取全局表示问题的综合解决方案，作为一种众所周知的方法，将BEVFormer用于BEV特征提取对我们来说既有利又合理。

语言表达。建议将复杂的语义数据作为额外的输入，以补偿仅在图像数据中不明显的抽象特征。现有的多模态大型语言模型（LLM）在表达其他模态的特征方面表现出了显著的能力。CLIP为使用对比学习的多模式检索提供了基线，使模型能够通过利用语言模型的解码能力来生成零样本推断。受此启发，我们构建了一个改进的LLM，并采用微调策略来提供更丰富的语义信息，作为BEV特征的补充。此外，还将引入知识图特征，以提高知识在自动驾驶领域的显著性。LLM和知识图的融合旨在实现我们方法中极好的跨模态理解。

BEV-CLIP方法介绍

BEV-CLIP如下图所示，这是第一种BEV检索方法检索自动驾驶的corner case。与2D图像检索相比，BEVCLIP允许在BEV特征的背景下进行与复杂全局特征相关的语义检索，从而实现spa conquers。同时，BEV-CLIP使用大型语言模型（LLM）来增强模型理解检索文本中复杂描述的能力。

BEV-CLIP的总体结构。（a） BEV和文本特征的处理。BEV编码器使用冻结的参数将来自周围6个相机的图像生成为BEV特征。同时，将输入文本嵌入与关键字匹配的知识图节点嵌入级联，并输入到具有LoRA分支的语言编码器中进行处理。（b）共享跨模态提示（SCP），将BEV和语言特征对齐在同一隐藏空间中。（c） caption生成和检索任务的联合监督。

实验效果

作者选择NuScenes数据集，这是唯一可用的具有开放文本描述的多视图数据集，并通过组合策略对其进行扩展。基于这样的数据集设置，作者希望揭示理解复杂、详细和独特的语义表示的能力。同时努力消除数据分布中的重复性和通用性，以验证零样本检索的能力。

最强自动驾驶学习资料和落地经验获取：链接

标签：模态,检索,场景,CLIP,特征,BEV
From： https://www.cnblogs.com/autodriver/p/18092554

Linux环境下使用Eclipse Paho C 实现（MQTT Client）同步模式发布和订阅Message
目录概述1同步模式和异步模式1.1同步模式1.2异步模式2下载和安装paho.mqtt.c3同步方式发布和订阅消息功能实现3.1MQTTClient参数配置3.2初始化MQTTClient3.3发布消息功能3.4订阅消息功能3.5解析订阅的信息4编译和测试4.1编译代码4.2运行5验证MQ......
# 自动驾驶感知新范式——BEV感知经典论文总结和对比（一）
自动驾驶感知新范式——BEV感知经典论文总结和对比（一）博主之前的博客大多围绕自动驾驶视觉感知中的视觉深度估计（depthestimation）展开，包括单目针孔、单目鱼眼、环视针孔、环视鱼眼等，目标是只依赖于视觉环视摄像头，在车身周围产生伪激光雷达点云（Pseudolidar），可以模拟激光雷达的测距......
EI级！高创新原创未发表！VMD-TCN-BiGRU-MATT变分模态分解卷积神经网络双向门控循环单元融
EI级！高创新原创未发表！VMD-TCN-BiGRU-MATT变分模态分解卷积神经网络双向门控循环单元融合多头注意力机制多变量时间序列预测（Matlab）目录EI级！高创新原创未发表！VMD-TCN-BiGRU-MATT变分模态分解卷积神经网络双向门控循环单元融合多头注意力机制多变量时间序列预测（Matlab）预测......
前端实现用户名密码国家注册（Eclipse Jee软件）
<!DOCTYPEhtml><html><head><metacharset="UTF-8"><scriptsrc="https://apps.bdimg.com/libs/jquery/2.1.4/jquery.min.js"></script><title>注册页面</title></head><body> <lab......
文生图的基石CLIP模型的发展综述
CLIP的英文全称是ContrastiveLanguage-ImagePre-training，即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型，CLIP的训练数据是文本-图像对：一张图像和它对应的文本描述，这里希望通过对比学习，模型能够学习到文本-图像对的匹配关系。OpenAI在202......
DA-CLIP关于使用BLIP生成数据集的代码注释
背景：BLIP:DA-CLIP需要的目标：为了在混合的退化数据集上训练DA-CLIP，作者使用引导式视觉语言框架BLIP为所有HQ图像生成描述。从HQ图像生成的描述是准确的，不传递退化信息。然后，我们可以直接将这些干净的标题、LQ图像和相应的退化类型结合起来，构建图像-文本-退化类型......
Clip-跳过
在StableDiffusion1.x模型中，CLIP用作文本嵌入。CLIP模型由多层组成。他们一层一层地变得更加具体。过于简单化，第一层可以理解“人”，第二层可以区分“男性”和“女性”，第三层可以区分“男人”，“男孩”，“小伙子”等。您可能希望停在较早的CLIP层以使提示更加模糊。如果您想......
WinClip非官方复现代码学习笔记2
一、数据集加载1.数据集放置将下载的数据集解压到datasets文件夹的下面，方便后续操作。2.数据集预处理数据集预处理针对两个数据集给了两个不同的预处理指令，我测试了VISA数据集，以下是我对VISA数据集的实例。1.datasets/prepare_visa_public.py文件配置打开这个文件，第1......
Eclipse未正常关闭tomcat服务器导致的端口占用错误
1.问题Severalports(8005,8080,8009)requiredbyCookiearealreadyinuse.Theservermayalreadyberunninginanotherprocess,orasystemprocessmaybeusingtheport.Tostartthisserveryouwillneedtostoptheotherprocessorchangetheportn......
多模态大模型论文总结
A survey of resource-efficient llm and multimodal foundation models大型基础模型，包括大型语言模型（LLM）、视觉变压器（ViT）、扩散和基于LLM的多模态模型，正在彻底改变从培训到部署的整个机器学习生命周期。然而，这些模型在多功能性和性能方面的实质性进步在硬件资源......

解决长尾问题，BEV-CLIP：自动驾驶中复杂场景的多模态BEV检索方法

解决长尾问题，BEV-CLIP：自动驾驶中复杂场景的多模态BEV检索方法

BEV-CLIP方法介绍

实验效果

最强自动驾驶学习资料和落地经验获取：链接

相关文章

赞助商

阅读排行