51c自动驾驶~合集31

标签：场景 AD 模型 51c 任务 LLM 合集 31 3D

#大语言模型会成为自动驾驶的灵丹妙药吗

人工智能（AI）在自动驾驶（AD）研究中起着至关重要的作用，推动其向智能化和高效化发展。目前AD技术的发展主要遵循两条技术路径：模块化和端到端。模块化将驾驶任务分解为感知、预测、规划和控制等模块，并分别进行训练。由于模块之间的训练目标不一致，综合效果存在偏差。端到端试图通过利用一个直接从传感器数据映射到控制信号的单一模型来解决这个问题。这条路径在一系列功能方面的学习能力有限，难以处理不可预测的长尾事件和复杂的城市交通场景。面对这两条路径中遇到的挑战，许多研究人员认为，具有强大推理能力和广泛知识理解的大型语言模型（LLM）可能是解决方案，期望LLM为AD系统提供更深入的理解和决策能力。鉴于这两条路径都面临的挑战，许多研究人员认为，LLM凭借其强大的推理能力和广泛的知识，可以提供一种解决方案。为了了解LLM是否可以增强AD，本文对LLM在AD系统中的潜在应用进行了深入分析，包括探索其在模块化和端到端方法中的优化策略，特别关注LLM如何解决当前解决方案中存在的问题和挑战。此外，我们还讨论了一个重要问题：基于LLM的通用人工智能（AGI）能否成为实现高水平AD的关键？我们进一步分析了LLM在促进AD技术发展方面可能遇到的潜在局限性和挑战。这项调查可以为相关领域的跨学科研究人员提供基础参考，并指导未来的研究方向。

简介

自动驾驶（AD）已成为现代交通领域的一个关键研究领域，其最近的发展在很大程度上依赖于人工智能（AI）。人工智能的发展一直是AD发展的催化剂，即使是最简单的高级驾驶辅助系统（ADAS）也需要人工智能来实现。因此，可以通过AI设计的视角全面了解AD解决方案的发展。

设计AI的两种不同方式，即模块化和端到端解决方案，形成了AD的两种常见解决方案，如图1所示。第一种解决方案，即模块化解决方案，是人工智能系统设计之前的遗留问题。这些解决方案将AD分解为几个独立的任务，通常包括感知、预测、计划和控制。虽然这种模块化简化了单个任务的实现，但它往往难以实现系统集成。不同的模型，每个模型都针对独立的目标，可能会导致系统内不可避免的差距和冲突，从而导致次优性能。因此，通过执行加强一致性可能是一项艰巨的挑战。

51c自动驾驶~合集31_自动驾驶

第二种解决方案，即端到端解决方案，试图通过模仿人类行为的过程来解决这些问题。端到端解决方案利用大规模神经网络，直接根据传感器输入控制车辆。已经提出了不同的实现方式，包括模仿人类驾驶或基于控制结果的直接训练。然而，沿着这条路径的所有这些方法都有一个共同的缺点，即信息通道过长和网络结构复杂，导致在训练和引入专家知识时难以收敛。此外，端到端算法训练中涉及的数据主要与驾驶有关，而人类驾驶员在驾驶过程中利用常识和其他信息。这些挑战限制了端到端算法的进一步改进。

除了这些具体问题外，这两种解决方案在现实世界的应用中都面临着一些挑战，包括确保鲁棒性、验证性、可解释性和高效的人机交互。因此，应对这些挑战已成为AD研究的主要重点，强调了有效解决方案的必要性。

2022年底ChatGPT问世以来，人工智能领域掀起了一场新的革命。由于其庞大的规模、大量的数据和训练所涉及的技术（例如，从人类反馈中学习），大型语言模型（LLM）已经具备了推理、数据生成和理解人类意图等能力。这些能力使LLM能够在各种自然语言处理（NLP）任务中超越以前的模型。LLM在智能交通系统等各个领域的应用正在上升。具体而言，LLM的能力为AD研究中的上述挑战提供了创新的解决方案。例如，推理能力可以帮助理解和适当地应对看不见的角落情况，提高鲁棒性。生成能力可用于测试用例生成。增强对人类意图的理解有助于解决可解释性问题，改善人机交互。

最近，LLM开创了AD研究的一个新领域。研究人员越来越相信，LLM可以为传统AD解决方案提供新的视角。此外，有一种观点认为，LLM进一步为实现通用人工智能（AGI）铺平了道路，这让我们回到了关于实现完全AD的辩论。一些专家认为，大规模、通用、强大的智能是必要的，而另一些专家则认为，规模较小的特定智能体就足以完成AD任务。站在这个十字路口，本文从AD系统实施的角度系统地概述了采用LLM的最新AD进展，重点讨论了以下问题：

AD研究目前面临的挑战是什么？具体来说，这是一组与AD实施中的不同任务相对应的具体挑战（即正文中的挑战i至X）。

LLM能否为这些挑战提供卓越的解决方案，以及如何提供？

AD的最终解决方案是什么？AD算法优化的目标应该是什么？

Autonomous Driving Solutions模块化

模块化解决方案将AD系统分解为不同的模块。通常，这些模块包括感知、预测、计划和控制。

感知

感知涉及环境信息的收集、有用知识的提取以及理解环境的判断的形成。感知的准确性和全面性对于自动驾驶汽车（AV）有效地应对复杂的交通场景至关重要。感知任务最初仅限于“如何看？”的问题。这指的是对周围物体的识别和跟踪，包括静态物体（如车道、交通信号灯和其他交通基础设施）和动态物体（如车辆和道路使用者）。随着过去二十年来传感技术的进步和机器学习（ML）的发展，这些基本任务不再构成挑战。车道检测或交通信号识别等基本应用现在可以在大多数情况下正确执行，为推广低级高级驾驶员辅助系统（ADAS）铺平了道路。

更先进的传感器和神经网络结构也为感知算法提供了新的视角，感知算法已经从对象级发展到场景级。鸟瞰图（BEV）和基于Transformer的方法的出现使识别综合场景成为可能。BEV将车辆周围的多模态3D数据投影到2D地图上，确保数据表示的一致性。Transformers最初是为NLP设计的，由于其强大的注意力机制，已经证明了它们在建模多源异构数据方面的有效性。这使得BEV表示能够熟练地捕获全面的空间信息。遵循这一范式的方法，如BEVForme，在各种感知任务中表现出了卓越的性能，成为主要的感知解决方案。然而，BEV在高度信息方面的不足限制了其表示3D体积的效率。占用网络通过直接学习体素中的3D信息、将3D表面描绘为神经网络决策边界以及消除对LiDAR点云的需求来支持BEV。它们融合了几何和语义来精确地描绘场景，提高了感知效率和准确性。

随着情景信息的获取不再具有挑战性，目前的研究重点已转向通过可靠和详细的表示来全面了解环境的最终目标，即“What to see?”的问题。这要求感知系统非特定地识别周围的物体，识别它们的属性和相互作用，并彻底理解场景。从历史上看，AD感知算法经常将时间和3D空间数据合并到2D对象检测框架中（例如YOLO、CenterNet），合并来自LiDAR、相机的输入，并利用PointNet等不同的深度学习模型进行信息处理。然而，在不同尺度（如时间、空间、任务相关）上整合特征带来了挑战。

尽管取得了长足的进步，但现有的感知解决方案仍然面临着几个挑战。第一：

CHALLENGE I: How to improve the performance of perception systems in the real world or uncontrolled environments?

当前基于学习的方法严重依赖于训练数据，当遇到现实世界数据长尾分布中存在的角点情况时，它们的性能会显著下降。第二：

CHALLENGE II: How to form a comprehensive understanding of complex scenarios like humans did?

当前的场景理解方法更像是简单地整合所有数据和模态，而不是理解场景。最后：

CHALLENGE III: How to enhance the efficiency of processing the vast amount of sensor data collected and establish a more unified data annotation method?

这些挑战凸显了AD的复杂性以及在该领域进行持续研究和创新的必要性。

预测

预测是AD过程中的一个关键组成部分，其目标是根据物体过去的运动轨迹预测物体（主要是行人和车辆）即将到来的运动轨迹。该模块最初不是AD工作流的一部分。随着过去二十年AD解决方案的演变，预测作为一个独立的部分逐渐引起了人们的关注，弥合了感知和规划之间的差距。从功能上讲，它直接利用感知作为输入，而其输出则是后续规划和控制任务的重要参考。从时间的角度来看，预测代表了从过去到现在和未来的过渡，这是端到端工作流不可或缺的过渡。传统的预测方法主要是基于模型的。这些包括物理模型、意图模型和交互模型。这种方法在处理轨迹的不确定性方面存在局限性，特别是在较长的时间范围内。

在过去的十年中，基于学习的方法逐渐主导了预测任务的解决方案。例如，循环神经网络（RNN）及其衍生网络架构，如长短期记忆（LSTM）网络，在基于深度学习的预测范式中得到了广泛应用。其他使用的网络架构包括卷积神经网络（CNN）和图形注意力转换器。这些基于学习的方法显著提高了更广泛时期内预测的可靠性和准确性，而BEV等感知技术的进步实现了多目标协同预测。这标志着预测建模领域的发展，强调了协作预测策略在实现卓越预测结果方面的重要性。根据目标的不同，最新的预测方法能够提供持续几秒甚至十多秒的轨迹准确预测。在大多数情况下，这对于后端AD任务来说是足够的。

目前对预测任务的研究旨在提高动态环境中的准确性，以提高AD的安全性和效率，这需要关注的不仅仅是轨迹，还有情况。车辆必须了解并适当应对社会动态或不同的环境，这可以归结为另一个具体的挑战：

CHALLENGE IV: How to realize comprehensive situation-aware predictions in complex scenarios?

应对这一挑战将是朝着更准确和更先进的预测方法迈出的又一步。

规划

规划是指自动驾驶汽车根据给定的交通环境和车辆的情况设置未来驾驶路线或轨迹的过程。根据具体的功能和规划范围（空间和时间），规划通常可分为路线规划、行为规划和轨迹规划（也称为运动规划）。具体而言，路线规划概述了车辆的道路网络级路径，通常称为“导航”。行为规划在规划路线上的重要航路点提供决策。轨迹规划生成了一个精确的时空轨迹，连接车辆要遵循的路点。

尽管有各种目标和限制，但不同的规划任务可以以类似的方式制定，因此共享类似的方法。例如，原始规划方法起源于传统的搜索方法，包括A*、快速探索随机树等。这些被称为基于搜索的规划方法。基于优化的方法利用优化理论来搜索最优轨迹。与基于搜索的方法相比，这些方法在复杂场景中更省时。

基于学习的方法也出现在规划中。例如，强化学习（RL）在规划任务中得到了广泛的应用，规划任务通常被表述为马尔可夫决策过程。模仿学习（IL）为基于学习的计划提供了一种不同的范式。其他方法将神经网络与现有的规划方法相结合，或使用神经网络直接生成计划轨迹，为规划任务提供实时在线解决方案。

目前规划方法的研究差距主要在于两个方面。第一：

CHALLENGE V: How to improve the performance of planning methods when facing complex kinematic or scenery constraints?

这要求系统更好地整合来自前端模块的信息，同时处理继承的不确定性。第二：

CHALLENGE VI: How to bind the planning tasks to form a more integrated hybrid planning?

这将有利于规划过程的稳健性和更好的性能。

控制

传统模块化的最后一步是控制，它涉及车辆沿着预设的计划轨迹行驶（轨迹跟踪）。这种过程的基本目标是使目标轨迹和真实车辆轨迹之间的误差最小化。其他控制目标包括提高稳定性或乘坐舒适性。

已经为控制过程开发了各种控制器和方法。基本控制方法，如纯追踪[24]，主要考虑了车辆的运动学约束。相比之下，其他方法结合了车辆的动态特性来实现更精确的控制。控制器，如模型预测控制（MPC），擅长管理更复杂的场景。鉴于车辆相对于外部环境的固有稳定性和控制问题的性质，基于学习的方法在控制任务中的使用频率较低。然而，混合控制器的出现值得注意，例如基于学习的MPC，它融合了传统控制器和基于学习的控制器。

车辆控制的主要挑战在于一个问题。

CHALLENGE VII: How can controllers adapt to various, comprehensive scenarios?

现实世界的场景包括从车辆达到稳定性阈值的极端操作条件到个性化控制要求。适应各种场景需要控制器具有更好的鲁棒性和精确调整的空间。控制模块还需要与AD解决方案中的前端模块协调，以实现更好的性能。

端到端

与模块化解决方案相比，端到端AD采用了不同的路线图。从狭义上讲，端到端AD试图模仿人类驾驶车辆的方式，其中使用一个大规模神经网络将原始传感器输入直接映射到车辆的轨迹点或控制命令。端到端AD的第一次尝试，即神经网络中的自主陆地车辆，可以追溯到20世纪80年代。它试图将相机和Lidar的输入直接映射到车辆的转向控制。

随着机器学习方法的进步，端到端AD在过去十年中蓬勃发展。端到端AD中应用最广泛的学习技术是IL。IL是一种监督学习方法，可进一步分为行为克隆和逆最优控制。端到端AD中涉及的另一种学习方法是RL，并且应用了包括策略蒸馏在内的技术来提高算法的性能。此外，数据集的不断积累、日益完善的测试环境和评估指标进一步加速了端到端AD的实际应用。使用端到端方法训练的Tesla FSD系统等AD系统已经应用于开放环境。

随着对端到端解决方案的研究不断深入，重点正转向这些解决方案背后的核心思想，而不是其形式。端到端方案的集成方法为传输各种类型的信息和数据提供了一个统一的渠道。这最大限度地减少了信息在不同模块或子任务之间传输过程中的丢失和压缩，这被认为是端到端解决方案的优点之一。应用这一理念，许多模块子任务的广义“端到端”应用正在出现，特别是被划分为多个分层子任务的感知和规划模块。例如，“端到端”感知模块将传感器的数据作为输入，同时提供集成和完整的场景感知输出。这些通用的端到端模块使子任务的训练和执行更加顺畅和高效。

与此同时，端到端AD系统的形式也在不断发展。例如，最新的统一端到端自动驾驶（UniAD）解决方案，被称为“模块化端到端AD”，集成了AD的三个主要任务和六个次要任务。每个模块在网络结构方面保持相对独立。在训练过程中，每个模块在整个系统训练之前都经过预训练，以确保训练目标的一致性。这种方法在闭环仿真验证中表现出了出色的性能，证明端到端解决方案的本质不一定是用单个网络完成所有任务。

尽管端到端解决方案正在迅速发展，并解决了模块化AD系统中的一些现有问题，但还存在一些其他挑战。与模块化AD相比，端到端系统在更大范围内利用神经网络，几乎完全依赖于训练数据，这两者都增加了训练过程中的挑战。例如：

CHALLENGE VIII: How to establish datasets, including selecting specific data and generating new cases, with better quality so as to support the training of end-to-end algorithms?
CHALLENGE IX: How to improve the training efficiency (e.g., design better reward functions) of end-to- end solutions?
CHALLENGE X: how to improve the interpretability of end-to-end solutions?

大语言模型的发展

现代语言处理模型起源于两种范式：基于规则和统计。基于规则的语言模型依赖于手动定义的语法、语义和语用规则，使用一组手动规则生成自然语言。这种方法的局限性在于需要大量手动设置的规则，这使得在真实的语言语料库中覆盖所有场景变得具有挑战性。另一方面，统计语言模型依赖于大型语料库中的词汇统计分布，例如在上下文中使用n个单词预测文本的n元语法模型。这些模型标志着语言处理中理性主义方法的开始。

随着深度学习的进步，研究人员开始使用神经网络模型来学习自然语言的复杂结构和语义信息。RNN成为处理自然语言和其他时间序列问题的经典模型框架。通过引入跨时间步长共享的循环结构和权重参数，RNN可以处理不同长度的自然语言文本序列并捕获隐藏特征。LSTM网络是对传统RNN的改进，引入了存储单元，有选择地保留或忘记信息，以有效解决梯度消失或爆炸等问题。在此基础上进行的一些工程包括门控循环单元（GRU）。2017年，Transformer凭借其强大的上下文处理能力，逐渐开始应用于NLP任务。与之前的统计模型相比，这些基于神经网络的模型在处理语言中的表示和特征方面具有更好的方法，从而在特定的NLP任务中表现出更好的性能。

随着网络结构的进步，一种新的语言模型训练方法——预训练，也有助于语言模型的进一步发展。2018年，谷歌推出了BERT（变压器的双向编码器表示），这是一种基于注意力机制的预训练语言模型。它采用两阶段策略，首先在大规模语料库上进行无监督预训练，然后对特定任务进行监督学习微调，以适应下游任务。第一个生成预训练模型GPT-1也于2018年由OpenAI发布。GPT-1利用基于Transformer架构的网络模型，特别是仅使用解码器的结构，通过生成式预训练和判别式微调，在特定任务上实现了卓越的性能。GPT-2是2019年发布的高级版本，也采用了只有堆叠编码器的结构。与GPT-1不同，它使用无监督学习模式，仅基于输入和任务概率模型预测输出。这些模型可以称为“预先训练的语言模型”，它们对零样本学习和迁移学习具有重要意义，为LLM的发展铺平了道路。

LLM的参数达到一定规模（例如数十亿或数千亿），在过去三年中作为一种新兴的人工智能技术引起了广泛关注。它们继承了预训练语言模型的结构和训练范式，并受益于其规模增加所提供的可扩展性和涌现效应。LLM不仅在语言相关任务中实现了显著的性能提升，而且还展示了上下文学习等能力，可以应用于其他不同的场景。2020年，在GPT-2的单向语言模型训练之后，引入了GPT-3，但使用了更大的模型和数据集。实验结果表明，GPT-3在小样本学习场景中取得了优异的性能。2023年3月，OpenAI发布了GPT-4，同年5月，GPT-4的技术报告发布。与过去三个版本的GPT相比，GPT-4在小样本学习、逻辑推理、多模式理解、安全性和对更长上下文的支持方面取得了重大进展。

类似的LLM还包括Genimi，它利用PaLM 2等高级语言模型在NLP和信息检索方面表现出色；Claude强调安全性和可解释性，在需要安全和对齐的人工智能系统的场景中尤其有价值；LLaMA，一种开源模型，通过提供一个可访问的平台来探索LLMs，对研究界产生了重大影响；Command R专注于检索增强生成，以增强内容创建和业务应用。

大语言模型在自动驾驶中的应用模块化方法感知

在AD感知任务中，LLMs促进了传统感知任务解决方案的改进，开辟了新的研究方向。目前，LLMs在感知任务中的应用主要集中在以下几个方面：

首先，LLM可以直接用于传统的感知任务。尽管该语言很难直接用于获取或描述周围环境，但它可以作为模态之间的缓冲区，并与视觉和激光雷达等模态结合，进行简单的推理。这提高了感知任务的效率，并优化了不同场景下的性能。例如，[48]使用LLM来分析行人的语言线索，从而提高行人检测的准确性。

此外，由于LLM能够理解复杂的场景，LLM已被直接用于对复杂场景的全面感知，整合各种感知信息以理解复杂的交通环境和驾驶情况。LLM通过分类、识别和理解交通场景中动态和静态元素之间的关系，提高了对AD系统内复杂交互的理解。他们还对这些元素在时间和空间上的相互作用进行了推理，为挑战II提供了解决方案。例如，[52]利用传统的3D感知管道来增强VLM的感知能力。在GPT-4V（ision）的道路上，[53]展示了VLM在处理非分布场景和在实际驾驶环境中识别意图方面的潜力。

LLM的综合能力也揭示了角案例的问题，这是当前感知算法中一个值得关注的问题（挑战I）。[56]分析了LLM理解AD场景的能力，确定了LLM实现类人表现的关键能力，指出LLM能够通过理解情况来解决AD中的关键问题。

最后，LLMs还通过语言情态以各种形式增强现有的感知数据。这些应用程序不仅促进了人与机器之间的透明可解释性，还促进了LLM进一步进行规划和控制，为挑战III提供了一种可能的解决方案。例如，关于对象引用，[59]提出了一种统一的视觉语言模型，该模型可以引用人类指令中描述的对象并在图片框中生成边界框。[60]提出了一种基于GPT-4的上下文感知视觉接地框架。该框架可以响应自然语言指令，引用提到的关键对象，并提供对人类当前情绪的分析。基于OpenFlamingo VLM框架，使用扎根思维链指令训练了一个视觉语言模型，该模型旨在吸收类人能力作为对话式驾驶助手，以与AD任务保持一致。训练好的模型能够提供对场景的理解。

预测

由于LLM的任务能力更强，预测任务以两种方式发展。一方面，预测通常是使用LLM与感知或规划相结合来实现的。这将提高系统的整体效率，并为预测部分提供更准确的信息。[67]嵌入自然语言描述和交通场景的光栅化图像表示，以实现轨迹预测。[68]使用LLM从过去的轨迹中得出运动线索，并将其与传统方法相结合，以更好地预测未来的轨迹。

另一方面，LLM利用其推理能力进行情景预测，为挑战IV提供了部分解决方案。[71]提出了一种将高分辨率信息整合到多模态LLM中的方法。语言模式用于对低分辨率视频进行推理，并为高分辨率视频帧提供先验和亮点。该框架还根据预测的风险和情景为即将发生的行为提供了建议。

规划

LLMs的推理能力和常识使他们能够为车辆制定各种计划，并担任车辆驾驶员。通常，规划任务包括路线规划、行为规划、轨迹规划和混合规划。

关于路线规划，LLM可以使用地图信息、交通规则和用户意图来规划车辆的最佳路线。可以考虑交通拥堵、道路建设和天气条件等因素来选择最方便、最安全的路径。[73]将LLM应用于周围环境的口头描述、导航指令和其他相关信息，以提供城市环境中的元动作级导航序列。[74]使用LLM提取用户的意图，并相应地以描述和地图注释的形式提供路线规划。

在行为规划方面，LLM可以决定车辆在不同情况下的行为，如加速、减速、变道和避开障碍物。这种元动作决策可以使用自然语言来理解和执行，需要综合考虑车辆动力学、周围环境和其他车辆的行为。[76]提出了一个持续学习框架，以增强AD中多模态LLMs的行为决策。[77]利用LLMs根据特定情况提供元动作级行为。LLMs能够学习专业司机的经验，逐步提高他们的驾驶技能。

关于轨迹规划，除了定量元动作外，LLM还可以为车辆提供更精确的轨迹，例如包括转弯、超车和停车在内的轨迹。[80]利用LLM的闭环框架在复杂场景中提供定性运动规划。副驾驶框架能够以坐标点的形式为车辆提供详细的轨迹[81]。

关于混合规划，LLM的推理能力也使混合规划（挑战V）成为可能。这种混合管道整合了不同层次的规划，甚至部分感知，形成了“端到端”的规划解决方案。[52]提出了一种包含场景描述、场景分析和层次规划的思维链（CoT），以形成车辆的轨迹计划。[82]提出了一种“GPT驱动程序”，利用GPT作为AD任务的运动规划器，通过“提示推理微调”过程实现。[83]在实际驾驶任务中使用了LLM，其中LLM用于生成规划车辆运动的代码。下游控制器也被用来控制车辆。

除了在规划中直接应用LLM外，另一种常见的方法是将LLM与现有的规划方法相结合。LLM通过推理或增强来提高传统方法的性能。这可以称为基于模型的规划（解决挑战VI）。[86]提出了一种利用LLM来提高感知、预测和规划性能的框架。

控制

由于控制任务对快速响应的要求，LLM目前很难直接替换现有的控制器。然而，由于LLM的理解和推理能力，他们可以在更高的层次上参与控制任务，例如与规划任务相结合，以提高效率和对不同场景的适应性（解决挑战VII）。[88]将LLM与MPC相结合，在AD场景中精确控制车辆。LLM在此过程中提供高级决策，并使用相应的矩阵对MPC控制器进行微调。该框架也被认为适用于多车辆控制场景。

还多次尝试将LLM直接应用于AD车辆的控制。它们中的大多数将计划和控制相结合，根据元动作提供更精确的控制器信息。[81]提出了一种使用ChatGPT作为控制器选择器的Co-Pilot框架，该框架可以完成所需的任务并调整其输出以正确满足人类意图。

端到端方法

作为一种更系统的解决方案，LLM参与了端到端AD解决方案实施过程中的不同步骤，总结如下。

数据基础

基于学习的AD算法，特别是端到端解决方案，在很大程度上依赖于海量数据。因此，作为解决方案的一部分，提出了许多用于训练基于LLM的端到端算法的新数据集。这些数据集大多包含自然语言注释，因此提供了一个全面的渠道，通过这个渠道，语言可以在训练和实现过程中应用。这种注释也可以作为一种提炼的知识，从而提高训练效率。[92]使用基于Graph VQA的工作流来实现端到端AD，提供了一个包括数据集、任务、基线和指标的整体解决方案。[65]集成视频帧和文本作为输入，模型的输出包括响应和预测控制信号。训练过程包含两个阶段，预训练和混合微调，后一阶段使用ChatGPT注释数据。

表1列出了更具代表性的LLM相关数据集。值得注意的是，这些数据集的贡献不仅限于端到端的解决方案，因为它们为所有AD任务的开发和验证提供了重要的参考。这些数据集中自然语言的比例增加，从简单的标签过渡到自然语言描述或问答格式，也导致了与感知相关的挑战II和III。例如，[50]提出了一个基于NuScene数据集的数据集，其中包含3D驾驶场景中物体的自然语言注释。

51c自动驾驶~合集31_自动驾驶_02

除了基于真实场景的数据集外，在LLM生成能力的帮助下，场景生成也成为AD数据集的一个重要方面。这种能力有助于解决数据分布的长尾问题，提高训练效率。[95]提出了一个框架，即LCTGen，用于基于描述和地图数据生成动态交通场景进行模拟。LLM用于将场景的自然语言描述转换为场景的结构化表示。SimCopilot利用LLM将对象交互的自然语言描述转换为虚拟道路场景的编程代码，大大简化了AD系统交互数据的创建。WEDGE数据集直接使用DALLE大模型生成场景图像，模拟各种天气条件下的二维道路和交通场景，这是构建AD数据集的一种新尝试。

作为端到端代理的大语言模型

LLM本身可以充当代理，同时完成所有驾驶任务。Agent Driver利用LLM作为车辆的智能代理。该代理旨在通过函数调用访问驾驶信息，并充当人类。[110]提出了一种架构，该架构将场景信息编码为数字向量，并应用预训练的LLM来理解场景并提供运动水平控制。它还能够提供其行为的原因，提高解决方案的可解释性。[111]提出了一种开创性的AD通用世界模型，该模型集成了多模态LLM和扩散技术，使其能够直接预测控制信号，并根据历史视觉动作对生成未来帧，从而模拟无限的驾驶体验。Graph VQA实现了基于VLM的端到端AD流水线。在这种方法中，视觉问题引导推理过程通过不同的阶段，在复杂的场景中取得了显著的性能。

训练和思考

正如挑战IX所述，端到端AD解决方案的训练一直是一个重要的话题。法学硕士主要通过更好的推理和反思提高了这一过程的效率。[113]提出了一种新的端到端AD数据集和基准，其中包括传感器数据、控制决策和CoT标签，以指示推理过程。它还提出了一个基线模型DriveCoTAgent，在该数据集上进行训练，以生成CoT预测和最终决策，在开环和闭环评估中表现出强大的性能，并提高了端到端驱动系统的可解释性和可控性。DriveGPT4能够在模拟环境中执行零样本泛化，显示出提高训练效率的潜力。

其他方面

除了直接实现AD任务外，LLM还广泛应用于支持AD的应用，包括人机交互、安全、道德和公平问题。关于人机交互，[114]提出了一个框架，可以通过评估和迭代优化使用LLM执行AD任务的代码。[115]提出了一个以人为中心的框架，将LLM整合到AD的规划中，在复杂的驾驶任务中提供有用的帮助，并通过推理回应不同的查询。AccidentGPT可以响应驾驶员的查询，或自动提供具体建议（例如减速）和驾驶安全通知。

大语言模型会成为自动驾驶的灵丹妙药吗？

在第4节中，我们系统地展示了LLM在AD中的应用越来越多。这些应用涵盖了AD的整个领域，许多应用展示了LLMs超越现有AD算法并应对前面讨论的挑战的潜力。根据我们的调查和分析，我们试图通过基于LLM的AD解决方案的进展，提供对这些现有挑战已经或预计将如何解决的见解。因此，我们将这些见解分为以下三个层次，并在表2中描述了挑战。

解决方案洞察A：LLM在解决相应挑战方面表现出了显著的能力，可以期待基于LLM的全面解决方案。
解决方案洞察B：LLM已经证明有能力解决相应的挑战，但鉴于LLM目前的缺点，挑战可能无法完全解决。
解决方案洞察C：LLM可以提高相关任务的性能，但可能无法解决挑战中的关键问题。

51c自动驾驶~合集31_自动驾驶_03

如表2所示，我们可以得出结论，LLM在为现有AD算法中的当前挑战提供有效解决方案方面表现出了巨大的潜力。具体而言，我们认为LLMs在AD任务中的表现主要源于以下几个方面。

常识。常识是每个成年人都应该具备的实际判断或基本事实知识的基本水平。它是人类基于积累的经验和知识而提炼出来的理解。常识在日常生活中起着至关重要的作用。人类通过模仿快速获得特定技能的能力与此密切相关。例如，一个成年人需要大约20个小时的训练才能通过驾驶考试。这是因为训练主要侧重于驾驶的操作技能。许多其他与驾驶相关的技能，如识别交通信号或标志，都是直观理解的，不需要大量学习。然而，对于AD模型，每个元素都必须单独设计和训练。法学硕士从广泛的语料库中积累了一种“常识”。这可以被视为高维空间中特定语义指标的表示。例如，与“红灯”和“停车”概念相对应的表示向量可能在表示AD行为的维度上具有紧密投影。这使得LLM能够以最少的预先指令执行复杂的AD任务，并使很少的射击学习成为可能。
推理能力。与以前的语言模型相比，LLM能够理解文本输入中的因果关系和逻辑关系。因此，一些研究人员认为LLMs能够像人类一样进行推理。这种推理能力增强了LLM对交通场景的理解，这对于需要预测未来情况并做出相应决策的AD任务至关重要。此外，LLM的推理能力为AD中遇到的“长尾”问题提供了一种潜在的解决方案。即使在极端情况下，这些模型也可以根据其推理做出准确的决策。
沟通能力。LLM的另一个重要能力是它们可以与人类流利地交流。重新审视人类的驾驶行为，我们可以注意到语言主要用于导航和路线描述。LLM可以理解人类的意图，并通过推理提供适当的输出，因此可以直接参与驾驶过程。除了驾驶任务本身，与人类沟通的能力也有利于LLM在训练和调整过程中。人类和LLM之间的相互理解和互动在一定程度上解决了神经网络作为黑盒模型的问题。

我们注意到，LLM的这些优势部分解决了数据驱动学习算法遗留下来的几个长期缺陷。这些算法在AD实现中得到了广泛的应用，给AD任务带来了特定的挑战。因此，LLM能够为他们提供解决方案。此外，我们可以得出结论，这意味着从以数据为中心的模型向利用数据和知识的混合模型的转变。这种双重驱动的方法结合了两种范式的优点。从执行驾驶任务的角度来看，这种转变也使实施过程更类似于人类决策，这可能是AD的最终目标。我们预计未来数据和知识将在相当长的一段时间内共存，可能以LLM的形式体现出来，知识在AD解决方案中的作用逐渐凸显。未来的研究应侧重于如何更好地整合数据驱动和基于知识的方法，以提高AD解决方案的训练和实施效率。

存在的限制

尽管取得了各种进步，但我们必须指出，LLM在AD中的进一步应用面临着许多局限性和挑战。作为一种安全关键场景，这些局限性需要在未来的研究中得到更多的关注。其中一些局限性主要是由于当前LLM性能的缺点，这些缺点继承了它们的模型结构、训练方法或实现。

LLMs的“幻觉”问题。“幻觉”是指LLM在没有充分依据的情况下给出的结果与事实或用户要求不符的情况。这种现象在LLM中很常见，作为一个具有高安全要求的系统，在AD过程中对这些问题的容忍度非常低。因此，必须采取措施防止幻觉问题。现有研究表明，LLM的幻觉主要来自数据、训练和推理过程。为了解决这些原因，可以使用检索增强生成（RAG）、改进预训练和调优过程以及设计CoT等方法来改进。此外，为了防止可能的错误结果影响车辆的实际运行，还可以设计保险机制，并使用其他规则来判断LLM输出的合理性。
模型响应时间。实时性能差是目前LLM的缺点之一。无论模型是在线还是离线，LLM的巨大数量都使其响应延迟难以忽视。这在AD的背景下可能会产生严重的后果，特别是对响应时间高度敏感的任务（如控制）。一方面可以通过提高计算能力来解决这个问题，另一方面，在实时性能得到解决之前，LLM可能更适合具有更高延迟容限的任务。
对物理世界缺乏了解。虽然LLM在处理和生成文本方面很强大，但在理解物理世界方面却有一个明显的缺点。他们缺乏与环境互动并从中学习的能力，这意味着他们对重力、动量或物体纹理等物理概念没有直接的理解。他们无法像人类甚至一些机器人那样体验世界。他们的知识完全基于他们接受训练的文本，他们很难根据现实世界的经验或感官输入来更新这些知识。这限制了他们准确建模或预测物理现象的能力，并可能导致在物理世界中产生无意义或不正确的输出。当将这些模型应用于需要深入了解物理世界（如驾驶车辆）的任务时，这是一个重大限制。进一步提高LLM有效捕获和理解现实世界信息的能力非常重要。

其他挑战来自LLM和AD任务的结合。

隐私和安全考虑。自动驾驶汽车使用的数据通常非常敏感，包括特定位置、驾驶习惯等细节。这些数据对于微调AD任务的LLM至关重要。这引发了严重的数据隐私和安全问题。例如，如果法学硕士在无意中包含个人信息的公开数据上接受培训，它可能会学习和复制这些信息，从而导致隐私泄露。确保这些数据得到安全处理，并且模型不会无意中泄露这些信息，这是一个关键的挑战。
语言造成的偏见。我们注意到，现在几乎所有的法学硕士都使用英语作为对话语言，涉及其他语言的实验和研究很少。由于语言具有更强的区域性，我们认为这可能会成为一种潜在的偏见，即使用不同语言时模型的性能无法保持一致。这种偏见可能比基于视觉和其他模式的算法更明显，也可能带来潜在的伦理和道德风险。此外，训练数据隐私和数据集安全等问题也值得关注。我们认为可以进行进一步的研究来解决这些问题。

在LLM应用于现实世界的AD应用之前，需要解决这些挑战，但我们相信，LLM和相关AD解决方案的快速发展将不断为这些挑战提供新的见解。

Perspectives

自AD概念提出以来，研究人员一直在探索实现这一目标的不同途径。针对不同的技术路径，已经进行了许多讨论。因此，我们想回顾一下其中的一些讨论，并就AD的最终解决方案提出一些看法。

端到端 or 模块法自动机爱谁

模块化和端到端方法一直是AD技术讨论的前沿。本文的引言部分总结了这两种路径的一些优缺点。然而，LLMs为这场讨论带来了新的亮点。一方面，LLM的出现模糊了模块化和端到端方法之间的界限。LLM的多功能性使其能够同时完成多项任务，从而打破了传统的模块化界限。例如，LLM执行的许多规划任务直接基于原始传感器输入。从功能上讲，这种实现涵盖了从感知到规划的所有方面，在形式上，它们可以被视为接近端到端的实现。我们认为，随着模型泛化能力的增强，这种模糊可能会成为一种趋势。

另一方面，研究人员已经开始更加关注端到端方法的核心，而不是形式本身。端到端解决方案的优点可以概括为提供统一的信道，减少不同模块之间的信息传输损失。换言之，只要确保信息的完整传递，形式上的差异就不再重要。这也是UniAD“模块化端到端”的起源。这种端到端方法形式的转变也可能为端到端算法的测试和验证等现有问题提供解决方案。

因此，我们可以相信，端到端和模块化在形式上的区别将继续减弱，但考虑到系统的安全性和鲁棒性，一些成熟的模块（如ADAS）将在实际应用中长期保留。

通用人工智能与驾驶智能

最后，我们得出了AD领域长期存在的一个争论：高度先进的AGI对于实现最佳AD是否不可或缺？一方面，正如我们之前提到的，LLMs所拥有的常识和其他知识在执行AD任务中发挥了重要作用。虽然我们还不能确定LLM是否是AGI的重要途径点，但它们在一定程度上满足了人们对AGI的期望。应用自然语言的能力使他们能够有效地从庞大的人类语言语料库中学习，并以易于理解的方式与人类互动。另一方面，人类的驾驶技能相对独立。例如，一位经验丰富的卡车司机可能没有受过高等教育，而AD研究人员可能没有驾照。这意味着通用人工智能不一定是最佳AD的唯一解决方案。

从理想主义的角度来看，构建一个驾驶智能实体似乎更容易。我们距离AGI还有很长的路要走，而随着大模型、世界模型等的成熟，驾驶智能更容易实现。如果我们能够开发专门用于驾驶智能的算法，我们可能能够解决更多与大型模型相关的问题。然而，实现这一目标也带来了许多挑战。首先，最优AD的定义仍然有些模糊。什么样的驾驶策略可以被称为最优，仍然是一个值得进一步研究和讨论的话题。此外，理想化最优驾驶模型本身的实施也存在一些挑战。例如，由于人类认知的局限性，精确定义最佳驾驶所需的知识是具有挑战性的。图2从知识的角度说明了这一点。最佳驾驶所需的一些知识可能还没有一种方法可以总结，例如经验丰富的驾驶员在关键情况下做出的直观判断。

另一方面，我们相信LLMs在不久的将来仍将是AGI类药物的最佳形式之一。因此，LLM驱动的AD仍将是一个值得注意的研究前沿。为了进一步优化LLM在AD任务中的应用，我们认为可以在以下领域进行研究。首先，优化LLM本身的结构，设计更有效的培训方法。与现有模型相比，这些改进可以增强模型在推理、常识等方面的能力。此外，设计更好的结构可以帮助减少微调和本地部署期间的计算功耗。这有助于在智能车辆中部署LLM，改善响应时间长的问题，并降低应用LLM的成本。此外，在AD和LLM的集成中可以进行各种优化。例如，在预训练阶段引入更多与AD相关的数据。现有智能车辆的软件和硬件结构也可以进行优化，以支持LLM的系统级集成应用。

总的来说，这个问题可能在很大程度上取决于人工智能技术的后续发展：通用人工智能的发展能否实现快速突破，或者驾驶智能模型能否更快地实现。我们认为，在相当长的一段时间内，这两种方法都有其优势，将共存或相互备份，就像模块化和端到端解决方案一样。

#3D场景理解最新研究进展

3D场景理解是指利用计算机视觉和机器学习技术来解释和理解三维空间中的环境和对象，通常涉及到从3D数据中识别和分类对象、理解对象之间的关系以及场景的语义信息。传统的3D场景理解包括但不限于：（1）语义分割：识别并分割出图像中每个像素所属的类别（但不同实例的同一类别对象（如多辆汽车）通常无法区分）（2）实例分割：不仅识别图像中每个像素的对象类别，还区分同一类别中不同的实例（3）对象检测（4）视觉定位。3D场景理解广泛应用于自动驾驶、具身智能等领域，比如辅助车辆理解周围的3D环境，进行导航和避障、帮助机器人在复杂环境中自主导航、与环境交互等。

目前对于3D场景理解的最新研究进展如下：（1）部分学者致力于提高3D场景理解模型的计算效率，比如改进自注意力机制的计算复杂度。（2）也有大部分学者关注开放词汇的3D场景理解，即在没有明确标记数据的情况下，对3D场景进行理解和分类的方法。这与传统的3D场景理解方法不同，传统方法通常依赖于有限的、预先定义好的类别标签，而开放词汇3D场景理解允许模型理解和分类更广泛的对象、属性和场景特征，而无需针对每个新类别进行重新训练。为了实现开放词汇的3D场景理解，学者们致力于将视觉语言模型（如CLIP）的先验知识引入3D场景理解，具体来说需要将3D点云特征与文本特征、图像特征对齐。（3）另外，鉴于目前对于各个单一任务的3D场景理解研究已卓有成就，并且大多数3D场景理解框架仅适用于特定任务，还有学者希望设计一个通用的任务框架来应用在各种3D场景理解的任务上，包括语义分割、实例分割、全景分割、交互分割、开放词汇分割等，具体方法比如通过知识蒸馏将通用框架在某一任务上的知识向其他任务转移，从而实现了任务间的知识共享。

来看下近年来的一些研究。

Swin3D：用于 3D 室内场景理解的预训练 Transformer 主干

3D Transformer网络在处理3D点云数据时面临的高计算复杂度问题。在传统的3D Transformer网络中，自注意力（self-attention）模块的空间复杂度通常是二次方的，因为对于每个输入点，都需要计算它与所有其他点之间的关系，这意味着随着点云数据量的增加，计算和内存需求会急剧上升。这不仅限制了模型的规模，也限制了其在大规模数据集上的应用。为了解决这一问题，文章提出了一种改进的自注意力机制，能够在稀疏体素（voxels）网格上以线性空间复杂度运行，显著降低了内存和计算成本，使得模型能够处理更大规模的数据集。

高效的自注意力算法：文章设计了一种新型的3D自注意力操作符，用于在局部窗口内计算稀疏体素的自注意力。这种算法将自注意力的内存成本从二次降低到线性，相对于窗口内稀疏体素的数量，从而使得模型能够高效地运行而不会牺牲自注意力的准确性。

首先，文章使用稀疏体素（voxels）来表示3D点云数据。体素化是一种将连续的3D空间离散化成网格单元（体素）的方法，其中只有非空的体素才会存储点云数据。这种方法可以有效地减少内存占用，因为只处理非空体素，而不是整个空间。
此外，文章将3D空间划分为局部窗口，并在这些窗口内计算自注意力。这种方法限制了自注意力计算的范围，从而减少了计算量和内存需求。
文章提出的新型自注意力操作符通过优化计算过程，使得内存需求与窗口内非空体素的数量呈线性增长。这是通过避免存储所有点对之间的注意力权重来实现的，而是直接在计算过程中累加这些权重。

层次化结构：SWIN3D采用了类似Swin Transformer的层次化结构，由多个阶段的SWIN3D块组成，每个阶段处理不同分辨率的体素特征，实现了多尺度特征编码。
上下文相对位置编码（cRPE）：为了捕捉点云信号的不规则性，文章提出了一种泛化的上下文相对位置编码方案。这种编码方案不仅考虑了点的位置信息，还考虑了颜色、法线等其他信号的不规则性，通过将这些信号的相对变化纳入自注意力计算中，进一步提升了网络的性能。

OpenScene：用开放词汇理解3D场景

开放词汇3D场景理解是指能够在没有明确标记数据的情况下，对3D场景进行理解和分类的方法。这与传统的3D场景理解方法不同，传统方法通常依赖于有限的、预先定义好的类别标签，并且需要大量的标记3D数据来训练模型，以便模型能够在特定任务上表现出色。这种方法的难点在于：（1）数据标记成本高（2）泛化能力有限（3）任务特定性强。开放词汇3D场景理解旨在解决这些限制，它允许模型理解和分类更广泛的对象、属性和场景特征，而无需针对每个新类别进行重新训练。

文章提出的模型架构OpenScene，是一种零样本学习方法，它利用了大规模预训练的文本-图像嵌入模型（如CLIP）来增强3D场景理解的能力。模型将3D点的特征与文本和图像像素在CLIP特征空间中共同嵌入。这意味着3D点的特征不仅与视觉信息相关联，还与语言概念对齐，从而允许使用文本查询来探索3D场景。模型具体通过以下步骤将3D点的特征与视觉特征和语言特征的对齐：

图像特征提取及2D-3D配对：首先，对于每个RGB图像，使用一个预训练的2D视觉-语言分割模型（如OpenSeg或LSeg）来计算每个像素的嵌入特征。这些特征被用来表示图像中的视觉信息。接着，对于3D点云中的每个3D表面点，通过相机的内参和外参矩阵将其投影回对应的2D图像平面上。这个步骤确保了每个3D点都能找到它在2D图像中的对应像素。这样，每个3D点都获得了一个融合了多个视角下视觉信息的特征向量。
3D网络蒸馏：尽管可以直接使用融合的2D特征进行语言驱动的3D场景理解，但为了提高鲁棒性并处理只有3D点云数据的情况，文章提出了一个3D网络（如MinkowskiNet），它只使用3D点的位置信息作为输入，并训练这个网络来复现融合的2D特征。通过最小化3D网络输出和融合的2D特征之间的差异，3D网络学习到了与2D特征对齐的特征表示。
2D-3D特征集成：为了结合2D图像特征和3D几何特征的优势，文章提出了一个集成方法。通过计算每个3D点的2D融合特征和3D蒸馏特征与一组文本提示的相似度，选择与文本提示最相似的特征作为最终的集成特征。

由于CLIP模型是在大规模的图像和文本数据上预训练的，它能够捕捉到比传统对象类别标签更丰富的概念，包括物理属性、材料、功能等。OpenScene利用这一点，允许用户输入任意文本查询，并在3D场景中找到与这些查询匹配的部分。

CLIP2Scene：通过CLIP实现标签高效的3D场景理解

类似于上文，CLIP2Scene也是应用 CLIP 来帮助学习 3D 场景理解，将CLIP知识从2D图像-文本预训练模型转移到3D点云网络。CLIP2Scene的框架通过语义和时空一致性正则化来预训练3D点云网络，使得3D点云特征能够与CLIP的视觉和文本特征对齐。下面是具体的对齐方法：

语义一致性正则化（Semantic Consistency Regularization）：利用CLIP的文本语义来选择正样本和负样本。具体来说，通过将类别名称放入预先定义的模板中，使用CLIP的文本编码器生成文本嵌入（text embeddings），这些嵌入包含了对应类别的语义信息。然后，将这些文本嵌入与3D点云特征进行对比学习。通过对比损失函数，拉近具有相同语义的点云特征和文本嵌入之间的距离，同时推远不同语义的点云特征和文本嵌入，从而使得3D网络学习到的特征能够与CLIP的文本语义对齐。
时空一致性正则化（Spatial-Temporal Consistency Regularization）：此外，还将点云数据与对应的图像数据进行校准，建立图像像素特征与点云特征之间的对应关系。为了使多扫描点云具有时间一致性，即在连续时间帧内捕获的点云数据具有空间和时间上的连贯性，在正则化过程中，强制使得同一空间位置和时间戳内的点云特征与图像像素特征保持一致。这通过计算点云特征和对应图像像素特征之间的相似度，并使用损失函数来最小化它们之间的差异来实现。

通过上述两个正则化策略，CLIP2Scene框架能够将3D点云特征与CLIP的丰富视觉和文本信息有效地结合起来，从而提高3D场景理解的性能。这种跨模态的对比学习方法不仅使得3D网络能够进行零样本（annotation-free）的语义分割，而且在有少量标注数据进行微调（fine-tuning）时也能显著提高性能。

PLA：语言驱动的开放词汇3D场景理解

提出了一种名为PLA（Point-Language Association）的方法，也是希望利用视觉语言模型辅助3D特征与文本特征对齐，实现开放词汇3D场景理解。具体如下：

首先，从3D场景中获取多个视角的图像。这些图像通常由围绕3D场景的不同位置的相机拍摄得到，能够提供场景的全面视图。利用3D场景和这些多视图图像之间的几何关系，例如相机的内参和外参，以及3D点与2D图像之间的投影关系。这些几何约束确保了从不同视角观察到的同一物体在3D空间中的位置是一致的。
构建分层的3D-字幕对：然后文章使用一个预训练的视觉语言基础模型（具体为GPT-ViT2）来为3D场景的多视图图像添加字幕，提供与3D场景相关的语义丰富的描述。文章设计了分层的3D字幕对，包括场景级（将整个3D场景与一个汇总的字幕相关联）、视图级（将每个视角下的3D点云与对应图像的字幕相关联）和实体级（通过分析相邻视图级点集的差异和交集，构建与特定实体（如单个物体实例）相关的字幕）。这些层次化的字幕对利用3D场景和多视图图像之间的几何约束，从而在不同的空间尺度上建立3D点云与文本之间的关联。
3D点云特征与文本特征对齐：最后，通过对比学习的方法，使得3D点云的特征与相应文本描述的特征在特征空间中相互靠近，从而学习到能够反映文本描述内容的3D特征表示。

这种方法的优势在于，它不仅能够利用丰富的文本信息来增强3D数据的理解，还能够处理不同尺度和粒度的3D场景内容，从而提高模型在开放词汇3D场景理解任务中的性能和泛化能力。

UniSeg3D：三维场景理解的统一框架

以往的大多数 3D 场景分割方法都专门用于特定任务，因此将他们对 3D 场景的理解限制在特定于任务的视角上。这篇文章提出了 UniSeg3D，它使用一个统一的Transformer作为核心处理单元，这个Transformer接收统一的输入表示，并为所有任务生成特征。这种设计允许模型在不同任务之间共享知识，提高了模型的泛化能力和效率。

首先，为了处理不同的任务，UniSeg3D引入了多种类型的输入查询（queries）：

通用分割任务（如语义分割、实例分割、全景分割）使用点云作为输入，通过3D U-Net提取特征。
交互分割任务通过视觉提示（如点击或画框）来指定感兴趣的区域。
引用分割任务使用文本描述来指定分割目标。
开放词汇分割任务处理未在训练集中出现的类别。

然后，UniSeg3D利用知识蒸馏从交互分割任务（由于其视觉提示的可靠性，通常具有较高的分割性能）向其他任务转移知识。具体来说，使用匈牙利算法（Hungarian algorithm）将交互分割任务的预测结果与真实标签进行匹配，从而得到正样本。然后，在交互分割任务的预测掩码中，选择具有最高置信度（例如，前k%）的区域作为学习区域。在这些学习区域内，计算交互分割任务的预测掩码与“学生”任务的预测掩码之间的损失。这个损失通过比较匹配区域内的预测掩码来衡量，使用二元交叉熵损失（Binary Cross-Entropy, BCE）来实现。通过最小化这个损失，将交互分割任务的知识转移到其他任务中，从而提高这些任务的性能。
此外，为了将文本描述与3D场景中的相应对象或区域关联起来，设计了一种基于排名的对比学习方法。具体来说，首先使用Transformer架构来获取点云特征、使用预训练的CLIP模型来获取文本特征。然后通过一个对比学习框架匹配点云特征和文本特征。为了进一步优化对比学习的效果，UniSeg3D引入了排名规则。这个规则确保在对比学习过程中，与特定文本描述最相关的点云特征在相似度排序中位于最前面。通过这种方式，模型能够更好地理解和处理引用分割任务中的文本描述。

参考文献：
[1] Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene Understanding https://arxiv.org/abs/2304.06906
[2] OpenScene: 3D Scene Understanding with Open Vocabularies https://openaccess.thecvf.com/content/CVPR2023/papers/Peng_OpenScene_3D_Scene_Understanding_With_Open_Vocabularies_CVPR_2023_paper.pdf
[3] CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP
https://arxiv.org/abs/2301.04926[4] PLA: Language-Driven Open-Vocabulary 3D Scene Understanding
https://openaccess.thecvf.com/content/CVPR2023/papers/Ding_PLA_Language-Driven_Open-Vocabulary_3D_Scene_Understanding_CVPR_2023_paper.pdf
[5] A Unified Framework for 3D Scene Understanding
https://arxiv.org/abs/2407.03263

标签：场景,AD,模型,51c,任务,LLM,合集,31,3D
From： https://blog.51cto.com/whaosoft/12121357

#大语言模型会成为自动驾驶的灵丹妙药吗

#3D场景理解最新研究进展

相关文章

赞助商

阅读排行