自动驾驶技术受到了学术界和工业界的广泛关注,但当前的自动驾驶系统大多基于数据驱动的方法,存在可解释性、泛化能力和持续学习能力方面的显著不足。而且单车自动驾驶系统缺乏与其他车辆协作和协商的能力,这对于提高驾驶安全性和效率至关重要。
为了有效解决这些问题,本研究利用大型语言模型(LLMs)开发了一种新的框架——AGENTSCODRIVER,相较于传统依赖数据驱动的方法,AGENTSCODRIVER能够实现多车之间的协同驾驶,通过车辆间的沟通与协作,提高交通效率和安全性。这种协作能力在复杂的交通场景中尤为重要,例如在交叉路口的通行顺序协商。
AGENTSCODRIVER的终身学习能力是其另一大优势,它可以随着时间的推移不断积累经验,自我提升,这一点与传统的自动驾驶系统形成鲜明对比,后者通常在模型训练完成后就无法再更新知识。此外,该框架的解释性和推理能力也显著优于传统方法,它能够模拟人类的思考过程,提供决策的透明度,增强人们对系统的信任。
方法
研究者构建了一个基于分散部分可观测马尔可夫决策过程(D-POMDP)的数学模型来描述多车协作驾驶的场景。该模型考虑了每个智能体(车辆)具有自己的行动空间和观测空间,并且能够通过通信来共享信息和协调行动。这种建模方法允许研究者以一种形式化的方式来分析和设计协作驾驶策略,确保智能体能够在部分可观测的环境中有效地协作,以达成共同的目标。
D-POMDP模型的关键在于智能体需要根据观测到的环境状态和接收到的通信信息来制定策略,这要求智能体不仅要理解局部环境,还要预测其他智能体的行为并做出相应的反应。通过定义智能体的观测函数和策略映射,研究者能够构建一个框架,使得多车系统能够在复杂的交通环境中实现安全、高效的协作驾驶。
整体架构
AGENTSCODRIVER 的整体架构是一个多车、闭环、终身学习的协作驾驶框架。构成框架的五个关键模块:观测模块、推理引擎、记忆模块、强化反思模块和通信模块。在每一步中,观测模块首先感知周围环境并提取必要信息,然后这些信息被编码成嵌入向量,并用于从记忆模块中召回相关的顶级记忆。随后,描述、相关记忆以及来自其他智能体的消息(如果有的话)将被组合成一个提示(prompt),并输入到推理引擎中。推理引擎基于输入进行多轮推理,并生成最终决策。决策最终被解码为特定的元动作,并在自车 CAV 上执行以实现安全驾驶。
观测模块
为了使智能体能够协作,CAV 必须能够感知其周围环境并提取对下游高阶任务推理必要的信息。研究者开发了一个观测模块,用于编码智能体周围的场景并提取有用的高级信息,例如车道数量、周围车辆的位置和速度。这些观察结果随后被输入到智能体的推理引擎中进行分析和决策制定。
推理引擎
推理引擎是模仿人类推理能力的关键部分,它对于人类做出日常和复杂决策至关重要。研究者提出了一个包含三个步骤的推理引擎:1) 提示生成,2) 推理过程,3) 运动规划。提示被分为几个部分,包括前缀指令、场景描述、少量经验、目标描述、动作列表以及其他智能体发来的消息(如果有的话)。推理过程利用大型语言模型(LLMs)进行多轮推理,将复杂问题分解为一系列子问题,并逐步解决以生成最终决策。
记忆模块
记忆对于人类至关重要,当一个人驾驶汽车时,他会使用常识,比如遵守交通规则,并回顾过去的经历来做出决策。为了将这种能力赋予智能体,研究者提出了一个记忆模块,包括常识记忆、经验记忆和反思记忆。这些记忆以结构化文本的形式存储,智能体可以从记忆模块中检索相关记忆以供决策使用。
迭代强化反思模块
如果一个人想在某个领域成为专家,他必须从过去的经历中学习,他必须有能力反思过去的错误并分析背后的原因。对于驾驶汽车的智能体来说,拥有这种自我反思的能力同样至关重要。研究者提出了一个包含评估器和反思器的迭代强化反思模块。评估器根据环境观察和智能体的输出(包括决策和推理过程)生成奖励分数,而反思器则生成详细的反馈,帮助智能体从历史错误中学习并改进其未来行为。
通信模块
对于协作智能体来说,彼此之间的有效通信至关重要。通过通信,智能体的观察范围将得到扩展,并且通信对于智能体之间的协商和做出更好决策也非常重要。研究者提出了一个通信模块,该模块确定何时通信以及通信什么内容。通信模块使用大型语言模型作为消息生成器,智能体在认为需要与其他智能体通信时会调用这个工具,并生成与其他智能体通信的消息。
通过这些模块的协同工作,AGENTSCODRIVER 框架能够实现多车之间的协作驾驶,提高驾驶的安全性和效率,并通过终身学习不断优化其性能。
实验
研究者采用了 HighwayEnv 作为模拟环境,这是一个在自动驾驶和战术决策研究中广泛认可的平台,提供了多种驾驶模型并有效模拟了多车之间的交互。AGENTSCODRIVER 的实现基于 LangChain 框架,这是一个用于开发基于大型语言模型(LLM)的应用程序的框架。研究者使用了 OpenAI 开发的 GPT-3.5-turbo 作为基础的 LLM 模型。为了评估框架在模拟环境中的性能,研究者采用了成功率(Success Rate, SR)和成功步骤(Success Step, SS)作为评价指标。
研究者主要关注评估 AGENTSCODRIVER 的推理过程,特别是认知记忆的存在与否对性能的影响。实验在高速公路(Highway)和交叉口(Intersection)两种场景中进行,每种场景都设置了不同数量的记忆项(0、1、3、5),以模拟少样本学习(few-shot)的情况。实验还包括了单车设置和两车协作驾驶设置的比较。每种设置都重复了10次,以获得不同的初始化种子下的最终结果。
随着记忆项数量的增加,两种场景下的性能都有显著提升。例如,在高速公路场景中,当记忆项从0增加到5时,平均成功步骤(SSmean)增加了约10步。此外,研究者还发现,在单车设置下的平均成功步骤(SSmean)高于两车协作驾驶设置,这表明在当前框架下,控制的车辆越多,与其他车辆发生碰撞的概率越高。然而研究者进一步分析了多车设置对控制车辆的影响,结果表明多车协作可以提高框架的成功率。
研究者还进行了与现有最先进方法的比较实验。在 HighwayEnv 中与 DiLu 方法进行了比较,结果显示 AGENTSCODRIVER 在所有设置中都优于 DiLu。
研究者评估了 AGENTSCODRIVER 在不同场景下的终身学习能力,结果显示随着记忆项数量的增加,成功步骤的平均值(SSmean)和成功率(SR)都呈现出上升趋势。
为了评估迭代强化反思模块和通信模块的效果,研究者进行了消融研究。结果表明,具有反思模块的框架在性能上优于没有反思模块的框架,这表明反思模块可以有效地提高框架的性能。同样,具有通信模块的框架在成功率上显著优于没有通信模块的框架,这证明了通信模块可以有效地提高框架的性能。
最后,研究者提供了对框架的定性分析,展示了 AGENTSCODRIVER 如何获取关键的环境信息,检索相关的记忆项,并基于这些信息进行推理以获得最终决策。
通过这些详细的实验设置和评估,研究者证明了 AGENTSCODRIVER 框架在多车协作驾驶任务中的有效性和优越性。
虽然AGENTSCODRIVER 框架在多车协作驾驶方面取得了显著的实验成果,但仍存在一些局限性。比如该框架的输出生成需要数秒时间,这限制了其在实时自动驾驶场景中的应用。而且作为一个文本驱动的系统,AGENTSCODRIVER 缺乏直接处理视觉信息的能力。
针对这些局限性,未来的工作将包括扩展框架以集成多模态输入,优化算法以提高实时性能,并在真实世界中进行测试以增强系统的安全性和鲁棒性。研究者还计划提高系统的可解释性,并实现更有效的人机交互。通过这些改进,AGENTSCODRIVER 有望在自动驾驶领域发挥更大的潜力,为实现智能化交通系统做出重要贡献。
论文链接:https://arxiv.org/abs/2404.06345
标签:框架,新篇章,驾驶,智能,协作,AGENTSCODRIVER,模块,研究者 From: https://blog.csdn.net/weixin_44292902/article/details/140045023