23年2月份来自中科院自动化所和国内多所高校的一篇自动驾驶论文“ADAPT: Action-aware Driving Caption Transformer“。最近Wayve公布的开环驾驶模型LinGO-1,思路有些类似。
端到端自动驾驶在交通运输行业具有巨大的影响力。然而,自动决策过程缺乏透明度和可解释性,阻碍了实践中的应用。早期已经有一些尝试使用注意图或成本体来获得更好的模型可解释性,这对于普通乘客来说很难理解。为了弥合差距,作者提出一种基于端到端Transformer的架构,叫ADAPT(动作-觉察驾驶字幕Transformer),为自主车辆控制和动作的每个决策步骤提供用户友好的自然语言叙述和推理。 ADAPT通过共享视频表示共同训练驾驶字幕任务和车辆控制预测任务。在BDD-X(Berkeley DeepDrive eXplanation)数据集进行实验,结果证明ADAPT框架在自动化指标和人工评估方面达到最好性能。另外构建了一个新的可部署系统,以原始汽车视频为输入,并实时输出动作叙述和推理。
如图所示:“[动作叙述:]汽车停在道路右侧,[推理:]因为汽车正在停车”。通过自然语言叙述和推理来解释车辆行为,使整个自主系统更加透明和易于理解。
如图 显示了 ADAPT 架构,它解决了两项任务:驾驶字幕生成 (DCG) 和控制信号预测 (CSP)。DCG将一系列原始视频帧作为输入,并输出两个自然语言句子:一个描述车辆的动作(例如,“汽车正在加速”),另一个解释采取此动作的原因(例如,“因为交通信号灯变绿”)。CSP采用相同的视频帧作为输入,并输出一系列控制信号,例如速度、航向或加速度。通常,DCG和CSP任务共享相同的视频编码器,同时使用不同的预测头来生成最终的预测结果。对于DCG任务,用视觉-语言transformer的编码器(c)通过序列-到-序列生成得到两个自然语言句子。对于CSP任务,用运动transformer编码器(b)来预测控制信号序列。
标签:Transformer,DCG,驾驶,字幕,ADAPT,CSP From: https://blog.csdn.net/yorkhunter/article/details/140409494