首页 > 其他分享 >ADAPT: 动作-觉察的驾驶字幕Transformer

ADAPT: 动作-觉察的驾驶字幕Transformer

时间:2024-07-18 13:28:50浏览次数:14  
标签:Transformer DCG 驾驶 字幕 ADAPT CSP

23年2月份来自中科院自动化所和国内多所高校的一篇自动驾驶论文“ADAPT: Action-aware Driving Caption Transformer“。最近Wayve公布的开环驾驶模型LinGO-1,思路有些类似。

端到端自动驾驶在交通运输行业具有巨大的影响力。然而,自动决策过程缺乏透明度和可解释性,阻碍了实践中的应用。早期已经有一些尝试使用注意图或成本体来获得更好的模型可解释性,这对于普通乘客来说很难理解。为了弥合差距,作者提出一种基于端到端Transformer的架构,叫ADAPT(动作-觉察驾驶字幕Transformer),为自主车辆控制和动作的每个决策步骤提供用户友好的自然语言叙述和推理。 ADAPT通过共享视频表示共同训练驾驶字幕任务和车辆控制预测任务。在BDD-X(Berkeley DeepDrive eXplanation)数据集进行实验,结果证明ADAPT框架在自动化指标和人工评估方面达到最好性能。另外构建了一个新的可部署系统,以原始汽车视频为输入,并实时输出动作叙述和推理。

如图所示:“[动作叙述:]汽车停在道路右侧,[推理:]因为汽车正在停车”。通过自然语言叙述和推理来解释车辆行为,使整个自主系统更加透明和易于理解。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e6MSEP2l-1721239683510)(https://i-blog.csdnimg.cn/direct/6070b410798b48f0a48efae94cc618b6.png)]

如图 显示了 ADAPT 架构,它解决了两项任务:驾驶字幕生成 (DCG) 和控制信号预测 (CSP)。DCG将一系列原始视频帧作为输入,并输出两个自然语言句子:一个描述车辆的动作(例如,“汽车正在加速”),另一个解释采取此动作的原因(例如,“因为交通信号灯变绿”)。CSP采用相同的视频帧作为输入,并输出一系列控制信号,例如速度、航向或加速度。通常,DCG和CSP任务共享相同的视频编码器,同时使用不同的预测头来生成最终的预测结果。对于DCG任务,用视觉-语言transformer的编码器(c)通过序列-到-序列生成得到两个自然语言句子。对于CSP任务,用运动transformer编码器(b)来预测控制信号序列。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-laPGZb3b-1721239683511)(https://i-blog.csdnimg.cn/direct/98800fc69aaf47aeb286178928acd5fb.png)]

标签:Transformer,DCG,驾驶,字幕,ADAPT,CSP
From: https://blog.csdn.net/yorkhunter/article/details/140409494

相关文章

  • 【CEEMDAN-VMD-Transformer-LSTM】双重分解+Transformer-LSTM多变量时序预测
    双重分解+Transformer-LSTM是一种用于多变量时序预测的方法,结合了双重分解(CEEMDAN-VMD)、Transformer和LSTM模型。这种方法可以用于分析和预测具有多个变量的时间序列数据。下面是一个更详细的步骤,演示如何使用双重分解+Transformer-LSTM进行多变量时序预测:数据准备:收集多......
  • 大语言模型系列 - Transformer:从基础原理到应用
    文章目录大语言模型系列-Transformer:从基础原理到应用一、Transformer简介二、Transformer的基础原理自注意力机制多头注意力机制位置编码残差连接和层归一化三、Transformer的架构编码器解码器四、Transformer的应用场景机器翻译文本生成文本分类问答系统五、Trans......
  • 如何从浅入深理解 Transformer
    如何从浅入深理解 Transformer附赠自动驾驶最全的学习资料和量产经验:链接本回答分为三个部分:Transformer,Attention,论文学习顺序按照排列顺序,不过还是看个人自由。如果对attention了解,就可以跳过。AttentionAttention based model 是什么,它解决了什么问题?深度学......
  • windows11 使用pytorch transformers运行Qwen2-0.5B-Instruct模型 (基于anaconda pyth
    吾名爱妃,性好静亦好动。好编程,常沉浸于代码之世界,思维纵横,力求逻辑之严密,算法之精妙。亦爱篮球,驰骋球场,尽享挥洒汗水之乐。且喜跑步,尤钟马拉松,长途奔袭,考验耐力与毅力,每有所进,心甚喜之。 吾以为,编程似布阵,算法如谋略,需精心筹谋,方可成就佳作。篮球乃团队之艺,协作共进,方显力......
  • Transformers Pipeline + Mistral-7B-Instruct-v0.x修改Chat Template
    在使用https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.3提供的Generatewithtransformers代码进行测试时,产生以下报错:fromtransformersimportpipelinemessages=[{"role":"system","content":"Youareapiratechatbotwhoalw......
  • 一起学Hugging Face Transformers(18) - 使用Transformers 库实现命名实体识别(NER)
    文章目录前言1.环境配置2.加载模型和分词器3.创建命名实体识别管道4.输入文本进行识别5.完整代码示例6.结果解释总结前言命名实体识别(NER)是自然语言处理(NLP)中的一种任务,旨在识别文本中具有特定意义的实体,例如人名、地名、组织名等。NER在信息抽取、文本分析......
  • 数据结构与算法 —— Transformers之Pipeline
    Transformers之Pipeline是HuggingFaceTransformers库中提供的一种使用预训练模型进行推理的极简方式。这些Pipeline对象从库中抽象出大部分复杂代码,为多项任务(如命名实体识别、情感分析、特征提取和问答等)提供了简单的API。以下是对Transformers之Pipeline的详细介绍:一、......
  • 算法金 | 秒懂 AI - 深度学习五大模型:RNN、CNN、Transformer、BERT、GPT 简介
    1.RNN(RecurrentNeuralNetwork)时间轴1986年,RNN模型首次由DavidRumelhart等人提出,旨在处理序列数据。关键技术循环结构序列处理长短时记忆网络(LSTM)和门控循环单元(GRU)核心原理RNN通过循环结构让网络记住以前的输入信息,使其能够处理序列数据。每个节点不仅接收当前......
  • 算法金 | 秒懂 AI - 深度学习五大模型:RNN、CNN、Transformer、BERT、GPT 简介
    1.RNN(RecurrentNeuralNetwork)时间轴1986年,RNN模型首次由DavidRumelhart等人提出,旨在处理序列数据。关键技术循环结构序列处理长短时记忆网络(LSTM)和门控循环单元(GRU)核心原理RNN通过循环结构让网络记住以前的输入信息,使其能够处理序列数据。每个节点不仅接收当......
  • 【人工智能】Transformers之Pipeline(一):音频分类(audio-classification)
    ​​​​​​​目录一、引言 二、音频分类(audio-classification)2.1概述2.2技术原理2.2.1 Wav2vec2.0模型 2.2.1HuBERT模型2.3pipeline参数2.3.1pipeline对象实例化参数2.3.2pipeline对象使用参数 2.4 pipeline实战2.4.1指令识别(默认模型) 2.4.2 情......