文章目录
目录
4.3 Factorization of Spatial-Temporal Attention 时空注意力的分解
4.5 VIVIT(video vision Transformer) 视频试图Transformer
4.6 Grasping Framework for Safe Force Estimation 安全力估计的抓取框架
Action Fusion model & Sensor Fusion model 动作融合模型&感觉融合模型
Safe Force Threshold Estimation 安全力阈值估计
一、摘要 Abstract
- 提出了一种基于 Transformer 的刚性夹具机器人抓取框架,该框架利用触觉和视觉信息来安全抓取物体。
- Transformer 模型通过执行两个预定义的探索动作(捏和滑动)来学习具有传感器反馈的物理特征嵌入
- 通过具有给定抓取强度的多层感知器 (MLP) 来预测抓取结果
- 收集了一个新的水果抓取数据集,并使用所提出的框架对可见和不可见的水果进行在线抓取实验。
二、介绍 Introduction
- 我们采用两种最先进的 Transformer 模型 – TimeSformer和 ViViT。通过预先设计的探索动作(捏和滑动)期间收集的视觉和触觉图像序列来确定安全抓握力和滑动。
- 采用Transformer的动机:
- 与循环网络(例如LSTM)相比, 它们不会遇到遗忘问题
- 与用于提取局部特征的卷积网络相比,它们具有更大的感受野,有助于理解全局上下文。
- 与处理图像序列的 CNN+LSTM 模型相比,它们可以同时提取时空特征
- 大致框架:
- 将此嵌入作为输入,并将其与给定的抓取力阈值相结合,以通过多层感知器(MLP)预测最终的抓取结果。
- 在线部署期间使用学习到的预测器来搜索安全抓取的力阈值。
- 融合的物理特征嵌入用于通过不同的 MLP 层对抓取的水果类型进行分类,以便将它们自动放入单独的容器中。
- 抓取结果分为三个标签:安全抓取、打滑和潜在损坏。
三、相关工作 Related Work
- 旨在通过学习框架估计可变形物体的安全抓握力
- 通过融合从视觉和触觉传感器获得的信息来提高操纵性能。
四、方法 Methology
4.1 Sensing Modalities 传感方式
- 夹具的指尖上安装了两个 GelSight 传感器,为机器人提供有关物体与机器人指尖之间接触区域的密集视觉信息(高分辨率图像)。
- 视觉方面只考虑RGB数据流,相机以 15 度角安装在手腕上。
4.2 Transformer Model
- Transformer 层包含自注意力层和 MLP 层。为了堆叠 Transformer 层以获得更深的编码结构,MLP 层不会更改向量大小。
- 注意力层和 MLP 层之前和之后,分别有一个 LayerNorm 和一个残差连接。
4.3 Factorization of Spatial-Temporal Attention 时空注意力的分解
- 将图像分割成固定大小的patches
- 并通过线性变换将每个patches嵌入至时空注意力机制中
- 架处理图像序列而不是单个图像,必须考虑每个自注意力层内的时间维度
4.4 TimeSformer 时序变换器
- 注意力先应用于同一空间位置输入的时间维度,再应用于同一时间输入位置的空间维度
- 每个操作之间存在residual connection
- 对于patches的操作:
- 提取patches
- 展平patches后线性嵌入至大小为D的向量中,并且为每个向量添加位置嵌入
- 将 CLS(分类器)标记添加到嵌入向量序列中,通过CLS可生成增强序列X
- 将X输入TimeSformer编码器中可获得编码顺序H
- 最后输出CLS的得分 Hcls来应用于不同的任务。(eg:是否发生滑动来进行分类)
Times-Attention
4.5 VIVIT(video vision Transformer) 视频试图Transformer
- 时间和空间两个维度都是并行处理的。具体来说,一半的头关注空间维度,另一半关注时间维度(分解点积注意力)。
- 通过串联组合每个输出,并添加线性变换以将大小减半。
- 因为时间和空间注意力的点积时存在歧义,所以并未嵌入CLS
- 取最后一个 Transformer 层的所有 patch 输出的平均值后传入MLP中判断是否滑动分类
4.6 Grasping Framework for Safe Force Estimation 安全力估计的抓取框架
Force Threshold 力阈值
- 采用最大深度值作为抓取力的近似值。
- 如果运行框架时连续三个帧的最大深度值反馈大于所选阈值,则夹具将开始抓取水果。
Action Fusion model & Sensor Fusion model 动作融合模型&感觉融合模型
- 因为两种状态,两个传感器,所以通过Transformer可以获得四种向量A11,A12,B11,B12
- 将从相同的探索动作中获得的每两个向量连接起来并实现化为:A1,B1
- 继续融合化为:AB
- 使用线性变换操作将AB投影到输出大小为N的低维空间
Safe Force Threshold Estimation 安全力阈值估计
- 预测模型以相同的嵌入和控制参数(力阈值)作为输入并预测最终的抓取结果
- 生成一组控制参数,然后选择抓取结果安全的参数进行在线抓取
- 如果有多个可行的选择,选择取平均值。
五、实验 Experiment
总结
提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
标签:Transformer,via,Force,阈值,forDeformable,抓取,Generalizable,MLP,嵌入 From: https://blog.csdn.net/AccumulateAZ/article/details/143630541