首页 > 编程语言 >论文学习笔记: Generalizable Vision-Tactile Robotic Grasping Strategy forDeformable Objects via Transform

论文学习笔记: Generalizable Vision-Tactile Robotic Grasping Strategy forDeformable Objects via Transform

时间:2024-11-15 10:15:36浏览次数:3  
标签:Transformer via Force 阈值 forDeformable 抓取 Generalizable MLP 嵌入

文章目录

目录

文章目录

一、摘要 Abstract

二、介绍 Introduction

三、相关工作 Related Work

四、方法 Methology

4.1 Sensing Modalities 传感方式

4.2 Transformer Model 

4.3 Factorization of Spatial-Temporal Attention 时空注意力的分解

4.4 TimeSformer 时序变换器

Times-Attention

4.5 VIVIT(video vision Transformer) 视频试图Transformer

4.6 Grasping Framework for Safe Force Estimation 安全力估计的抓取框架

Force Threshold 力阈值

Action Fusion model & Sensor Fusion model 动作融合模型&感觉融合模型

Safe Force Threshold Estimation 安全力阈值估计

五、实验 Experiment

总结


一、摘要 Abstract

  • 提出了一种基于 Transformer 的刚性夹具机器人抓取框架,该框架利用触觉和视觉信息来安全抓取物体。
  • Transformer 模型通过执行两个预定义的探索动作(捏和滑动)来学习具有传感器反馈的物理特征嵌入
  • 通过具有给定抓取强度的多层感知器 (MLP) 来预测抓取结果
  • 收集了一个新的水果抓取数据集,并使用所提出的框架对可见和不可见的水果进行在线抓取实验。

二、介绍 Introduction

  • 我们采用两种最先进的 Transformer 模型 – TimeSformer和 ViViT。通过预先设计的探索动作(捏和滑动)期间收集的视觉和触觉图像序列来确定安全抓握力和滑动。
  • 采用Transformer的动机:
  1. 与循环网络(例如LSTM)相比, 它们不会遇到遗忘问题
  2. 与用于提取局部特征的卷积网络相比,它们具有更大的感受野,有助于理解全局上下文。
  3. 与处理图像序列的 CNN+LSTM 模型相比,它们可以同时提取时空特征
  • 大致框架:
  1. 将此嵌入作为输入,并将其与给定的抓取力阈值相结合,以通过多层感知器(MLP)预测最终的抓取结果。
  2. 在线部署期间使用学习到的预测器来搜索安全抓取的力阈值。
  3. 融合的物理特征嵌入用于通过不同的 MLP 层对抓取的水果类型进行分类,以便将它们自动放入单独的容器中。
  4. 抓取结果分为三个标签:安全抓取、打滑和潜在损坏。

三、相关工作 Related Work

  • 旨在通过学习框架估计可变形物体的安全抓握力
  • 通过融合从视觉和触觉传感器获得的信息来提高操纵性能。

四、方法 Methology

4.1 Sensing Modalities 传感方式
  • 夹具的指尖上安装了两个 GelSight 传感器,为机器人提供有关物体与机器人指尖之间接触区域的密集视觉信息(高分辨率图像)。
  • 视觉方面只考虑RGB数据流,相机以 15 度角安装在手腕上。
4.2 Transformer Model 
  • Transformer 层包含自注意力层和 MLP 层。为了堆叠 Transformer 层以获得更深的编码结构,MLP 层不会更改向量大小。
  • 注意力层和 MLP 层之前和之后,分别有一个 LayerNorm 和一个残差连接。

4.3 Factorization of Spatial-Temporal Attention 时空注意力的分解
  • 将图像分割成固定大小的patches
  • 并通过线性变换将每个patches嵌入至时空注意力机制中
  • 架处理图像序列而不是单个图像,必须考虑每个自注意力层内的时间维度
4.4 TimeSformer 时序变换器
  • 注意力先应用于同一空间位置输入的时间维度,再应用于同一时间输入位置的空间维度
  • 每个操作之间存在residual connection

  • 对于patches的操作:
  1. 提取patches
  2. 展平patches后线性嵌入至大小为D的向量中,并且为每个向量添加位置嵌入
  3. 将 CLS(分类器)标记添加到嵌入向量序列中,通过CLS可生成增强序列X
  4. 将X输入TimeSformer编码器中可获得编码顺序H
  5. 最后输出CLS的得分 Hcls来应用于不同的任务。(eg:是否发生滑动来进行分类)

Times-Attention

4.5 VIVIT(video vision Transformer) 视频试图Transformer
  • 时间和空间两个维度都是并行处理的。具体来说,一半的头关注空间维度,另一半关注时间维度(分解点积注意力)。
  • 通过串联组合每个输出,并添加线性变换以将大小减半。
  • 因为时间和空间注意力的点积时存在歧义,所以并未嵌入CLS
  • 取最后一个 Transformer 层的所有 patch 输出的平均值后传入MLP中判断是否滑动分类
4.6 Grasping Framework for Safe Force Estimation 安全力估计的抓取框架
Force Threshold 力阈值
  • 采用最大深度值作为抓取力的近似值。
  • 如果运行框架时连续三个帧的最大深度值反馈大于所选阈值,则夹具将开始抓取水果。
Action Fusion model & Sensor Fusion model 动作融合模型&感觉融合模型
  • 因为两种状态,两个传感器,所以通过Transformer可以获得四种向量A11,A12,B11,B12
  • 将从相同的探索动作中获得的每两个向量连接起来并实现化为:A1,B1
  • 继续融合化为:AB
  • 使用线性变换操作将AB投影到输出大小为N的低维空间
Safe Force Threshold Estimation 安全力阈值估计
  • 预测模型以相同的嵌入和控制参数(力阈值)作为输入并预测最终的抓取结果
  • 生成一组控制参数,然后选择抓取结果安全的参数进行在线抓取
  • 如果有多个可行的选择,选择取平均值。

五、实验 Experiment

总结

提示:这里对文章进行总结:

例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

标签:Transformer,via,Force,阈值,forDeformable,抓取,Generalizable,MLP,嵌入
From: https://blog.csdn.net/AccumulateAZ/article/details/143630541

相关文章