首页 > 其他分享 >文献学习-21-DaFoEs:混合数据集以推广微创机器人手术中的视觉状态深度学习力估计

文献学习-21-DaFoEs:混合数据集以推广微创机器人手术中的视觉状态深度学习力估计

时间:2024-03-21 16:59:22浏览次数:29  
标签:21 训练 模型 解码器 集以 DaFoEs 视觉 数据

DaFoEs: Mixing Datasets Towards the Generalization of Vision-State Deep-Learning Force Estimation in Minimally Invasive Robotic Surgery

Authors: Mikel De Iturrate Reyzabal, Graduate Student Member, IEEE, Mingcong Chen, Wei Huang, Sebastien Ourselin, and Hongbin Liu

Key words: Deep learning in grasping and manipulation, surgical robotics: Laparoscopy, computer vision for medical robotics.

Source: IEEE ROBOTICS AND AUTOMATION LETTERS, VOL. 9, NO. 3, MARCH 2024

Abstract

在微创机器人手术 (MIRS) 中精确确定安全相互作用期间的接触力仍然是一个开放的研究挑战。受手术视频术后定性分析的启发,使用跨模态数据驱动的深度神经网络模型一直是预测无传感器力趋势的最新方法之一。但是,这些方法需要用于当前不可用的大型和可变数据集。在本文中,提出了一种新的视觉触觉数据集(DaFoE),该数据集具有可变的软环境,用于训练深度神经模型。为了减少单个数据集的偏差,提出了一个管道,使用具有不同设置的先前验证的数据集,将不同的视觉和状态数据输入推广到混合数据集训练中。最后,提出了一种可变编码器-解码器架构,以使用单个输入或输入序列来预测腹腔镜工具所受的力。对于输入序列,使用一个以前缀 R 命名的递归解码器和一个新的时间采样来表示工具的加速度。在训练过程中,证明了单个数据集训练往往会过拟合训练数据域,但在跨新域转换结果时存在困难。然而,数据集混合呈现出良好的平移,循环和非循环模型的平均相对估计力误差分别为 5% 和 12%。方法还略微提高了变压器的力估算效率,最高可达 15%,因为可用数据量增加了 150%。总之,本研究证明了视觉状态的混合实验设置MIRS中的力估计是解决问题的一种可能方法。

在这项研究中,提出了一个新的基于视觉的无传感器力估计 (DaFoE) 数据集,该数据集使用安装在由定制商用触觉主设备控制的机械臂上的远程手术腹腔镜镊子,包括镊子抓握的驱动。这篇手稿的主要贡献是:

1)创建一个管道来推广深度神经网络训练的视觉状态输入,用于从不同数据流进行无传感器力估计;

2)通过将基于ViT的图像编码器和具有特定时间窗口的递归解码器相结合,提出了一种新的神经网络架构,以及

3)将该模型与该领域的先前工作进行了比较。

图 1.用于收集 DaFoEs(力估计数据集)数据集的完整实验设置。该装置分为 3 个主要组件,颜色编码:遥控机械臂(蓝色)、主控制器(绿色)和镊子控制器(红色)。在图像的左侧,展示了软组织环境的不同可能性。

表一 所用数据集的主要特点

图 2.运动学感知增强管道的水平镜像变换示例。在图像平面中,有视觉转换。在下半部分,有更新机器人运动矢量的所有步骤。K 代表运动学,IK 代表逆运动学。

图 3.视觉状态模型训练管道的图形表示。在右上角,展示了用于本研究的不同视觉编码器(ResNet50 和 Vision Transformer)。在与状态向量连接后,有两种不同类型的解码器:非递归 (MLP) 或递归 (LSTM)。

图 4.用于比较数据集混合方法有效性的指标。条形表示测试剪辑的原点数据集。(a) 和 (b) 分别表示将训练隔离到单个数据集 dVRK 和 DaFoEs 中,以及将实验转换为相反的数据集。(c) 显示混合数据集训练的力差。

图 5.特征隔离实验的结果为条形图。X 轴显示了论文中介绍的不同模型。

图 6.参数遮挡实验结果为条形图。结果按照与图 5 相同的结构呈现。

图 7.包含力的演变(顶部)和误差随时间演变的图表(底部)。顶部的图表显示了 X 轴上力的时间演变。下图显示了本文介绍的 5 种不同模型的 RMSE 的时间变化:卷积神经网络 (CNN)、视觉转换器 (ViT) 和多层感知器 (FC),适用于非复发和复发情况 (R-)。

表II:力的孤立局部最大值和最小值的误差值

在这项研究中,证明了数据集混合的可行性,用于训练不同的深度神经网络,用于无传感器视觉状态力估计,作为 MIRS 中可能的通用方法。表明,使用正确的时间采样可以大大提高时间解码器的性能。一般来说,本文分析的所有模型都可以学习力的趋势,但只有循环模型才能预测整个剪辑中的全部力范围。此外,对于混合数据集管道,观察到 Transformer 架构确实受益于创建大量数据,即使硬件系统在状态和视觉记录方面都有所不同。然而,目前仍处于这一研究领域的初始阶段,应该开发更多的数据集、架构和学习技术,以达成共识并扩展对这一主题的了解。

出于这个原因,新的研究应该集中在收集新的更多可变数据集上,以探索来自多个和更多样化来源的泛化管道。数据来源的一些例子是:从用于大数据量的模拟环境,到对管腔、离体动物或人体组织进行更好的建模的复杂模型几何形状,以及用于更逼真的视觉输入的体内环境。然而,由于这些环境的工作空间有限,因此在使用可靠的力传感硬件方面确实存在更多问题,因此很难使用有监督的训练方案。因此,有必要创建额外的理论公式,以建立新的训练管道,以避免GT真实可靠力读数的必要性。

Reference:

[1] Reyzabal, M. D. I., Chen, M., Huang, W., Ourselin, S., & Liu, H. (2024). DaFoEs: Mixing Datasets towards the generalization of vision-state deep-learning Force Estimation in Minimally Invasive Robotic Surgery. IEEE Robotics and Automation Letters.

标签:21,训练,模型,解码器,集以,DaFoEs,视觉,数据
From: https://blog.csdn.net/Metaphysicist/article/details/136875102

相关文章

  • AI新工具(20240321) 又一个开源的Sora实现;高质量动漫风格图像的文本到图像模型;字节跳
    ✨1:Mora利用多智能体合作生成视频任务的多智能体框架Mora是一种多智能体框架,专为通用视频生成任务设计。它通过多个视觉智能体的协作,实现了在多种视频生成任务中的高质量输出,旨在复制并扩展OpenAISora的能力。以下是通俗语言总结的Mora功能以及可能的使用情景......
  • 洛谷-P2178 学习笔记
    题面[NOI2015]品酒大会题目描述一年一度的“幻影阁夏日品酒大会”隆重开幕了。大会包含品尝和趣味挑战两个环节,分别向优胜者颁发“首席品酒家”和“首席猎手”两个奖项,吸引了众多品酒师参加。在大会的晚餐上,调酒师Rainbow调制了\(n\)杯鸡尾酒。这\(n\)杯鸡尾酒排成一......
  • 2024-03-21 跳出forEach循环的3个方法
    前言:return无法跳出forEach循环?(()=>{vara=[1,2,3,4,5];a.forEach((e,k)=>{if(k==2)return"";console.log(k);});console.log("=======forEachreturn跳不出循环=======");for(letindex=0;inde......
  • UVM - 21(vritual sequence)
    内容virtualsequence管理sequence在多个agent中管理序列的执行不同agent执行的sequence有先后顺序如果设置default_sequence会并行执行virtualsequence/sequencer通过virtualsequencer中的sequencer调用virtualsequence中的sequence虚序列器:virtualsequen......
  • 专题2024.03.21
    2024.03.21专题T1Bombs答案显然具有单调性,多删一定比少删更优,这是明显的一个数\(a_i=x\)不被删掉的充要条件为:\[\sum\limits_{j=1}^{i-1}[a_j<x]\leqk\]其中\(k\)为\(i\)之前的炸弹数量由单调性,考虑每次加一个炸弹后怎么快速的检查一个数合不合法,可以用线段树维......
  • 水果软件FL Studio 21 for mac 21.2.3.3586破解版的最新版本2024介绍安装
    音乐是人类最美好的语言,它能够跨越国界、文化和语言,将人们紧密地联系在一起。在当今数字化时代,音乐创作已经不再是专业人士的专利,越来越多的音乐爱好者开始尝试自己动手制作音乐。而FLStudio21中文版编曲软件正是这样一个为你打开音乐创作之门的工具。FLStudio21中文版编......
  • 中考英语首字母快速突破012-2021上海青浦英语二模-Earth Hour: A Global Call for Env
    PDF格式公众号回复关键字:ZKSZM012原文​WhatisEarthHour?​EarthHourisorganizedbytheWorldWideFundforNature(WWF)andit’sabigeventusuallyattheendofMarcheveryyear.Onthisevening,people‘godark’-thatis,switcho......
  • 【漏洞复现】Progress Kemp LoadMaster 命令注入漏洞(CVE-2024-1212)
    0x01产品简介ProgressKempLoadMaster是一款高性能的应用交付控制器,具有可扩展性,支持实体硬件和虚拟机的负载均衡。它提供了当今应用服务所需的各种功能,包括深度用户验证、资安防护(如WAF/IPS/DDoS防护)以及零信任架构服务。这款控制器旨在为各种规模的企业和单位提供出色的负......
  • 每日一看大模型新闻(2024.1.20-1.21)英伟达新对话QA模型准确度超GPT-4,却遭吐槽:无权重代
    1.产品发布1.1韩国Kakao:推出多模态大模型Honeybee发布日期:2024.1.20KakaounveilsmultimodallargelanguagemodelHoneybee-TheKoreaTimes主要内容:韩国科技巨头Kakao今天宣布他们已经开发了一种名为“蜜蜂”(Honeybee)的多模态大语言模型。据Kakao称,“蜜蜂”能够同时......
  • FL Studio21.2.2最新破解中文版编曲软件功能及使用讲解
     音乐是人类最美好的语言,它能够跨越国界、文化和语言,将人们紧密地联系在一起。在当今数字化时代,音乐创作已经不再是专业人士的专利,越来越多的音乐爱好者开始尝试自己动手制作音乐。而FLStudio21中文版编曲软件正是这样一个为你打开音乐创作之门的工具。FLStudio21中文版编......