首页 > 其他分享 >文献学习-31-内窥镜摄像机运动模仿学习的深度齐次变换预测

文献学习-31-内窥镜摄像机运动模仿学习的深度齐次变换预测

时间:2024-04-09 10:58:45浏览次数:25  
标签:相机 预测 31 摄像机 学习 齐次 图像 运动 数据

Deep Homography Prediction for Endoscopic Camera Motion Imitation Learning

Authors: Martin Huber , Sébastien Ourselin, Christos Bergeles, and Tom Vercauteren Keywords: Computer vision · Robotic surgery · Imitation learning Source:  MICCAI 2023 Abstract

在这项工作中,通过从回顾性腹腔镜手术视频中学习模仿行为,研究腹腔镜摄像机运动的自动化。提出了一种新颖的方法,该方法通过基于仿射变换的图像空间中对象运动不变的图像配准来增强外科医生的行为。与现有方法不同,不做出任何几何假设,也不需要深度信息,这使得该方法能够立即转移到机器人系统。与文献中占主导地位的方法不同,后者通常遵循手术工具,不手工制定目标,也不对手术场景强加任何先验,这使得方法能够发现无偏的策略。在这个新兴的研究领域中,在Cholec80和HeiChole数据集上展示了对两个基线的显著改进,相比摄像机运动延续,改进了47%。此外,该方法还被证明能够正确预测AutoLaparo公共运动分类标签中的摄像机运动。

Background

在机器人辅助微创手术中,自动化可以减少因疲劳、注意力不集中和认知负荷导致的错误,帮助外科医生操作系统,尤其在劳动力减少的老年人口社会中,有利于维持医疗服务的可达性。预计 RMIS 的某些部分最终会实现自动化,其中相机运动自动化可能是最先实现的。

现有的相机运动自动化方法主要是基于规则,如将手术工具保持在视野中心,但这过于简化,因为外科医生可能需要观察周围解剖结构来决定操作。相比之下,数据驱动的方法,如强化学习(RL)和模仿学习(IL),能捕捉更复杂的控制策略。目前,RL 因样本效率低和可能对患者造成伤害,主要限于模拟环境。已有工作试图弥合模拟与现实的差距,但还未实现临床应用。IL 则可以从真实数据中学习,间接解决模拟与真实世界之间的差距,但数据收集可能困难。

最近公开的大量腹腔镜手术视频改变了IL在相机运动自动化中的应用方式。这些数据通常用于辅助任务,如工具和器官分割,手术阶段识别。然而,对于相机运动自动化,没有公开可用的图像与行为配对数据。一些研究继续关注于通过手术工具推断相机运动,或者在提供相机运动信息的机器人系统上进行学习。但有研究发现,腹腔镜手术视频本身就包含了相机运动,可以从视频中的动作中学习,无需机器人,直接从人类操作中学习。

Contribution

这项工作,从公开的腹腔镜手术视频数据集中高效地提取图像与行为配对,数据量是私有数据的20倍以上。与现有技术不同,这项工作的相机运动提取不依赖于手术视频中稀疏的图像特征,能自然地区分相机和物体运动。还提出了新的重要性采样和数据增强步骤,以实现模仿学习下的相机运动自动化。

Methodology

这一部分主要介绍了用于学习相机运动预测的方法,可以分为以下几个部分:

1. 理论背景
   - 在移动相机下,平面上的点在图像空间中通过3×3的射影单应矩阵$G$进行变换。
   - 预测未来相机运动(到一定尺度)可以等价地视为预测未来的射影单应性。
   - 使用四点单应性表示$\Delta uv = \{p_i - p_i' | i \in [0, 4)\} \in \mathbb{R}^{4 \times 2}$比使用3×3矩阵表示更适合深度学习应用。
   - 相机运动$C$被视为时间范围$[T_0, T_{N+M})$内的一系列四点单应性序列,其中$N$为回忆视界长度,$M$为预览视界长度。

2. 数据和数据准备
   - 使用了三个数据集:两个胆囊切除数据集Cholec80和HeiChole,以及一个子宫切除数据集AutoLaparo。
   - 为了去除可能影响相机运动估计的状态指示器覆盖,使用圆形视野的边界圆将视图裁剪为240×320。 
   - 数据集被划分为训练集、验证集和测试集。由于处理原始数据时的错误,从数据集中排除了一些视频。

3. 提出的流水线
   - 视频数据库和重要性采样:将数据积累到视频数据库中。以帧增量$\Delta n$和序列初始帧间隔$\Delta c$采样长度为$N+M$的图像序列。离线估计帧间相机运动$\Delta uv$,创建图像-运动对应$(I_n, I_{n+\Delta n}, \Delta uv_n)$。对运动幅度大于数据集标准差$\sigma$的对应进行重要性采样。
   - 几何和光度变换:对重要性采样的图像序列进行数据增强,包括几何变换(改变方向/上下/左右等)和光度变换(改变亮度/对比度/雾化等)。为确保运动估计性能,光度变换只应用于上支路。
   - 相机运动估计器和预测器:预测器以光度和几何变换的回忆视界$\{\tilde{I}_t | t \in [T_0, T_N)\}$为输入,预测预览视界上的相机运动$\tilde{C} = \{\Delta \tilde{uv}_t | t \in [T_N, T_{N+M})\}$。估计器以几何变换的预览视界$\{I_t | t \in [T_M, T_{N+M})\}$为输入,估计相机运动$C$作为预测器的目标。估计器通过几何变换实现在线视角增强。

图1。培训流程. 从左到右:图像序列是从视频数据库中采样的重要性,每个序列在线应用随机增强。下分支估计后续帧之间的摄像机运动,作为上分支的伪GT,它学习预测摄像机在预览视界上的运动。

对相机运动估计器和预测器的实验评估的结果如下:

1. 相机运动估计器
   - 相机运动分布:在所有数据集中,大部分序列(71%-76%)没有显著的相机运动,这支持了本文引入的重要性采样。左/右和上/下运动分布均匀。
   - 在线相机运动估计:使用ResNet-34主干的深度单应性估计执行速度是GPU加速方法中最快的(是LoFTR & RANSAC的11倍),且GPU内存占用最低。这允许了高效实现在线相机运动估计。

图2。摄像机运动分布,参考本节。3.1.AutoLaparo: 2.81%上,1.88%下,4.48%左,3.38%右,0.45%放大,0.2%缩小,0.3%旋转左0.3%,右旋转14.9%混合,71.29%静态。

图3。自动预测的摄像机运动,参考节。在使用ResNet-50骨干的Cholec80上训练的摄像机运动预测器,见表2。所示是图像中心在预测的性下的运动。显然,对于标记为左/右的视频,预测中心点将向左/右移动,而对于向上/向下的标签,预测的左/右运动将以零(a).为中心在(b)中观察到上下运动,左右运动为零中心。

图4。典型的摄像机运动预测.在图像序列中,注意力从右向左改变。我们通过预测的同质性来扭曲过去的视图(黄色),并覆盖当前的视图(蓝色)。良好的对齐性对应于良好的摄像机运动预测。与基线相反,所提出的方法能很好地预测运动。数据取自HeiChole测试集,在Cholec80上训练的ResNet-50骨干,见表2。(彩色图形在线版)

2. 相机运动预测器  
   - 在Cholec80和HeiChole数据集上,学习的预测方法比基线(泰勒展开)取得了显著改进。在AutoLaparo上,学习方法平均优于基线,但改进不显著。
   - 在AutoLaparo上,将预测的相机运动下图像中心点的位移与提供的多类运动标注进行对比,发现预测的相机运动与地面真值标签吻合良好。
   - 图4展示了一个示例性的相机运动预测结果。在图像序列中,注意力从右侧工具转移到左侧。通过预测的单应性对过去视图(黄色)进行变换并与当前视图(蓝色)叠加,良好的对齐对应良好的相机运动预测。与基线相比,所提出的方法能很好地预测运动。

总的来说,实验结果表明了所提出方法在学习相机运动预测方面的有效性,尤其在Cholec80和HeiChole数据集上取得了显著改进。在线相机运动估计的高效实现为该方法的应用提供了可能。

Source

[1] Huber, M., Ourselin, S., Bergeles, C., & Vercauteren, T. (2023, October). Deep Homography Prediction for Endoscopic Camera Motion Imitation Learning. In International Conference on Medical Image Computing and Computer-Assisted Intervention (pp. 217-226). Cham: Springer Nature Switzerland.

标签:相机,预测,31,摄像机,学习,齐次,图像,运动,数据
From: https://blog.csdn.net/Metaphysicist/article/details/137541706

相关文章

  • 20240409报错修改学习
    未配置SpringBoot配置注解处理器spring:datasource:druid:driver-class-name:com.mysql.jdbc.Driverurl:jdbc:mysql://localhost:3306/mini_springmvc?serverTimezone=UTCusername:rootpassword:1234mybatis-plus:global-config:......
  • 前端学习-UI框架学习-Bootstrap5-016-卡片
    菜鸟教程链接简单的卡片<template><divclass="card"><h4class="card-title">标题</h4><imgsrc="../assets/th.jfif"alt="537"class="card-img-top"style="width:50px;......
  • 我的lisp学习历程
    在我大学的学习过程中,我选择了学习Lisp编程语言。我选择Lisp是因为它是一种功能强大的语言,可以用于解决各种问题,并且它的语法和思维方式与其他编程语言有很大的不同,这对我来说是一个很大的挑战。在开始学习Lisp之前,我很快意识到我需要一个良好的学习资源。我开始在互联网上搜......
  • 6本值得推荐的MySQL学习书籍(有赠书福利)
    前言在DotNetGuide技术社区交流群和微信公众号后台经常收到小伙伴们的留言,让我出一期MySQL相关学习书籍的推荐文章。因此,今天我特意为大家精选了6本值得推荐的MySQL学习书籍,希望能够为大家提供一个全面系统的学习参考,助力大家在MySQL数据库领域的学习和实践道路上更进一步(......
  • Elastic学习之旅 (8) 深入词项和全文搜索
    大家好,我是Edison。上一篇:Elastic学习之旅(7)聚合分析相信很多童鞋和我一样,有点傻傻分不清Term查询和全文查询的区别,那么今天我们就来一起梳理一下。基于Term的查询Term(词项)是ES中表达语义的最小单位,搜索和利用统计语言模型进行自然语言处理都需要处理Term。ES中TermQuery......
  • 狂神说Java Web学习笔记_Servlet
    Servlet简介Servlet是sun公司开发的动态web的一门技术。提供的其中一个接口叫Servlet。把实现了Servlet接口的Java程序叫Servlet。HelloServletServlet在Sun公司有两个默认实现类,HttpServlet,GenericServlet。importjavax.servlet.ServletException;importjavax.servlet.ht......
  • 深度学习-nlp--词向量--68
    目录1.统计语言模型2.N-gram3.NPLM神经语言模型4.Word2Vec--基础中的基础5.CBOW模型6.Skip-gram进入新的领域加油!1.统计语言模型语言模型本质就是让机器学会说话但是机器本质上是只会1+1统计语言模型是所有NLP的基础,被广泛应用与语音识别、机器翻译、分词、词性标注......
  • 毕业设计:基于卷积神经网络的条形码识别系统 深度学习 人工智能 计算机视觉
    目录 前言设计思路一、课题背景与意义二、算法理论原理2.1卷积神经网络2.2目标检测三、检测的实现3.1数据集3.2实验环境3.3模型训练最后 前言    ......
  • 毕业设计:基于机器学习的违规占道经营识别系统 人工智能
    目录前言设计思路一、课题背景与意义二、算法理论原理2.1卷积神经网络2.2目标检测算法三、检测的实现3.1数据集3.2实验环境搭建3.3实验及结果分析最后前言    ......
  • (学习日记)2024.04.11:UCOSIII第三十九节:软件定时器
    写在前面:由于时间的不足与学习的碎片化,写博客变得有些奢侈。但是对于记录学习(忘了以后能快速复习)的渴望一天天变得强烈。既然如此不如以天为单位,以时间为顺序,仅仅将博客当做一个知识学习的目录,记录笔者认为最通俗、最有帮助的资料,并尽量总结几句话指明本质,以便于日后搜......