首页 > 其他分享 >视觉定位领域专栏(一)领域介绍、应用场景和研究难点

视觉定位领域专栏(一)领域介绍、应用场景和研究难点

时间:2023-04-27 19:55:50浏览次数:46  
标签:定位 场景 难点 机器人 领域 相机 专栏 视觉 CV

前言 本篇主要介绍三个方面,即视觉定位领域介绍、应用场景以及研究难点,同时会对专栏后续讲解内容做一个概述。

本教程禁止转载。同时,本教程来自知识星球【CV技术指南】更多技术教程,可加入星球学习。

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

【CV技术指南】CV全栈指导班、基础入门班、论文指导班 全面上线!!

视觉定位

首先,讲一下什么是视觉定位, 我们都知道,哲学领域存在三大问题,即我是谁,我在哪,我要到哪里去。视觉定位领域解决的问题就是“我在哪里”的问题。

多智能体比如扫地机器人、自动驾驶汽车等方面的研究通常会涉及定位、感知、规划、控制等方面,视觉定位则属于定位范畴,是其中的一种主要方法。我们知道定位可以通过很多方法去解决,比如室外环境下可以利用GNSS、GPS来定位手机或车辆,室内环境下可以利用WIFI定位、蓝牙定位等等,同时还可以辅助其他传感器一起定位,比如结合IMU(惯性测量单元)、激光雷达、相机等等,而视觉定位则是以相机为主要传感器,通过相机拍摄的图像来研究定位问题,他的定义很简单,即估计拍摄图像时相机相对于给定坐标系的六自由度的姿态,包括3自由度的位置和3自由度的方向

应用场景

视觉定位的应用场景涉及非常广泛,在很多应用上都有其影子,比如在自动驾驶领域,针对智能车,只有知道了汽车当时自身所处的位置和方向才能进行下一步的规划控制,而特斯拉也以其纯视觉的自动驾驶解决方案闻名,因为在各厂商车企来说,相机的性价比是最高的。但是笔者认为视觉不是万能的,视觉的corner case还有很多,一定是需要其他传感器的支持的,但总的来说,以相机为主,辅以其他传感器,多元传感器融合的策略才是主流。

图一 自动驾驶汽车

除了在自动驾驶上的应用,还有比如在各种机器人上的应用,比如服务机器人,我们吃海底捞经常会遇见的送餐机器人,还有扫地机器人,工业上的勘探机器人以及大疆的无人机等等都有其应用,这些机器人能够顺利的走进我们的生产生活中,很大程度上就源于定位技术的发 展,即机器人与环境的任何交互,都离不开机器人在环境中的准确定位。

图二 送餐机器人 图三 勘探机器人 图四 无人机

除了上述应用,视觉定位在最近大火的元宇宙、增强现实、混合现实中也有着丰富的应用,譬如,微软的混合现实头戴式显示器 Hololens 2,荣获 2020 5G 全球应用大赛唯一金奖的华为河图,iRobot 搭载摄像头、可实现高效全景导航的 Roomba i7+系列扫地机器人,贝壳如视的 VR 看房系统等。

图五 微软混合现实头戴式设备 图六 华为河图 图七 扫地机器人 图八 贝壳VR看房

而且,视觉定位也可应用在SFM(Structure-from-motion)和SLAM中的闭环检测,总的来说,其应用领域很广泛,研究价值也很高,是一个研究了很久的课题,从三大CV顶会(ECCV、ICCV、CVPR)中关于视觉定位的文章数量就可见一斑。

研究难点

介绍完应用领域,可能有人会觉得,视觉定位都被研究这么久了,是不是可以做的点很少了啊,其实不尽然,领域中仍然有很多急需解决的问题。

衡量视觉定位算法的好坏在于其场景规模、鲁棒性以及效率上,即要在昼夜变化、天气季节的变化下仍可以估计准确的相机姿态,同时还要保证计算效率尽可能的快,还涉及不同规模场景下的定位算法。

目前大多数视觉定位方法是在提前构建好的三维地图基础上进行,地图大多依赖Structure-from-motion(SFM)方法构建,这势必存在一定的局限性,即当扩展到大规模城市级场景下地图的存储问题以及定位算法的效率问题,大规模场景下地图存储的点云以及描述子会存在大量的冗余性以及模糊性。而且每个构建的场景都必须经过仔细的预扫描和重建,首先需要从数百个不同的视点收集图像,理想的情况是跨越一天中的不同时间甚至一年中不同的季节,然后还需要准确估计拍摄这些图片的相机的空间位置和方向,这通常需要精确的多相机校准、与激光雷达扫描对齐等等以得到准确的相机姿态。在不计算收集场景数据的代价下,仅构建场景的三维模型根据场景的大小需要几小时到几天时间不等。

所以,目前领域内的研究点主要集中在以下几个方面:

  1. 可扩展性,即设计的算法要尽可能地覆盖大的应用范围,不仅可以在室内场景下工作,而且在城市级(自动驾驶领域)场景下仍要可以准确定位。
  2. 鲁棒性,即设计的算法不仅要在白天可以正常工作,而且在雨雪天、甚至是大雾、夜间等极端条件下仍可以定位定姿。
  3. 效率,即要求涉及的算法可以实时输出结果,因为很多应用,比如自动驾驶汽车等要求实时性。

介绍完了视觉定位领域主要内容以及应用场景和研究难点,之后对后续的内容做一个大纲,方便大家跟踪学习。

之后会介绍:

  1. 常用数据集以及评估度量标准,届时会贴上各数据集获取地址以及介绍几个很不错的开源项目。
  2. 领域需要的技能和基础几何数学知识,包括但不限于三维空间刚体运动、李群和李代数相关、相机模型和一些非线性优化的知识。
  3. 领域其他相关知识,包括特征提取和匹配、对极几何、三角化、PNP、BA和ICP等等
  4. 最后会对领域内几种主流研究方向根据代表论文的形式进行总结解读。

 

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

CUDA 教程(三)CUDA C 编程简介

目标跟踪(二)单、多目标跟踪的基本概念与常用数据集

【CV技术指南】咱们自己的CV全栈指导班、基础入门班、论文指导班 全面上线!!

即插即用模块 | RFAConv助力YOLOv8再涨2个点

CVPR 2023|21 篇数据集工作汇总(附打包下载链接)

CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey

LargeKernel3D:在3D稀疏CNN中使用大卷积核

ViT-Adapter:用于密集预测任务的视觉 Transformer Adapter

CodeGeeX 130亿参数大模型的调优笔记:比FasterTransformer更快的解决方案

分割一切还不够,还要检测一切、生成一切,SAM二创开始了

CVPR 2023 深挖无标签数据价值!SOLIDER:用于以人为中心的视觉

SegGPT:在上下文中分割一切

上线一天,4k star | Facebook:Segment Anything

Efficient-HRNet | EfficientNet思想+HRNet技术会不会更强更快呢?

实践教程|GPU 利用率低常见原因分析及优化

ICLR 2023 | SoftMatch: 实现半监督学习中伪标签的质量和数量的trade-off

目标检测创新:一种基于区域的半监督方法,部分标签即可(附原论文下载)

CNN的反击!InceptionNeXt: 当 Inception 遇上 ConvNeXt

神经网络的可解释性分析:14种归因算法

无痛涨点:目标检测优化的实用Trick

详解PyTorch编译并调用自定义CUDA算子的三种方式

深度学习训练模型时,GPU显存不够怎么办?

deepInsight:一种将非图像数据转换图像的方法

ICLR2023|基于数据增广和知识蒸馏的单一样本训练算法

拯救脂肪肝第一步!自主诊断脂肪肝:3D医疗影像分割方案MedicalSeg

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

改变几行代码,PyTorch炼丹速度狂飙、模型优化时间大减

AAAI 2023 | 轻量级语义分割新范式: Head-Free 的线性 Transformer 结构

计算机视觉入门1v3辅导班

计算机视觉交流群

聊聊计算机视觉入门

标签:定位,场景,难点,机器人,领域,相机,专栏,视觉,CV
From: https://www.cnblogs.com/wxkang/p/17360071.html

相关文章

  • 关于聚合根,领域事件的那点事---深入浅出理解DDD
    作者:京东物流赵勇萍前言最近有空会跟同事讨论DDD架构的实践落地的情况,但真实情况是,实际中对于领域驱动设计中的实体,值对象,聚合根,领域事件这些战术类的实践落地,每个人理解依然因人而异,大概率是因为这些概念还是有一些抽象,同时有有别于传统的MVC架构开发。在此,通过小demo的方式......
  • 图像识别的技术难点和突破,你掌握吗?
    图像识别是人工智能的一个重要分支,它涉及到计算机视觉、机器学习、深度学习等多个领域。图像识别的目标是让计算机能够像人类一样,对输入的图像进行理解和分析,从中提取出有用的信息。图像识别的技术难点和突破,你掌握吗?图像识别的技术难点主要有以下几个方面:-图像质量:图像可能存......
  • 语义分割专栏(二)复习FCN的编解码结构
    前言 在这一期中,我们先简要复习一遍FCN网络,随后进入今天的重点——编码器-解码器架构。本教程禁止转载。同时,本教程来自知识星球【CV技术指南】更多技术教程,可加入星球学习。欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV......
  • 为什么AutoGPT是AI领域的一件大事
    开发人员正在构建自动化ChatGPT提示的方法,鼓励该工具执行自主连接任务,这将减轻用户在使用它时遇到的一些限制。例如,开发人员ToranBruceRichards在GitHub上推出了他的开源应用程序Auto-GPT,这是一个流行的基于Web的平台,开发人员可以在其中存储代码,与他人合作并跟踪代码更改。它......
  • 语义分割专栏(一)解读FCN
    前言 本文将介绍全卷积神经网络(FullyConvolutionalNetwork,简称FCN)的基础知识,包括它的网络结构、起源、应用、输入输出格式和pytorch代码实现等内容。本教程禁止转载。同时,本教程来自知识星球【CV技术指南】更多技术教程,可加入星球学习。欢迎关注公众号CV技术指南,专注于计算机......
  • API 自动化测试难点分享
    笔者是API管理工具的项目参与者之一,在日常工作中会经常遇到API自动化测试难点,我决定总结分享给大家: API自动化测试的难点包括:接口的参数组合较多,需要覆盖各种可能的情况。接口的状态和数据关联较多,需要验证返回结果是否符合预期。接口的并发访问和性能测试较为复杂,需......
  • 计算机力学仿真的难点
    计算机力学仿真的难点主要在以下几个方面:建立准确的几何模型:力学仿真模型需要建立准确的几何模型,这包括材质、网格、约束等因素。建立准确的几何模型需要有扎实的数学和物理基础,以及丰富的实际经验。处理复杂的物理问题:力学仿真中经常会遇到各种复杂的物理问题,如摩擦、变形、应......
  • 语义分割专栏(零)语义分割概述
    前言 在计算机视觉领域中,图像识别是一项非常重要的任务。而语义分割则是其中的一个子任务。与图像分类和目标检测不同,语义分割不仅需要识别出图像中的物体,还需要将每个像素分配给它所属的类别。本专栏适用于想要入门语义分割与想要对语义分割有一个全面系统的了解的读者。本教程......
  • 模型轻量化-网络剪枝专栏(一)网络剪枝概述
    前言 近年来,深度神经网络在许多计算机视觉和自然语言处理任务中取得了很大的成功。然而,这些网络通常具有非常高的计算和存储成本,限制了它们在嵌入式设备和移动设备上的部署。为了解决这个问题,网络剪枝技术被广泛应用于深度神经网络中,以减少其计算和存储需求,成为模型压缩领域流行......
  • 英语四级难点单词之 conscientious
    conscientious是 良心的,尽责的意思单词"conscientious"来自于Latin语"conscius",意思是"知道"、"意识到"。它的后缀"-ous"表示"充满"的意思,因此"conscientious"可以理解为"充满责任心的、认真的、小心谨慎的"。充满意识,说明一个充满了认真和责任感对应的......