首页 > 其他分享 >当前我对Visual Grounding的看法

当前我对Visual Grounding的看法

时间:2023-02-17 22:44:30浏览次数:39  
标签:视角 Grounding 通解 2D Visual 看法 3D

3D Visual Grounding

在看到相关论文的时候,我有一种非常严重的直觉——我的博士课题大概就是做这个了,虽然还没找老师聊。

简要解释:在这个任务中,研究者的主要目标是探索如何利用图像和自然语言文本之间的语义关系,从而实现跨模态信息的理解和应用。比如,可以通过将自然语言中的描述和图像中的实例对应起来,从而实现基于图像的语义搜索、自动图像描述、图像问答等应用。

 

1、有趣,不解释。

2、问题有很大的挑战性。

  2D的模型和任务迁移到3D领域是一个潮流,相对于传统的2D问题迁移到3D来说,Visual Grounding具有更大的挑战性。传统的2D->3D主要面临的问题是维度的变化,其中产生的绝大部分挑战主要来源于算力的不现实,但是他们都有一个共同点,即grounding truth一直不变。而Visual Grounding任务在2D也是不变的,但是迁移到3D之后,产生了一个视角变换的问题,顾grounding truth在场景中是会随着视角变化的,因此和传统的2D问题可以说是一个完全不同的工作。

  此外,Visual Grounding涉及领域极其广泛,主要有计算机视觉、自然语言处理、多模态、多视图、目标检测、三维数据建模等等。

3、目前有很多内容可以挖掘。

3D Visual grounding正在呈现一个要火起来的趋势,在顶会中,比较早的文章出现在19年,20年、21年大概一年仅仅出现了10篇,可以说2023年是这个领域刚刚开始的阶段,要火起来,但是还没完全火。与此同时,随着ChatGPT对NLP领域带来的巨大冲击,NLP可能会形成一种新的科研局面,这必将对Visual Grounding带来非常深刻的影响,不仅是在3D还是在2D。

此外,3D Visual Grounding目前仍然在起步阶段,很多小问题并没有人来探索,当然这些小问题需要很大的数据集(目前可能连未开源的数据集都没有)与idea支撑,难度很高,例如:

(1)  目前仅考虑了单一物体,如果描述文本描述的多个物体如何解决? e.g. “我要桌子上左边第一个和第三个杯子。”

(2)  目前仅考虑了确切文本,现实生活中我们很难保证总是说没有任何含糊性的话,如果文本是略带含糊的,如何解决或者如何定义这个问题? e.g. “我要桌子下面的那块抹布。”,但是桌子中间夹层有一块布,桌子下面也有一块布。

(3)  目前对“多视图”的理解仍然十分naïve,毕竟领域刚刚起步,此问题的客观通解是针对任何一个视角都可以根据文本标定目标物体,那人类可以做到这个通解吗?如果可以,如何做到,何时做到?如果不可以,能离这个通解多近?边界又在哪里?(这个问题讨论的前提是支撑得住的,因为人类的智能或者说,动物的智能在任何视角下都可以做到区分,人类也可以十分轻易地想象任意其他视角下的场景情况。)

(4)  从3D数据出发,有三维图片、体素、点云等多种描述方式,针对不同数据的visual grounding会有什么不同?目前主要研究的还是点云,主要原因在于基本只有点云的数据集开源了。

(5)  从具体任务出发,有视角需求分类的问题。比如家用机器人如果只能旋转、抬头、低头,那它所需要的视角就离(3)中定义的通解远得很,因此也就不必要追求通解所要求的答案;但是类似具有隐私要求的工厂车间监控,可能需要一些比较***钻的视角,比如垂直地往下、往上看的视角等等。他们的答案都是通解的一部分,但是通解对于他们来说是没有必要的。

 

PS:纯属门外汉,刚接触这个领域两三天,请多多指正。

标签:视角,Grounding,通解,2D,Visual,看法,3D
From: https://www.cnblogs.com/loveandninenine/p/17131672.html

相关文章

  • 解决mysqlclient安装报缺少Microsoft Visual C++ 14.0 is required
    安装mysqlclient报错error:MicrosoftVisualC++14.0isrequired.Getitwith“MicrosoftVisualC++BuildTools”1.不要去下载VisualStudio!!!==没什么用(对我而言)......
  • 界面控件DevExpress WinForm——轻松构建类Visual Studio UI(一)
    DevExpressWinForm拥有180+组件和UI库,能为WindowsForms平台创建具有影响力的业务解决方案。DevExpressWinForm能完美构建流畅、美观且易于使用的应用程序,无论是Office风......
  • 关于“档案大数据”的非主流看法
    近日,反复拜读了前国家档案局局长杨冬权先生今年6.9档案日的大作《从“选时代”到“全时代”——智慧社会档案工作的历史性转折》,作为档案信息化从业者那真是倍感振奋,壮怀激......
  • Visual Studio 2022 安装低版本的 .Net Framework(2.0~4.5)
    首先打开VisualStudioInstaller可以看到vs2022只支持安装4.6及以上的版本,如图所示。那么该如何安装4.6以下的版本,下面将详细介绍。 安装4.0~4.5系列首先......
  • nVisual综合布线可视化管理系统解决方案
    ​一、综合布线管理系统的必要性如今企事业单位办公人员变化很快,如果还是采用传统方式通过工程竣工图或者网络拓扑图来进行网络维护工作会非常麻烦,并且对管理人员的要求也会......
  • Visual Studio Code 如何设置成中文语言
    VisualStudioCode是一款微软的代码编辑器,这款软件是比较不错的,用起来也比较方便,但是好多人在第一次安装的时候展现的是英文的,这对于一些小伙伴是比较头疼的问题,那如何调......
  • Visual C++课程设计选题任务书[2023-02-13]
    VisualC++课程设计选题任务书[2023-02-13]VisualC++课程设计选题任务书课程设计要求:每个课题最多供2名学生选择。使用VisualStudio平台进行开发(推荐使用VisualStu......
  • VisualStudio下载与安装
    VisualStudio的下载与安装教程在VisualStudio官网下载相应的版本点击跳转到官网下载![](N:\博客照片\下载2023-02-03143854.png)这里我选择的是2022年的社区版......
  • Visual Studio 2019 与 Visual Studio 2022的下载方式
    相信大家目前百度或者其他搜索引擎搜索到的都是2022了,那么vs2019该如何安装呢?vs2019下载地址:https://visualstudio.microsoft.com/zh-hans/thank-you-downloading-visu......
  • chatGPT对未来五年测试行业的看法
    chatGPT回答未来五年我们测试发展的方向问题:未来五年测试行业发展怎么样回答如下:预测未来五年测试行业的发展趋势是有困难的,但是一般认为,测试行业将继续发展,因为软件行......