当前我对Visual Grounding的看法

3D Visual Grounding

在看到相关论文的时候，我有一种非常严重的直觉——我的博士课题大概就是做这个了，虽然还没找老师聊。

简要解释：在这个任务中，研究者的主要目标是探索如何利用图像和自然语言文本之间的语义关系，从而实现跨模态信息的理解和应用。比如，可以通过将自然语言中的描述和图像中的实例对应起来，从而实现基于图像的语义搜索、自动图像描述、图像问答等应用。

1、有趣，不解释。

2、问题有很大的挑战性。

2D的模型和任务迁移到3D领域是一个潮流，相对于传统的2D问题迁移到3D来说，Visual Grounding具有更大的挑战性。传统的2D->3D主要面临的问题是维度的变化，其中产生的绝大部分挑战主要来源于算力的不现实，但是他们都有一个共同点，即grounding truth一直不变。而Visual Grounding任务在2D也是不变的，但是迁移到3D之后，产生了一个视角变换的问题，顾grounding truth在场景中是会随着视角变化的，因此和传统的2D问题可以说是一个完全不同的工作。

此外，Visual Grounding涉及领域极其广泛，主要有计算机视觉、自然语言处理、多模态、多视图、目标检测、三维数据建模等等。

3、目前有很多内容可以挖掘。

3D Visual grounding正在呈现一个要火起来的趋势，在顶会中，比较早的文章出现在19年，20年、21年大概一年仅仅出现了10篇，可以说2023年是这个领域刚刚开始的阶段，要火起来，但是还没完全火。与此同时，随着ChatGPT对NLP领域带来的巨大冲击，NLP可能会形成一种新的科研局面，这必将对Visual Grounding带来非常深刻的影响，不仅是在3D还是在2D。

此外，3D Visual Grounding目前仍然在起步阶段，很多小问题并没有人来探索，当然这些小问题需要很大的数据集（目前可能连未开源的数据集都没有）与idea支撑，难度很高，例如：

（1）目前仅考虑了单一物体，如果描述文本描述的多个物体如何解决？ e.g. “我要桌子上左边第一个和第三个杯子。”

（2）目前仅考虑了确切文本，现实生活中我们很难保证总是说没有任何含糊性的话，如果文本是略带含糊的，如何解决或者如何定义这个问题？ e.g. “我要桌子下面的那块抹布。”，但是桌子中间夹层有一块布，桌子下面也有一块布。

（3）目前对“多视图”的理解仍然十分naïve，毕竟领域刚刚起步，此问题的客观通解是针对任何一个视角都可以根据文本标定目标物体，那人类可以做到这个通解吗？如果可以，如何做到，何时做到？如果不可以，能离这个通解多近？边界又在哪里？（这个问题讨论的前提是支撑得住的，因为人类的智能或者说，动物的智能在任何视角下都可以做到区分，人类也可以十分轻易地想象任意其他视角下的场景情况。）

（4）从3D数据出发，有三维图片、体素、点云等多种描述方式，针对不同数据的visual grounding会有什么不同？目前主要研究的还是点云，主要原因在于基本只有点云的数据集开源了。

（5）从具体任务出发，有视角需求分类的问题。比如家用机器人如果只能旋转、抬头、低头，那它所需要的视角就离（3）中定义的通解远得很，因此也就不必要追求通解所要求的答案；但是类似具有隐私要求的工厂车间监控，可能需要一些比较***钻的视角，比如垂直地往下、往上看的视角等等。他们的答案都是通解的一部分，但是通解对于他们来说是没有必要的。

PS：纯属门外汉，刚接触这个领域两三天，请多多指正。

标签：视角,Grounding,通解,2D,Visual,看法,3D
From： https://www.cnblogs.com/loveandninenine/p/17131672.html

当前我对Visual Grounding的看法

相关文章

赞助商

阅读排行