首页 > 其他分享 >只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022

只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022

时间:2022-10-18 10:00:18浏览次数:88  
标签:轨迹 AI 相机 画面 脑补 图像 输入 CVPR2022



明敏
量子位 | 公众号 QbitAI

站在门口看一眼,AI就能脑补出房间里面长什么样:

只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022_数据集

是不是有线上VR看房那味儿了?

不只是室内效果,来个远景长镜头航拍也是so easy:

只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022_数据集_02

而且渲染出的图像通通都是高保真效果,仿佛是用真相机拍出来的一样。

最近一段时间,用2D图片合成3D场景的研究火了一波又一波。

但是过去的许多研究,合成场景往往都局限在一个范围比较小的空间里。

比如此前大火的NeRF,效果就是围绕画面主体展开。

只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022_数据集_03

这一次的新进展,则是将视角进一步延伸,更侧重让AI预测出远距离的画面。

比如给出一个房间门口,它就能合成穿过门、走过走廊后的场景了。

只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022_3d_04

目前,该研究的相关论文已被CVPR2022接收。

输入单张画面和相机轨迹

让AI根据一个画面,就推测出后面的内容,这个感觉是不是和让AI写文章有点类似?

实际上,研究人员这次用到的正是NLP领域常用的Transformer

他们利用自回归Transformer的方法,通过输入单个场景图像和摄像机运动轨迹,让生成的每帧画面与运动轨迹位置一一对应,从而合成出一个远距离的长镜头效果。

只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022_数据集_05

整个过程可以分为两个阶段。

  • 第一阶段先预训练了一个VQ-GAN,可以把输入图像映射到token上。

VQ-GAN是一个基于Transformer的图像生成模型,其最大特点就是生成的图像非常高清

在这部分,编码器会将图像编码为离散表示,解码器将表示映射为高保真输出。

  • 第二阶段,在将图像处理成token后,研究人员用了类似GPT的架构来做自回归

具体训练过程中,要将输入图像和起始相机轨迹位置编码为特定模态的token,同时添加一个解耦的位置输入P.E.。

然后,token被喂给自回归Transformer来预测图像。

模型从输入的单个图像开始推理,并通过预测前后帧来不断增加输入。

研究人员发现,并非每个轨迹时刻生成的帧都同样重要。因此,他们还利用了一个局部性约束来引导模型更专注于关键帧的输出。

这个局部性约束是通过摄像机轨迹来引入的。

基于两帧画面所对应的摄像机轨迹位置,研究人员可以定位重叠帧,并能确定下一帧在哪。

为了结合以上内容,他们利用MLP计算了一个“相机感知偏差”。

这种方法会使得在优化时更加容易,而且对保证生成画面的一致性上,起到了至关重要的作用。

实验结果

本项研究在RealEstate10K、Matterport3D数据集上进行实验。

结果显示,相较于不规定相机轨迹的模型,该方法生成图像的质量更好。

只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022_3d_06

与离散相机轨迹的方法相比,该方法的效果也明显更好。

只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022_3d_07

作者还对模型的注意力情况进行了可视化分析。

结果显示,运动轨迹位置附近贡献的注意力更多。

只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022_公众号_08

在消融实验上,结果显示该方法在Matterport3D数据集上,相机感知偏差和解耦位置的嵌入,都对提高图像质量和帧与帧之间的一致性有所帮助。

只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022_3d_09

两位作者均是华人

Xuanchi Ren为香港科技大学本科生。

只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022_数据集_10

他曾在微软亚研院实习过,2021年暑期与Xiaolong Wang教授有过合作。

Xiaolong Wang是加州大学圣地亚哥分校助理教授。

只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022_公众号_11

他博士毕业于卡内基梅隆大学机器人专业。

研究兴趣有计算机视觉、机器学习和机器人等。特别自我监督学习、视频理解、常识推理、强化学习和机器人技术等领域。

论文地址:
​https://xrenaa.github.io/look-outside-room/​



本文仅做学术分享,如有侵权,请联系删文。

只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022_数据集_12

—THE END—


标签:轨迹,AI,相机,画面,脑补,图像,输入,CVPR2022
From: https://blog.51cto.com/stq054188/5765297

相关文章

  • docker的overlay文件占用磁盘太大的解决-portainer
    【看网上都是什么迁移文件的就感觉不靠谱,治标不治本啊(这不应该是一个新生代coder的样子)】du-sh*一路查下去,发现overlay这个文件夹已经爆了。dockersystemprune-a才......
  • docker安装portainer方法
    docker安装portainer详细步骤portainer是一款容器管理可视化界面,不想在虚拟中使用命令管理容器的小伙伴,可以选择安装portainer对容器进行管理,查看日志、启动、停止容器......
  • 浅析基于AI智能识别技术的明厨亮灶智能化监管方案
    以云计算、大数据、人工智能为代表的新兴技术,不断驱动着视频监控与视频应用等各领域业务层面的创新,同时AI计算机视觉技术的深度应用,也将成为各行各业有效的AI+视频监控解决......
  • 如何修改Airtest源码&如何提交修改
    转自公众号:AirtestProject为什么你自己修改的Airtest源码不生效?(上)前言 相信小伙伴们多少都会遇到想要修改Airtest源码,方便自己脚本编写的情况。这时,不少同学会立即去......
  • Airtest之用装饰器重试解决Poco RpcTimeoutError
    上期回顾:Airtest自动化多设备测试框架DreamMultiDevices以下基于python3.8;airtestIDE1.2.14;airtest1.2.6;pocoui1.0.87运行Poco脚本的时候,有没有遇到过RpcTimeout的报......
  • 基于airtest-selenium的UI自动化测试
    一.airtest-selenium环境搭建1.1安装与介绍airtest-selenium库是基于selenium库的进一步封装:https://airtest.doc.io.netease.com/tutorial/13_Selenium/pip instal......
  • JetBrains Fleet初体验,如何运行一个java项目
    序言各位好啊,我是会编程的蜗牛,JetBrains日前宣布其打造的下一代IDEFleet正式推出公共预览版,现已开放下载。作为java开发者,对于JetBrains开发的全家桶可以说是印象深刻......
  • Airtest自动化测试实操案例 | Windows应用篇
    转自公众号:AirtestProject前言之前有同学留言说想看Windows应用的自动化,那么今天我们就用1个简单的例子,带大家一起来看一下Windows应用的自动化究竟有哪些坑。不过在此之......
  • 论文笔记 - MetaICL: Learning to Learn In Context
    MotivationFacebook的MetaICL,牛逼就对了;对LM针对ICL进行微调(而不是特定的任务);去除了自然语言的Template,使用更直接的方式,排除了Template设计对outputdistri......
  • 浅析基于AI智能识别技术的明厨亮灶智能化监管方案
    以云计算、大数据、人工智能为代表的新兴技术,不断驱动着视频监控与视频应用等各领域业务层面的创新,同时AI计算机视觉技术的深度应用,也将成为各行各业有效的AI+视频监控解决......