目录
微软开源的:
TripoSR
See3D:智源开源 3D 生成模型
快速阅读
功能:See3D 支持从文本、单视图和稀疏视图生成 3D 内容,并能进行 3D 编辑与高斯渲染。
技术:采用视觉条件技术,通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。
数据:构建了大规模多视角图像数据集 WebVi3D,涵盖 1600 万个视频片段的 3.2 亿帧图像。
正文(附运行示例)
See3D(See Video, Get 3D)是北京智源人工智能研究院推出的 3D 生成模型,能够基于大规模无标注的互联网视频进行学习,实现从视频中生成 3D 内容。与传统依赖相机参数的 3D 生成模型不同,See3D 采用视觉条件技术,仅通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。
See3D 避免了昂贵的 3D 或相机标注的需求,能高效地从互联网视频中学习 3D 先验。See3D 支持从文本、单视图和稀疏视图到 3D 的生成,能进行 3D 编辑与高斯渲染。
See3D 的主要功能
从文本、单视图和稀疏视图到 3D 的生成:See3D 能根据文本描述、单个视角的图片或少量图片生成 3D 内容。
3D 编辑与高斯渲染:模型支持对生成的 3D 内容进行编辑,使用高斯渲染技术来提高渲染效果。
解锁 3D 互动世界:输入图片后,可以生成沉浸式可交互的 3D 场景,支持用户实时探索真实空间结构。
基于稀疏图片的 3D 重建:输入少量图片(3-6 张),模型能生成精细化的 3D 场景。
开放世界 3D 生成:根据文本提示,模型可以生成艺术化的图片,基于此图片生成虚拟化的 3D 场景。
基于单视图的 3D 生成:输入一张真实场景的图片,模型能生成逼真的 3D 场景。
See3D 的技术原理
视觉条件技术:See3D 不依赖于传统的相机参数,采用视觉条件技术,通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。
大规模无标注视频学习:See3D 能从互联网视频中高效学习 3D 先验,不依赖于昂贵的 3D 或相机标注。
数据集构建:团队构建了一个高质量、多样化的大规模多视角图像数据集 WebVi3D,涵盖来自 1600 万个视频片段的 3.2 亿帧图像,数据集可以通过自动化流程随互联网视频量的增长不断扩充。
多视图扩散模型训练:See3D 引入了一种新的视觉条件,通过向掩码视频数据添加时间依赖噪声,生成纯粹的 2D 归纳视觉信号,支持可扩展的多视图扩散模型(MVD)训练,避免了对相机条件的依赖,实现了“仅通过视觉获得 3D”的目标。
3D 生成框架:See3D 学到的 3D 先验能使一系列 3D 创作应用成为可能,包括基于单视图的 3D 生成、稀疏视图重建以及开放世界场景中的 3D 编辑等,支持在物体级与场景级复杂相机轨迹下的长序列视图的生成。
如何运行 See3D
安装
git clone https://github.com/baaivision/See3D.git
cd See3D
pip install -r requirements.txt
推理代码
See3D 提供了基于单视图和稀疏视图的多视图生成推理代码。根据需要添加或删除 --super_resolution 参数。多视图超分辨率模型会将默认的 512 分辨率提升到 1024 分辨率,这需要更多的推理时间和 GPU 内存。
基于单视图输入的生成
bash single_infer.sh
基于稀疏视图输入的生成
bash sparse_infer.sh
资源
项目官网:< https://vision.baai.ac.cn/see3d>
GitHub 仓库:< https://github.com/baaivision/See3D>
arXiv 技术论文:< https://arxiv.org/pdf/2412.06699>