首页 > 其他分享 >Diffusion Probabilistic Models for 3D Point Cloud Generation——点云论文阅读(8)

Diffusion Probabilistic Models for 3D Point Cloud Generation——点云论文阅读(8)

时间:2024-10-27 12:52:29浏览次数:3  
标签:Diffusion xi Point Models 生成 形状 点云 扩散 过程

此内容是论文总结,重点看思路!!

文章概述

该文献介绍了一种用于3D点云生成的概率模型。点云是表示3D物体和场景的常用方式,但由于其不规则的采样模式,与图像相比,点云生成更具挑战性。现有方法如GANs、流模型和自回归模型在点云生成方面取得了进展,但它们在训练稳定性、生成顺序假设和可逆性要求上存在不足。因此,作者提出了基于扩散概率模型的生成方法,旨在克服这些局限。

主要贡献

  1. 提出了新颖的扩散概率模型:受非平衡热力学中的扩散过程启发,作者将点云视为在热浴系统中的粒子,通过扩散从初始分布转化为噪声分布。点云生成相当于学习逆向扩散过程,从噪声生成目标点云形状。

  2. 引入马尔科夫链进行逆向扩散建模:逆向扩散过程通过马尔科夫链建模,该链基于形状潜变量,逐步将噪声分布转换为目标点云分布。

  3. 推导出可行的训练目标:通过变分推导,作者得出了训练目标,最大化条件在形状潜变量上的点云似然,并提出了简化的训练算法。

  4. 实验结果验证模型性能:通过对ShapeNet数据集的实验,作者展示了该模型在点云生成和自动编码任务上优于现有方法,同时在无监督表示学习任务中也表现出色。

噪声到形状的转换过程

图一展示了三个不同层次的内容,具体如下:

  1. Top(上层): 展示了扩散过程如何将噪声逐渐转换为有意义的形状。从左到右,点云逐渐从无序的噪声分布演化为清晰的形状,图中依次为椅子、飞机和沙发的形状。这说明了逆扩散过程能够有效地将随机噪声转换为特定形状。

  2. Middle(中层): 这一层展示了通过所提出的扩散概率模型生成的点云。可以看到,生成的点云呈现了明确的物体形状,包括椅子、飞机和沙发,证明了该模型在生成高质量3D点云方面的能力。

  3. Bottom(下层): 展示了两端点云之间的潜在空间插值过程。两个端点的点云形状(例如两个不同姿态的飞机或不同形状的椅子)通过逐渐过渡生成一系列中间形状,表明该模型可以在形状空间中进行插值,从而生成介于两者之间的点云形状。

基于扩散概率模型的生成框架

核心思想来源于非平衡热力学中的扩散过程,将点云生成任务视为逆向扩散过程,从噪声逐步还原出目标形状。

1. 前向扩散过程

前向扩散是将原始的点云逐渐扩散成随机噪声的过程。我们将点云中的每个点视为热力学系统中的粒子,这些粒子随着时间的推移随机地扩散。通过扩散过程,点云的原始结构会逐渐被扰动,并最终变成噪声分布。作者使用马尔科夫链来模拟这个过程,其公式如下:

其中 q(xi(t)​∣xi(t−1)​) 是马尔科夫扩散核,控制每个时间步 t 的点的分布。具体而言,作者采用了一个高斯核来执行这个扩散过程:

其中 βt​ 是控制扩散速率的方差超参数。这个前向过程的目的是逐步将有意义的点云结构转换为随机噪声。

2. 逆向扩散过程

逆向扩散过程是该模型的核心任务,它通过逆向马尔科夫链,从噪声中逐步恢复出目标点云的形状。在生成任务中,我们从一个简单的噪声分布(如标准高斯分布)中采样一组点作为输入,经过逆向扩散后得到重建的点云。逆向扩散过程的公式如下:

其中,p(x(T)) 是标准高斯分布 N(0,I),表示初始噪声分布,z 是形状潜变量,用来控制生成的目标点云的形状。逆向扩散核 pθ​(x(t−1)∣x(t),z) 是一个由神经网络预测的条件高斯分布:

其中 μθ​ 是通过神经网络学习的均值函数,参数 θ 控制网络的权重。逆向过程的目的是逐步减少噪声,恢复点云的结构。

3. 形状潜变量 z

为了保证生成的点云具有多样性和目标结构,模型引入了形状潜变量 z,用于编码目标点云的全局形状信息。通过学习这个潜变量,模型能够生成各种不同形状的点云。

潜变量学习:在训练过程中,z 的分布可以通过变分自编码器(VAE)或正规化流(Normalizing Flow)来进行建模。具体而言,潜变量的后验分布 qϕ​(z∣X(0)) 由一个编码器(如PointNet)生成,而先验分布 p(z) 可以通过正规化流进行参数化,使其具有更高的灵活性。

正规化流是一种常用的概率模型,它通过一系列可逆的映射将一个简单的分布(如标准高斯分布)转换为复杂的分布。通过这个过程,潜变量的先验分布可以更好地适应数据的复杂性。

4. 训练目标

为了训练这个模型,作者推导出了变分下界,最大化条件在形状潜变量 z 上的点云似然函数。由于直接优化对数似然是不可行的,模型优化的是其变分下界。具体的训练目标为:

该公式中的KL散度项衡量了前向和逆向过程中的分布差异,并通过最小化这些差异来训练模型,使得逆向过程能够有效地生成逼真的点云。

5. 简化的训练算法

为了提高训练效率,作者没有在每次迭代中计算完整的时间步轨迹,而是随机选择一个时间步来进行优化。这种方法加速了训练过程,降低了计算复杂度。

简化的训练过程如下:

  1. 从数据分布中采样点云 X(0)。

  2. 编码得到形状潜变量 z。

  3. 从均匀分布中随机选择一个时间步 t。

  4. 根据前向扩散过程从 X(0) 中采样中间状态 X(t)。

  5. 计算KL散度并更新模型参数。

6. 生成点云的过程

生成过程相对简单:

  1. 从标准高斯分布 N(0,I) 中采样潜变量 w,并通过正规化流 Fα​ 得到形状潜变量 z。

  2. 从噪声分布 p(x(T)) 中采样点云的初始点集。

  3. 通过逆向马尔科夫链逐步将噪声点云转换为目标形状的点云。

点云生成过程的有向图模型

描述了点云在扩散过程中的前向和逆向过程,以及与形状潜变量 z 之间的关系。

  • 左侧(从噪声到形状): 图中展示了扩散过程如何将一个无序的噪声点云 xi(T)​ 逐渐转化为有意义的形状 xi(0)​,如图中的椅子形状。这个转换过程通过多个时间步 t 进行,形成一系列中间点云 xi(t)​。

  • 马尔科夫链: 这个生成过程使用了马尔科夫链模型,点云的生成通过递归的条件概率进行。点云的逆向扩散过程由 pθ​(xi(t−1)​∣xi(t)​,z) 控制,而前向扩散过程由 q(xi(t)​∣xi(t−1)​) 控制。

  • 形状潜变量 z: 形状潜变量 z 在整个生成过程中起到了重要作用。它对逆向扩散过程中的每个时间步 pθ​(xi(t−1)​∣xi(t)​,z) 进行条件化,从而确保生成的点云符合特定的形状。形状潜变量 z 是通过编码器 qϕ​(z∣X(0)) 从初始点云 X(0) 中学习得到的。

  • 右侧的初始点云 X(0): 该图还展示了点云 X(0) 的生成,它是通过逆向扩散从初始的噪声点云 xi(T)​ 逐步生成的,最终形成目标形状。

训练和采样过程

(a) 训练过程

  • 编码器 φ: 首先,点云数据 X(0) 通过编码器 φ,编码为形状潜变量 z,同时生成了均值 μ 和方差 σ 参数,用于描述潜变量的高斯分布。通过重新参数化技巧,潜变量 z 是通过从标准正态分布 N(0,I) 中采样得到的。

  • 前向扩散(Forward Diffusion): 在训练过程中,点云逐步通过前向扩散过程(从 xi(0)​ 到 xi(T)​),生成一系列带有噪声的点云。前向扩散过程由马尔科夫链控制,具体表现为 q(xi(t)​∣xi(t−1)​)。

  • 逆向扩散(Reverse Diffusion): 逆向扩散过程试图从噪声 xi(T)​ 逐步恢复到目标点云 xi(0)​。这一过程由网络参数 μθ​ 控制,通过最大化似然估计或最小化损失 L 来优化参数 θ。

  • 损失函数 L: 在训练过程中,损失函数 L 用于评估模型的生成效果,指导模型通过逆向扩散从噪声中恢复点云。

(b) 采样过程

  • 采样过程中的潜变量 z: 在生成新点云时,首先从标准高斯分布 N(0,I) 中采样一个潜变量 w,然后通过正规化流 Fα−1​ 映射得到形状潜变量 z,保证了生成的灵活性和多样性。

  • 逆向扩散(Reverse Diffusion): 从噪声分布 xi(T)​ 开始,逐步通过逆向扩散马尔科夫链还原出目标点云 xi(0)​,整个过程依赖于潜变量 z 和神经网络参数 μθ​。

标签:Diffusion,xi,Point,Models,生成,形状,点云,扩散,过程
From: https://blog.csdn.net/m0_69412369/article/details/143199683

相关文章

  • 真题练习25-PowerPoint演示文稿-全国计算机等级考试一级计算机基础及MS Office应用考
    第25组打开考生文件夹下的演示文稿yswg.pptx,按照下列要求完成对此文稿的修饰并保存。1.在第一张幻灯片中插入样式为“填充-白色,文本1,阴影”的艺术字“运行中的京津城铁”,文字效果为“转换-波形:上(或:转换-波形2)”,艺术字位置(水平:6厘米,自:左上角,垂直:7厘米,自:左上角)。第二张幻灯片的......
  • Stable Diffusion 3.5 正式发布!免费开源,堪称最强AI文生图模型,附本地安装和在线使用教
    关键要点:10月22日,stability.ai重磅推出StableDiffusion3.5,号称迄今为止最强大的文生图模型。此次公开版本包括多个模型变体,其中有StableDiffusion3.5Large和StableDiffusion3.5LargeTurbo。此外,StableDiffusion3.5Medium将于10月29日发布。这些模型在尺......
  • A Survey of Generative Search and Recommendation in the Era of Large Language Mo
    本文是LLM系列文章,针对《ASurveyofGenerativeSearchandRecommendationintheEraofLargeLanguageModels》的翻译。大型语言模型时代的生成式搜索与推荐综述摘要1引言2传统范式3用于搜索和推荐的生成式范式4生成式搜索5生成式推荐6讨论7结论......
  • 数据集&yolo关键点模型 -关键点系列- 手部关键点数据集 handpose keypoints >> DataBall
    数据集&yolo关键点模型-关键点系列-手部关键点数据集handposekeypoints>>DataBall该示例用3k+数据训练,模型采用yolo11n架构,对于一些简单场景可以满足左右手检测及21关键点检测,运算量小,模型效能高。后期会推出yolo11s,yolo11m架构模型或其它yolo系列。一、模型推......
  • 三周精通FastAPI:14 表单数据和表单模型Form Models
     官网文档:表单数据-FastAPI表单数据¶接收的不是JSON,而是表单字段时,要使用 Form表单。fromfastapiimportFastAPI,Formapp=FastAPI()@app.post("/login/")asyncdeflogin(username:str=Form(),password:str=Form()):return{"username":user......
  • (9-4)基于Diffusion Transformer的文生图系统:生成图像
    9.6 生成图像在本项目中,使用分布式数据并行(DDP)在多个GPU上进行训练,以生成高质量的图像。通过对输入数据进行处理和增强,将图像输入到深度学习模型中,使用自适应动量估计(EMA)来优化模型参数,并最终将生成的图像保存到指定路径。这一流程支持大规模数据集,旨在提升训练效率和图像......
  • RS触发器(Quartus与Modelsim联合仿真)
    RS触发器可以由两个与非门构成,把两个与非门的输入端与输出端交叉连接,即可构成RS触发器,真值表如下:RS触发器真值表输入输出RSQQN1010010111不变不变00不变不变一RS触发器的电路符号二、代码moduleRS(q,qn,s,r);inputs,r;outputq,qn;regq,qn;regq1,qn1......
  • Pointnet++改进64:添加SepConv
    简介:1.该教程提供大量的首发改进的方式,降低上手难度,多种结构改进,助力寻找创新点!2.本篇文章对Pointnet++特征提取模块进行改进,加入SepConv,提升性能。3.专栏持续更新,紧随最新的研究内容。目录1.理论介绍2.修改步骤2.1步骤一     2.2步骤二     2.3步......
  • SubPT+NFL:Understanding and Mitigating Overfitting in Prompt Tuning for Vision-La
    当前提示学习的问题(a)Top:在CoOp和CoCoOp的训练过程中,基类的测试准确率先提高后下降。(b)底部:新类别的测试精度不断下降,远低于零样本CLIP。为什么CoOp会过度拟合根据第4-A节给出的观察结果,我们从早期和后期训练阶段({......
  • 2024年Stable Diffusion安装教程(附安装包链接)
    随着技术的迭代,目前StableDiffusion已经能够生成非常艺术化的图片了,完全有赶超人类的架势,已经有不少工作被这类服务替代,比如制作一个logo图片,画一张虚拟老婆照片,画质堪比相机。今天直接给大家上干货,安装包链接在最后!!!安装步骤1.打开链接,可以看到这里边为大家提供了......