读论文《Bidirectionally Deformable Motion Modulation For Video-based Human Pose Transfer》

标签：视频 based Modulation Pose DMM 生成图像调制姿态

论文地址：2307.07754https://arxiv.org/pdf/2307.07754

项目地址：rocketappslab/BDMM: Official PyTorch implementation of BDMM: Bidirectionally Deformable Motion Modulation For Video-based Human Pose Transfer [ICCV 2023]https://github.com/rocketappslab/bdmm

项目已复现，使用提供的demo例子效果很好，但是自己的图片生成效果不佳，正在准备进行训练。

摘要

本文提出了一种新颖的变形运动调制（Deformable Motion Modulation, DMM）方法，用于基于视频的人体姿态转移任务，该任务旨在根据一系列目标人体姿态来动画化一个简单的源人体图像。针对在服装结构图案传递和不连续姿态上存在的问题，现有方法常常产生不满意的结果，如扭曲的纹理和闪烁的伪影。我们的方法利用几何核偏移和自适应权重调制来同时执行特征对齐和风格迁移。与通常的风格调制不同，我们提出的调制机制根据目标形状通过不规则的感受野来适应性地重建风格代码的平滑帧。为了增强时空一致性，我们利用双向传播来从噪声姿态生成的变形图像序列中提取隐藏的运动信息。实验结果表明，我们的方法在图像保真度和视觉连续性方面均优于现有技术。

介绍

视频基础的人体姿态转移任务是根据不同的姿态序列来动画化一个简单的源图像。这项任务因空间-时间不连续的姿态和高度结构化的纹理错位而具有挑战性。

本文旨在通过端到端的生成模型解决这些问题，以最大化在个人重新识别、时尚推荐和虚拟试穿等领域的应用价值。现有工作主要集中在三个类别来解决空间错位问题，包括先验生成、注意力模块和流形变形。这些方法有许多副作用，如空间错位的内容、模糊的视觉质量和不可靠的流预测。为了获得具有平滑人体手势动作的动画序列，时间连贯性是主要决定因素。与大多数生成任务不同，如修复或超分辨率，本任务中序列的条件输入是噪声的，因为现有的第三方人体姿态提取器无法在视频帧中提取准确的标签。这增加了预测时间对应关系以生成平滑帧序列的难度，尤其是在服装和遮挡区域的高度结构化图案上。总的来说，以前的工作主要使用递归神经网络通过以前生成的结果作为当前时间步的输入来解决这个问题。然而，由于时间空间的视野有限，感知质量仍然不尽人意。我们观察到，仅依赖于递归单元中的单向隐藏状态来插值缺失的内容是不够的。这激发了我们利用所有批次中的帧来稳定生成序列中的时间统计。为了解决上述问题，我们提出了一种新颖的调制机制——变形运动调制（DMM），结合双向递归特征传播，同时执行时空仿射变换和风格迁移。

提出新型Deformable Motion Modulation (DMM)： 本文提出了一种新颖的变形运动调制机制，该机制利用几何核偏移和自适应权重调制来同时执行时空仿射变换和风格迁移。

双向递归特征传播： 设计了一种双向递归特征传播方法，用于在噪声姿态上生成目标图像，以便在当前时间捕获序列的长时序对应关系。

显著提升感知质量： 通过定量和定性实验结果，展示了该方法在视觉保真度和时间一致性方面的优越性，与现有技术相比有显著提升。

增强运动预测能力： 通过前向和后向传播，显著增强了运动预测能力，使得能够更好地处理服装上的高度结构化图案和不连续的姿态。

方法

本文提出的方法主要围绕一个名为Deformable Motion Modulation（DMM）的核心模块，以及一个双向递归特征传播机制。这些技术共同工作，以实现视频基础上的人体姿态转移。

使用双向传播机制来操作由顶点匹配渲染的粗略空间对齐序列。姿势经过编码，以通过 Structural Encoder 的自递归卷积单元捕获结构引导。生成器解码器通过提议的 Deformable Motion Modualtion （DMM）块和样式编码器提取的源样式代码融合来自前向和后向传播分支的特征，从而逐步合成目标图像。

3.1 Deformable Motion Modulation (DMM)

DMM模块的目的是解决在视频帧中保持源图像特征的同时，根据目标姿态合成新内容的挑战。这个模块包括三个主要部分：运动偏移、运动掩码和风格权重。

可变形运动调制（DMM）模块的图示。运动偏移和运动蒙版由前向分支中粗翘特征 fi-1 或后向分支中 bi+1（为简单起见而跳过）的输出、前一层 xl−1 i 在时间 i 生成的输出结果以及基于 Is 的仿射变换进行参数化

运动偏移和运动掩码：这两个组件负责基于两个空间错位的相邻帧的特征来估计局部几何变换。它们通过学习在不同时间帧之间的特征差异来预测运动信息。
风格权重：这个组件通过从源图像提取的风格代码来调制权重，这些权重影响风格迁移的过程。这样，网络不仅能够跟踪源图像中的风格和纹理，还能够将它们适应性地转移到目标姿态上。

DMM模块的设计灵感来自于可变形卷积网络（DCN）和StyleGANv2，它通过不规则的感受野来适应性地重建风格代码对应的平滑帧。

3.2 Bidirectional Recurrent Propagation

为了处理由第三方人体姿态提取器提取的不连续噪声姿态所带来的挑战，本文引入了双向传播机制。这个机制通过前向和后向传播来提取整个输入序列的潜在时间信息。

Mesh Flow：通过3D人体姿态和形状估计器SPIN和隐式可微模型SMPL，我们可以获得源网格和目标网格之间的对应关系，从而计算出变换流。
双向传播：利用共享的2D CNN编码器独立提取前向分支和后向分支的特征，并通过递归传播将这些特征与整个输入序列的时空信息结合起来。这样，模型就可以在生成过程中捕获更强大的时空一致性。

3.3 Objective Loss Function

模型的训练目标是由多个损失项组成的，包括空间对抗损失、时空对抗损失、外观损失、感知损失、风格损失和上下文损失。这些损失项共同指导模型的训练，以确保生成的图像在视觉上逼真，并且与目标姿态保持一致。

通过这些方法，本文提出的方法能够有效地处理复杂的结构图案和噪声姿态，生成具有高度时空一致性和视觉保真度的视频帧序列。

实验

在论文中，作者进行了一系列实验来验证所提出方法的有效性。以下是实验部分的详细描述：

数据集

实验在两个公开的高分辨率视频数据集上进行：FashionVideo和iPER。这两个数据集都以人为焦点，包含了多样的服装、姿态、视角和遮挡情况。

FashionVideo：包含600个视频，每个视频大约有350帧。其中500个视频用于训练，100个用于测试。这些视频由静态相机拍摄，背景为干净的白色。
iPER：包含206个视频，每个视频大约有1100帧。其中164个视频用于训练，42个用于测试。这个数据集包含了不同焦距和性别，以捕捉各种姿势和视角，背景为室内或自然环境。

评估指标

为了全面评估所提出方法的性能，使用了以下评估指标：

结构相似性指数（SSIM）：衡量图像的结构相似性。
峰值信噪比（PSNR）：衡量图像的最大可能功率与均方误差之间的比例。
L1距离：衡量像素级的相似度。
Fréchet Inception Distance（FID）：衡量生成图像与训练图像在感知分布上的差异。
Learned Perceptual Image Patch Similarity（LPIPS）：衡量生成样本与真实样本在感知分布上的距离。
Fréchet Video Distance（FVD）：衡量视频在时间和特征空间上的特征分布差异。

训练策略

使用PyTorch框架实现所提出的方法。
使用Adam优化器进行训练，总迭代次数为50,000次，学习率设置为10^-4。
视频帧被调整为256×256的尺寸以保持原始的宽高比。
LeakyReLU的负斜率设置为0.2。
损失函数中的超参数根据实验调整以优化网络的收敛。

标签：视频,based,Modulation,Pose,DMM,生成,图像,调制,姿态
From： https://blog.csdn.net/buganything/article/details/144181770