[论文阅读] ZePo: Zero-Shot Portrait Stylization with Faster Sampling

时间：2024-11-12 20:46:00浏览次数：1

标签：Shot Stylization 特征 Sampling 一致性图像 ZePo 方法注意力

写在前面

原文：ZePo
GitHub：Github ZePo
关键词：肖像风格化、扩散模型、零样本快速生成
阅读理由：对扩散模型的改进，可以实现零样本快速生成图像，学习一下思路以及实验设计
前置知识：LCM以及GithubLCM（找时间写一下），可参考LCM&CM，一致性蒸馏、图像质量评价

速览

WHY

扩散模型的逐步去噪过程减慢了图像生成速度，为了克服这些限制，提出了一种基于扩散模型的无反转肖像风格化框架

WHAT

基于扩散模型的无反转肖像风格化框架，可以最少通过4步完成内容和风格的融合

HOW

提取特征：采用使用了一致性蒸馏技术的一致性模型可以有效地从噪声图像中提取代表性的一致性特征
特征融合：采用风格增强注意力控制技术（a Style Enhancement Attention Control technique），该技术可以实现在目标图像的注意力空间精细地合并内容和风格特征
去除冗余特征：采用特征融合策略（a feature merging strategy）来整合一致特征中的冗余特征，减少注意力控制的计算量
设置定量定性实验

方法

框架流程介绍：

输入图像，x由编码器编码，在潜在空间内创建一个维度较小的向量z。在潜在空间对z添加噪声得到Zt。丢入LCMs进行一致性特征提取。
在去噪过程中应用提出的SEAC注意力控制机制增强风格特征和去除冗余特征，最后由解码器将我们带回图像空间，产生一个高质量的图像。
去噪过程最少需要4步即可，大大提高了产出速度

亮点

一.一致性特征提取 Consistency Features（蓝色）

给定源图像Xsrc和参考图Xref，预训练的VAE编码器分别将它们编码为潜在代码Zsrc和Zref，之后是一个加噪声的前向过程。最后将噪声隐含代码Ztsrc和Ztref输入到LCMs的噪声预测网络εθ，在εθ的每一个transformer layer l中提取源图像和参考图的特征

二.风格增强注意力控制 Style Enhancement Attention Control

用flˆsrc,flˆref来表示合并的一致性特征。
进入注意力控制机制后，合并的特征分别映射到自注意力模块中的键（KEY）和值（VALUE）特征，SEAC机制的不同之处在于：将源图像和参考图像的键、值特征进行拼接，形成一个统一的键值特征集。另外，对参考图像的键（Kref）乘以一个风格增强系数λ，可以增强风格特征
利用关键特征Ks、Kr与目标图像中的查询特征（Query feature）计算自注意力映射A（a self-attention map A）

最后，A与Vs、Vr相乘即可得到最终的输出结果

（关于查询特征queryfeature）

实验

定性比较

与基于StyleGAN的方法进行对比，包括JoJoGAN、StyleGAN NADA和DynaGAN
与基于扩散模型的方法进行对比，包括InST、VCT
结果如下

定量比较

对现有SOTA方法进行定量比较
这里用到了两种评价方法LPIPs和CLIP
对于定量评估，随机选择10张风格图像和10张内容图像，并为每个基准生成了总共100张样式化图像。ZePo方法在LPIPS和CLIP-IQA指标上均优于其他技术，取得了最佳分数。较低的LPIPS得分表明由保留的内容更优，而较高的CLIP-IQA得分则反映能够合成整体质量更好、视觉吸引力更高的图像的能力。
此外，在基于扩散模型的方法中，ZePo的风格评分最高。
还评估了每种方法所需的微调时间和推理时间。先前的方法需要较长的微调周期，而基于扩散的方法具有较长的推理时间。ZePo框架利用零样本方法消除了额外的微调需求。通过引入Style Enhancement Attention Control，将推理时间减少到约0.6秒，提高了实用性。

消融研究 Ablation Study

消融实验是一种科学研究方法，用于确定一个条件或参数对结果的影响程度。当研究者提出了一个新的方案或方法时，消融实验通过逐一控制一个条件或参数，来观察结果的变化，以确定哪个条件或参数对结果的影响更大。

注意力控制 Attention Control
推理步骤 Inference Steps
一致性特征 Consistency Features

标签：Shot,Stylization,特征,Sampling,一致性,图像,ZePo,方法,注意力
From： https://www.cnblogs.com/lichunlei/p/18539426

apisampling.dll文件丢失导致程序无法运行问题
其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题，如果是新手第一时间会认为是软件或游戏出错了，其实并不是这样，其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库，这时你可以下载这个apisampling.dll文件(挑选合适的版本文件)把......
dc-aichat（一款支持ChatGPT+智谱AI+讯飞星火+书生浦语大模型+Kimi.ai+MoonshotAI+豆包A
dc-aichat一款支持ChatGPT+智谱AI+讯飞星火+书生浦语大模型+Kimi.ai+MoonshotAI+豆包AI等大模型的AIGC源码。全网最易部署，响应速度最快的AIGC环境。PHP版调用各种模型接口进行问答和对话，采用Stream流模式通信，一边生成一边输出。前端采用EventSource，支持Markdown格式解析，支持公式......
从截图到代码：screenshot-to-code开源项目实践指南
一、运行效果项目地址：GitHub-abi/screenshot-to-code:Dropinascreenshotandconvertittocleancode(HTML/Tailwind/React/Vue)二、实践步骤1.将项目下载到本地2.获取Anthropic(Claude)密钥或者 OpenAIAPI(chatGPT)密钥(1)OpenAIAPI(chatGPT)密钥......
zero-shot、one-shot、few-shot
总结对比 zero-shot是一种机器学习方法，指的是模型能够处理从未在训练数据中见过的任务或类别，即模型在面对新任务时不需要额外的训练和微调也能做出合理的决策。以视觉场景为例，如CLIP（ContrastiveLanguage-ImagePre-Training），它将图像和文本嵌入到同一个语义空间中，使得模型能......
macOS电脑实时渲染和动画制作软件：KeyShot 2024.3 中文激活补丁版
KeyShotKeyShot是一款互动性的光线追踪与全域光渲染程序，它凭借强大的技术算法和全局光照研究，无需复杂设定即可产生相片般真实的3D渲染影像。该软件用户界面简单直观，运行快速，支持多种3D模型格式和渲染模式，为设计师、工程师等提供了丰富的材质库、灯光库和动画功能，能够满足用户从静......
CleanShot X - Mac（苹果电脑）专业截图录屏软件
CleanShotX不仅提供了基础的截图功能，更内置了强大的图片编辑器，让你能轻松添加标注、形状、文本……以及将多个截图进行合并。无论是为社交媒体制作图文，还是制作专业的产品/教程演示，CleanShotX都能满足你的需求。软件支持多样化的截图模式，包括：区域、窗口、全屏、......
KeyShot操作的一些补充
--本篇导航--材质图中一些节点的补充（色度键屏蔽、要计数的颜色、色彩复合、曲线淡出、颜色淡出）用曲线淡出制作了几个复杂点的动画场景打光（场景环境贴图、植物投影、遮挡的平面板）动画的补充（关键帧、相机动画）模拟重力系统、塑料模拟金属、问立体图的三平面渲染线稿、导出高清......
systemd oneshot服务配置例子
服务这样写：[Unit]Description=nginx-highperformancewebserverAfter=network-online.targetremote-fs.targetnss-lookup.targetWants=network-online.target[Service]Type=oneshot//类型选oneshotRemainAfterExit=y......
Cinemachine系列——最佳视野(一)&CinemachineClearShot
这里介绍一下，自动切换到场景中最佳视野的摄像机的第一种方式。首先介绍一下CinemachineClearShot组件，它是自动完成这项工作的核心。通过PackageManager导入Cinemachine插件，在导入CinemachineSample后，我们可以在Assets文件夹下Cinemachine/2.6.17（这个是你下载的cinemachine版本......
KeyShot基础操作5 - 动画篇
--本篇导航--动画界面动画类型动画时间轴导出动画一些例子注：本人目前只会简单的动画，摄像机运镜、速度曲线这些还控制不好。以下均为简单演示。动画界面KeyShot中的动画每次只能是一个动作，如果需要对同一个对象创建复杂的动画，就需要对其多次添加不同的动画效果。做......