首页 > 其他分享 >Towards Robust Blind Face Restoration with Codebook Lookup Transformer(NeurIPS 2022) | Codeformer

Towards Robust Blind Face Restoration with Codebook Lookup Transformer(NeurIPS 2022) | Codeformer

时间:2024-09-04 22:51:51浏览次数:8  
标签:Blind Transformer Towards 映射 高质量 面部 Encoder 图像

Towards Robust Blind Face Restoration with Codebook Lookup Transformer(NeurIPS 2022)

这篇论文试图解决的是盲目面部恢复(blind face restoration)问题,这是一个高度不确定的任务,通常需要辅助指导来改善从低质量(LQ)输入到高质量(HQ)输出的映射,或者补充输入中丢失的高质量细节。具体来说,论文关注以下几个关键问题:

  • 如何在不知道具体退化过程的情况下(即盲目恢复),从严重退化的输入图像中恢复出高质量的面部图像。

  • 如何减少恢复映射的不确定性和模糊性,特别是在输入图像质量较低时。

  • 如何在保持高保真度的同时,生成具有丰富视觉细节的高质量面部图像。

为了解决这些问题,论文提出了一种基于Transformer的预测网络,名为CodeFormer,它利用在一个小的代理空间中学习的离散码本(codebook)先验,将盲目面部恢复任务转化为码预测任务。这种方法旨在通过全局建模低质量面部的组成和上下文,发现与目标面部紧密近似的自然面部,即使输入图像严重退化。此外,为了增强对不同退化类型的适应性,论文还提出了一个可控的特征转换模块,允许在保真度和质量之间进行灵活的权衡。

codeformer_2024-09-04_

本文的主要方法如下:

  1. 在高质量的数据集上训练一个VQVAE,得到一个具有清晰视觉细节的Decoder、CodeBook和Encoder
  2. 在低质量数据集上微调Encoder,并且在Encoder到CodeBook直接插入一个Transformer,用作LQ的Embdedding到HQ的Embedding的映射,因为空间是离散的,相当于一个分类预测任务了.注意transformer和Encoder是一起训练的.
  3. 一个CFT的short-cut来控制quality和fidelity之间的权衡.为什么这个CFT能控制,因为从encoder可通过short-cut传入的Embedding是能包含更多的信息,因此保真度(fidelity)更好,但是embedding的从LQ提取的,因此quality会变差.

上图给出了为什么使用VQVQE,因为VAE输出的Embedding是连续的,包含的潜空间太大,而VQVAE可以看作聚类,从LQ->HQ的映射,为了保证图像质量,我们希望这个映射空间较小,从而更可能生成高质量的图像.,更有利于模型学习.

codeformer_2024-09-04_

CodeFormer也可以用于图像编辑之类的.


  1. 做超分可以借鉴一下上述的pipeline
  2. 对于VQVAE、连续空间和离散空间的理解:连续空间包含更多信息,但是也会引入噪声;离散空间通过缩小映射空间从而过滤一下噪声.

标签:Blind,Transformer,Towards,映射,高质量,面部,Encoder,图像
From: https://www.cnblogs.com/chenfengshijie/p/18397486

相关文章

  • 【深度学习 transformer】使用pytorch 训练transformer 模型,hugginface 来啦
    HuggingFace是一个致力于开源自然语言处理(NLP)和机器学习项目的社区。它由几个关键组件组成:Transformers:这是一个基于PyTorch的库,提供了各种预训练的NLP模型,如BERT、GPT、RoBERTa、DistilBERT等。它还提供了一个简单易用的API来加载这些模型,并进行微调以适应特定的下游任务......
  • 【HuggingFace Transformers】OpenAIGPTModel源码解析
    OpenAIGPTModel源码解析1.GPT介绍2.OpenAIGPTModel类源码解析说到ChatGPT,大家可能都使用过吧。2022年,ChatGPT的推出引发了广泛的关注和讨论。这款对话生成模型不仅具备了强大的语言理解和生成能力,还能进行非常自然的对话,给用户带来了全新的互动体验。然而,ChatGPT......
  • LSTM+transformer+稀疏注意力机制(ASSA)时间序列预测(pytorch框架)
    LSTM+transformer+稀疏注意力机制transformer,LSTM,ASSA注意力首发原创!纯个人手打代码,自己研究的创新点,超级新。可以发刊,先发先的,高精度代码。需知:好的创新性模型可以事半功倍。目前太多流水paper,都是旧模型,老师已经审美疲劳,很难发好一点的刊,这种模型很新,让paper审核老师眼......
  • 高创新 | Matlab实现Transformer-GRU-SVM多变量时间序列预测
    高创新|Matlab实现Transformer-GRU-SVM多变量时间序列预测目录高创新|Matlab实现Transformer-GRU-SVM多变量时间序列预测效果一览基本介绍程序设计参考资料效果一览基本介绍1.Matlab实现Transformer-GRU-SVM多变量时间序列预测,Transformer+门控循环单......
  • 基于Seriall-LSTM-Transformer的自行车租赁数量预测研究(Matlab代码实现)
                            ......
  • 这样图解Transformer应该没人看不懂了吧——Transformer工作原理
    前言本文将深入剖析Transformer的内部工作原理,详细研究其运作细节。我们将通过实际的矩阵表示和形状,观察数据如何在系统中流动,并理解每个阶段进行的计算。本文目标不仅是理解Transformer是如何工作的,更要探究它为何如此工作。架构概览正如我们在第一部分中看到的,Transformer架构的......
  • 小琳AI课堂:Transformer模型
    大家好,这里是小琳AI课堂!今天我们来聊聊一个在自然语言处理(NLP)领域取得了革命性进展的深度学习架构——Transformer模型!......
  • 神经网络与Transformer模型在智能驾驶中的应用
    前言为什么展示模块是高质能量,而硅控模块是比较低智能呢?因为在感知环节中,具体它是一辆货车还是小轿车,我们并不需要雇佣5000名程序员去写识别的规则,比如说长宽高是多少以上的,满足条件之后才会判定为货车或者满足什么条件才是轿车,而是完全不需要代码去实现感知功能。通过一个合理的神......
  • 搞懂Transformer结构,看这篇PyTorch实现就够了
    前言下面分享一篇实验室翻译的来自哈佛大学一篇关于Transformer的详细博文。“AttentionisAllYouNeed”[1]一文中提出的Transformer网络结构最近引起了很多人的关注。Transformer不仅能够明显地提升翻译质量,还为许多NLP任务提供了新的结构。虽然原文写得很清楚,但实际上大家普......
  • 《BERT基础教程:Transformer大模型实战》一本相见恨晚的大模型入门书(附PDF)
    前言随着chatgpt的火热,大模型成为业界新的热点。而未来每个人,不仅仅是人工智能或者计算机行业从业者,未来的工作或多或少可能都会被大模型的影响。所以了解transformer为基础的大模型(Bert,gpt)就很有必要了。本书聚焦谷歌公司开发的BERT自然语言处理模型,由浅入深地介绍了BERT的工......