首页 > 其他分享 >技术解析 | ZEGO 移动端超分辨率技术

技术解析 | ZEGO 移动端超分辨率技术

时间:2023-10-31 18:24:08浏览次数:39  
标签:视频 端超 超分 技术 设计 图像 ZEGO 模型 轻量级

 即构超分追求:速度更快、效果更好、码率更低、机型更广。

超分辨率(Super Resolution, SR)是从给定的低分辨率(Low Resolution, LR)图像中恢复高分辨率(High Resolution,HR)图像的过程,是计算机视觉的一个经典应用。SR 是指通过软件或硬件的方法,从观测到的低分辨率图像重建出相应的高分辨率图像。在直播、点播、监控设备、视频编解码、卫星图像遥感、数字高清、显微成像、视频复原和医学影像等领域都有重要的应用价值。

超分辨率在广义上包含三种技术方向:

1)单帧图像超分辨率放大;

2)多帧连续图像重建超分辨率单帧图像;

3)视频序列的超分辨率重建视频帧。

本文侧重单图像超分辨率放大,主要是用大量的高清图像和低质图像数据对的先验知识,基于深度学习技术进行低质图像的高频信息的复原。

一、移动端超分面临的挑战

业界主流基于深度学习的超分模型参数量在 300K 以上,FLOPs 在 100G 以上,在普通 GPU 显卡上,都很难做到 30 帧每秒(640x360 放大2倍到 1280x720),在移动端上只能处理单帧图片,且不能用于实时通话中。

所以,如何让超分在移动端实时跑起来,将是个巨大的挑战:

1、移动端实时视频分辨率比较低(640x480 左右),而移动手机显示屏分辨率一般都比较高(1920x1080,甚至到 2340x1080),如 Apple 13 Pro Max 显示屏分辨率为 2778 x 1284;

2、每帧处理耗时要低于30毫秒(640x360 超分到 1280x720),否则会有明显的卡顿;

3、超分处理后,图像或视频相对于没开启超分,有明显的主观、客观质量提升。

那么,基于深度学习的超分网络模型设计也需要面临挑战:

挑战一:网络模型参数量过大,一般都大于 500K;

挑战二:模型运算量过大,推理时非常慢,一般都大于 100G FLOPs;

挑战三:超分区别于其他计算机视觉如目标检测与跟踪技术,不能对输入的图像或视频进行缩小。

 

 

 

图1:Urban100数据上各个超分PSNR示意图,横坐标是模型的参数量,纵坐标是模型在Urban100数据集上的PSNR。为了便于和业界公开论文,在公开数据集上比较,大家都使用PSNR/SSIM来评价图像质量。

通过图1我们可以看到,即构的超分技术,无论是轻量级模型,还是极小轻量级模型,客观数据表现不俗,并且在即构的产品应用中,能覆盖 Android 和 iOS 手机 2500+ 款机型。

那么,即构是如何解决上述的问题呢?

二、即构超分技术

经实测,近十年公开报道的超分技术无一能在移动端实时通话中运行起来,更不能谈及覆盖更广的移动端机型,而业界最低运算量(PAN2020[4])的超分模型,也很难实时跑起来,使得机型覆盖率极度有限,某友商超分任务覆盖不足 50 款指定高端旗舰机型,而某大厂基于谷歌 RAISR 方法优化的效果不足以保证。

图1中的 IMDN2019([1]) 是 AIM2019 Challenge on Efficient Super-Resolution 比赛冠军,RFDN2020([5]) 和 PAN2020([4])则分别是 AIM2020 冠军和亚军,也仅仅能在 NVIDIA GeForce 1080ti 显卡上实时跑,移动端不能奢想。

为了解决这个问题,我们需要一些原则来指导模型的设计,主要从以下三个方面思考:

1)指导模型设计:什么样的模型才是最好的候选网络模型,以减少训练次数;

2)极轻量级模型设计:在适配移动端设备时,主客观效果相对于大模型不显著下降,且显著优于传统插值放大算法;

3)模型量化压缩及加速,及工程化。

2.1 指导模型设计

考虑到 GPU 资源有限、任务多,所以要尽可能的设计一个直达任务目标的极小网络模型,且节约 GPU 资源。

北京某超算中心的提供的 2 卡 V100-32G 云服务,每小时 6 元,则一个月的费用是7x24x30x6元=30240元/月。所以当我们设计了一个模型,花了很长时间好不容易训练出来,结果在移动端没法实时,也是浪费算力和人力。

那么我们如何能在不做任何训练的情况下,从仅有的一些模型数据中,寻找真正所需要的移动端网络模型呢?

 

 

 

图2:不同架构模型设计下的参数量与运算量

图2中,不同颜色的曲线表示不同架构下的超分模型,曲线上的点则表示不同深度和宽度的模型下的参数量和运算量。实际设计模型,还需要加入更多维度,如输入图像的宽高、特征图的通道数等。

那么是不是可以总结为我们要去寻找 Params 大,而 FLOPs 小的网络模型?

Params 大则网络模型表现力强, FLOPs 小则运行速度快(不一定准确,依赖于推理库,若模型中操作算子是常规的操作算子,则大概率是正确的)。若上面推断正确,则上述图2表明:绿色代表的超分模型强于红色,也强于蓝色,那么,我们就需要设计出越来越陡的曲线模型。对每种设计的模型,训练一个epoch,然后移植到移动端测试实际性能,而“抖“的上确界在哪里,就需要实验数据来支撑。

这就给了我们一个设计网络模型的指导方向:参数量尽可能的多,而运算量尽可能的少,并结合实测数据,探测较优的、可能实时的候选模型。

依据这样的原则,我们就能够对所设计的网络模型选择一个合理的方向,然后基于选定的方向,找到适合在移动端实时运行的模型的深度和宽度等参数。

另外,算法选型也是一种考验,开源的超分足够多,但落地产品化的极少,产业界不乏大厂,有如下方案:

1)基于 RAISR(Google,2016) 本质就是一般传统的基于机器学习的哈希算法,根据低分辨率图像块里的内容和几何特征对其进行分类,最后利用机器学习算法,学习低分辨率图像块和高分辨率图像块之间的关系,得出重建矩阵,基于 RAISR 进行裁剪优化,效果得不到保证。

2)基于 SRGAN (Christian Ledi, 2016)以及变种方法进行优化时,往往鲁棒性不足,受到很大噪声干扰,特别是实时视频中出现的各类噪声。所以在移动端基于 GAN 的超分鲁棒和实时很难兼顾,特别是 Android 机型。

3)基于视频超分,需要两帧做光流(或块匹配)、对齐、融合,非常耗时,对于不能裁剪缩小的原始输入帧,要想在 Android 机型上实时超分,几乎是不可能的。而去掉光流或对齐,则效果很难保证,还会导致超分后的视频偏模糊,对比 2019~2020 的轻量级的两帧视频超分,很多效果还不如单帧超分,特别是运动稍大或灯光闪烁或颜色渐变场景。

4)注意力机制,在超分应用中虽改善了主观效果,但非常耗时、性价比很低。

3.2 轻量级模型设计

一般来说,轻量级超分模型设计架构如下:

 

 

图3:轻量级超分网络模型架构

 

如何设计轻量级([1]~[11])的超分网络模型呢?

优化BasicBlock 基础块,调整Skip Connection,并且让每个卷积基础块都能充分发挥其功效而不冗余。但是这样的网络模型,在参数量、运算量极度限制的情况下,卷积个数屈指可数,特征通道数也极度有限。那么我们又该如何设计?

1) 优化基础残差块:让每个卷积l发挥关键性的、不冗余的作用,1x1 和3x3 卷积是必然首选。让通道内部、通道之间进行特征信息共享,降低参数量、运算量,有效提取特征、重建;

2) 优化模型设计框架:大模型训练,等价或几乎等价小模型推理,但不限于单纯的知识蒸馏等技术,并且还需结合量化做训练。

3) 操作算子的选择:尽可能选择前馈推理库支持的操作算子,否则很耗时;

4) 优化损失函数:蒸馏损失、梯度损失、TV损失、DCT损失、FFT损失、特征信息损失等;

5) 优化训练技巧和数据集:结合实际视频业务流程,懂视频编解码,制作适合业务的训练数据集,而不是单纯的调参。实际业务中,60%靠数据,30%靠网络模型,10%靠调参训练技巧,三者互为补充。

3.2.1 优化基础残差块

 


 


图4:优化基础残差块过程

以上仅仅是优化基础残差块,做各种对比实验(主客观对比实验、整体耗时、各个操作算子耗时等),择优选择出适合自己业务逻辑的优化方向。

当设计极轻量级网络的时候,卷积的个数往往屈指可数的,就导致NAS方法(Neural Architecture Search)没有实际意义,在落地应用时实测更加耗时。同理,模型剪枝实际意义不大,特别是对极轻量级的网络模型。

3.2.2 模型框架设计

 


 图5:PAMS2020[11]

PAMS2020[11]这篇超分文章也给了我们一个思路:

1)量化及支持量化的推理库,2bit量化及支持2bit量化的前馈推理库是至关重要的,2bit量化结合大模型训练小模型推理,带来了很大的效果和性能优化空间,而不用苦苦追寻性价比下确界;

2)结构化特征信息知识损失;

3)引申出大模型训练,等价小模型推理。

3.2.3 其他优化

根据实际业务需求,利用视频图像常识做训练数据和损失函数:

1) 平坦区域总是远远高于非平坦区;

2) 人眼对平坦区超分或其他增强是无感的,而密集纹理区增强是感知强烈的;

3) 深度学习任务中,训练数据的重要性远大于网络模型设计;

基于以上基础知识,优化的知识点就出来了,无论是损失函数的设计,还是数据集的设计,即使无法涨点,但是能够提升主观质量。

3.3 模型压缩及加速

   分两方面:

1) 模型压缩:对于非常小的极度轻量级的模型,剪枝、网络搜索等策略大多不太适用;

2) 模型加速:分为以下3点

A. 量化(PQT/QAT)与支持量化的推理库,需要自研支持量化的前馈推理库;

B. 硬件加速,比如使用高通的 DSP(SNPE)、各个厂家的 NPU/APU、苹果的 ANE 等;

C. 支持量化的硬件加速;

对于很多大模型来讲,量化后精度的下降可接受,而极小模型对精度非常敏感,精度稍微下降,主观质量也会有明显的下降。

三、基础对比实验

 

图6:近几年超分辨率现有技术的各个指标数据,640x360两倍放大到1280x720,数据来源于其论文或开源或复现

 

从图6各个数据集上可以看出,ZEGO 超分表现卓著:

1、ZEGO 大模型,优于 IMDN 2019(AIM 2019冠军),参数量是 IMDN 的一半,FLOPs 也是其一半;

2、ZEGO 大模型,相比于 RFDN2020(AIM2020冠军),PSNR/SSIM 略低,但参数量是它的一半,FLOPs 是其三分之二;

3、ZEGO 小模型,5.848K 参数量下,优于 SESR-M3;

4、ZEGO最新极小极小模型,0.972K 参数量,0.24422G 的FLOPs,性能很接近于双立方插值,而 Set5 上的PSNR/SSSIM为 36.5431/0.9536,还是显著优于双立方插值的 33.66/0.9299。

四、未来展望 

高分辨率的视频能提供更清晰的画面和更高阶的感官体验,对于提升视频质量和用户视觉感受有很大的帮助。ZEGO 即构科技发布移动端实时超分辨率技术​​​​​​​,帮助客户获得畅爽的视频体验,致力于打造更高水平的图像恢复和图像增强。

未来,即构超分将继续进行算法性能优化,提升视频效果,做到 ——

更快,极低功耗,极低耗时!

更好,提升视频主观质量!

更低,结合编解码,实现高清画质下的极低码率!

更广,覆盖更多机型!

 

附:参考文献

[1] IMDN2019: Hui, Z., Gao, X., Yang, Y., Wang, X.: Lightweight image super-resolution with information multi-distillation network. In: ACM Multimedia. pp. 2024–2032. ACM (2019)

[2] LapSRN2017: Lai, W., Huang, J., Ahuja, N., Yang, M.: Deep laplacian pyramid networks for fast and accurate super-resolution. In: CVPR. pp. 5835–5843. IEEE Computer Society (2017)

DRCN2016: Kim, J., Lee, J.K., Lee, K.M.: Deeply-recursive convolutional network for image super-resolution. In: CVPR. pp. 1637–1645. IEEE Computer Society (2016)

[3] SESR2021: Bhardwaj, Kartikeya and Milosavljevic, Milos and O'Neil, Liam and Gope, Dibakar and Matas, Ramon and Chalfin, Alex and Suda, Naveen and Meng, Lingchuan and Loh, Danny: Collapsible Linear Blocks for Super-Efficient Super Resolution. (2021)

[4] PAN2020: Zhao, Hengyuan and Kong, Xiangtao and He, Jingwen and Qiao, Yu and Dong, Chao: Efficient image super-resolution using pixel attention.ECCV2020

[5] RFDN2020: Jie Liu, Jie Tang, Gangshan Wu: Residual Feature Distillation Network for Lightweight Image Super-Resolution. AIM2020

[6] SMSR2020: Longguang Wang, Xiaoyu Dong, Yingqian Wang, Xinyi Ying, Zaiping Lin, Wei An, Yulan Guo: Exploring Sparsity in Image Super-Resolution for Efficient Inference.2020

[7] Saeed Anwar, Salman Khan, and Nick Barnes. A deep jourworks. In Proceedings of the IEEE conference on computer ney into super-resolution: A survey. ACM Computing Survision and pattern recognition, pages 1646–1654, 2016. 5, 6 veys (CSUR), 53(3):1–34, 2020.

[8] Zhang, Y., Li, K., Li, K., Zhong, B., Fu, Y.: Residual non-local attention networks for image restoration. In: ICLR (Poster). OpenReview.net (2019)

[9] Zhang, K., Nan, N., Li, C., Zou, X., Kang, N., Wang, Z., Xu, H., Wang, C., Li, Z., Wang, L., Shi, J., Gu, S., Sun, W., Lang, Z., Nie, J., Wei, W., Zhang, L., Niu, Y., Zhuo, P., Kong, X., Sun, L., Wang, W., Timofte, R., Hui, Z., Wang, X., Gao, X., Xiong, D., Liu, S., Gang, R.: AIM 2019 challenge on constrained super-resolution: Methods and results. In: ICCV Workshops. pp. 3565–3574. IEEE (2019)

[10] Zhang, K., Danelljan, M., Li, Y., Timofte, R., et al.: AIM 2020 challenge on efficient super-resolution: Methods and results. In: European Conference on Computer Vision Workshops (2020)

[11] PAMS2020: Li, Huixia and Yan, Chenqian and Lin, Shaohui and Zheng, Xiawu and Li, Yuchao and Zhang, Baochang and Yang, Fan and Ji, Rongrong: PAMS: Quantized Super-Resolution via Parameterized Max Scale. Springer.2020.

 


标签:视频,端超,超分,技术,设计,图像,ZEGO,模型,轻量级
From: https://www.cnblogs.com/zegoinfo/p/17800936.html

相关文章

  • TSINGSEE青犀AI视频识别技术+危化安全生产智慧监管方案
    一、背景分析石油与化学工业生产过程复杂多样,涉及的物料易燃易爆、有毒有害,生产条件多高温高压、低温负压,现场危险化学品存储量大、危险源集中,重特大安全事故多发。打造基于工业互联网的安全生产新型能力,提高危化企业生产过程中对安全风险的监测感知和预警管控,最大化降低安全隐患、......
  • 常见网络攻击技术
    (1)SQL注入:Web应用未对用户提交的数据做过滤或者转义,导致后端数据库服务器执行了黑客提交的sql语句。黑客利用sql注入攻击可进行拖库、植入webshell,进而入侵服务器。(2)XSS跨站:Web应用未对用户提交的数据做过滤或者转义,导致黑客提交的javascript代码被浏览器执行。黑客利用......
  • 单细胞核测序技术
    在有些情况下,细胞是很难完整分离的,比如长期保存的组织,或者大脑细胞和脂肪细胞。在分离细胞时所用的酶和破坏力往往会影响其他细胞区室的内容。此时,单核RNA测序就显得特别重要。细胞核转录组是否代表了整个细胞的转录组,以及在snRNA-seq中发现的基因是否或多或少与特定研究相关。一些......
  • 单细胞测序技术 概述
    单细胞测序技术是指在单个细胞水平上对转录组或基因组进行扩增并测序,以检测单细胞在基因组(结构变异-StructuralVariations-SVs;拷贝数变异-Copynumbervariants-CNVs;单核苷酸变异-Singlenucleotidevariants-SNVs等),转录组学(RNA表达水平;转录本的选择性剪接),表观组学(DNA甲基化等),蛋......
  • 7 年 Android 老油条告诉你:天天工作拧螺丝,如何打破技术瓶颈?
    引言作为在Android这个圈子摸爬滚打7年的老油条想给你们工作“3~5”年的朋友提点职业上和技术上的建议其实很多做开发的朋友都会遇到的怪圈。就是当你到某一个阶段,会觉得业务和技术提升都很难,现在的公司待着感觉没有前途混吃等死,想跳槽吧,心里却没底。如果是碰到这种情况,那么十......
  • 钡铼技术ARM工控机在物联网领域的应用
    ARM工控机是一种基于ARM架构的工业控制计算机,用于在工业自动化领域中进行数据采集、监控、控制和通信等应用。ARM(AdvancedRISCMachine)架构是一种低功耗、高性能的处理器架构,广泛应用于移动设备、嵌入式系统和物联网等领域。ARM工控机通常具有以下特点:低功耗和高效性能:ARM处理......
  • 钡铼技术ARM工控机的特点和优势
    ARM工控机是一种基于ARM架构的工业控制计算机,用于在工业自动化领域中进行数据采集、监控、控制和通信等应用。ARM(AdvancedRISCMachine)架构是一种低功耗、高性能的处理器架构,广泛应用于移动设备、嵌入式系统和物联网等领域。ARM工控机通常具有以下特点:低功耗和高效性能:ARM处理器以......
  • 【技术分享】Amazon RDS MySQL参数说明及性能调优
    在亚马逊云科技的RDS中支持几乎主流的数据库,对于亚马逊云中的数据库的参数设置及性能调优对于我们的日常业务的运行会很有帮助。本篇将对于Amazon RDSMySQL的参数说明及性能调优。RDSMySQL的执行基本架构1.我们都知道,基础设施的潜在异常是常见的,也是不可避免的。Flamingo零售......
  • 【技术分享】Amazon RDS MySQL常见故障分析和排查
    在亚马逊云的RDS中支持几乎主流的数据库,对于亚马逊云中的数据库的问题排查对于我们的日常业务的稳定运行会很有帮助。本篇将对于Amazon RDSMySQL常见故障问题的分析和排查办法。RDS提供了强大的适配工作负载功能对于RDS的责任共担RDS常见连接问题Check:√客户端IP地址是否在D......
  • 浅谈搜索展现层场景化技术-tanGo实践 算子化
    浅谈搜索展现层场景化技术-tanGo实践https://mp.weixin.qq.com/s/nVy9SYRIaaqZWgOHKTMQ4Qintroduction本文为搜索展现层相关技术,主线会先通过介绍搜索阿拉丁的产品形态,让读者初步了解什么是阿拉丁,及相关展现概念。之后会聚焦场景化产品,场景化是搜索构建沉浸式完美体验(重新组合整......