首页 > 其他分享 >【流行前沿】Text + Sketch Image Compression at Ultra Low Rates

【流行前沿】Text + Sketch Image Compression at Ultra Low Rates

时间:2023-09-27 11:33:18浏览次数:37  
标签:Sketch arXiv Compression Text 压缩 生成式 语义 2023 图片

今天分享一篇7月挂在arxiv上的文章,研究的是用生成式网络进行图片压缩。

近十年来,用图片压缩的主流方法是神经网络来做。

17年左右流行用带有量化的autoencoder来做图片压缩,同时训练的指标也是常用的distortion metric,比如MSE,PSNR,MS-SSIM等等。

但是这些方法在低比特率的时候通常有模糊的现象发生,因此从19年开始大家转到了生成式压缩,这个时候指标也变成了原分布与重建分布的差异大小。这个方法在小于0.1bpp(bit-per-pixel)的时候效果很好。但是当时的生成式技术并没有那么可信/faithful,因此后面大家开始用human-aligned的自然语言表述的语义信息来生成图片。

21年开始,text-to-image生成方法流行了起来,而在22年的diffusion model和CLIP算法更是占据了主流。在此基础上,这些压缩器传输量化的embedding来进行图片恢复。这篇文章可以看成这个架构上的扩展。

本文核心


这篇文章的核心创新就是用图片的结构信息来辅助生成压缩后的图像。一般而言的生成式图像,在单独用语言描述时候,只能感觉上像,但是方位等信息通常就丢失了。这个架构其实也是用的比较多的,像杨润雨的一个工作就是用有损压缩来压缩结构信息。这样可以看到在0.013bpp的时候也有比较好的效果。
Alt text

其他零散要点

  1. 以人的感官为标准而不是客观指标为标准的压缩方法,是一种可能的发展方向。即对压缩前后,看人的评价是否一致。
  2. 将图像转换为文字的技术(相当于语义提取)成为prompt inversion,来源于Wen 2023。同样的,从语义相似度角度上来衡量,可以用图片的embedding的结果相似程度来衡量,比如

\[d_{\mathrm{CLIP}}(x,\hat{x})=1-\frac{e(x)\cdot e(\hat{x})}{\|e(\boldsymbol{x})\|\|e(\hat{\boldsymbol{x}})\|} \]

  1. 将结构信息和语义信息共同进行生成式图片的基础,可以采用ControlNet来做,来源于Zhang 2023。这是一个基于stable diffusion的文本图像生成结构,能将edge detection map、分割图、深度图等形式的spatial conditioning maps的空间信息提取出来。

Wen, Y., Jain, N., Kirchenbauer, J., Goldblum, M., Geiping, J., and Goldstein, T. Hard prompts made easy: Gradientbased discrete optimization for prompt tuning and discovery. arXiv preprint arXiv:2302.03668, 2023.

Zhang, L. and Agrawala, M. Adding conditional control to text-to-image diffusion models. arXiv preprint arXiv:2302.05543, 2023.

标签:Sketch,arXiv,Compression,Text,压缩,生成式,语义,2023,图片
From: https://www.cnblogs.com/mhlan/p/17732296.html

相关文章

  • UnityGLTF插件加载模型时,OcclusionTexture贴图显示错误的问题处理
    工作中遇到使用UnityGLTF插件加载GLTF模型时,贴图显示错误的问题,如下图 检查材质时发现,把OcclusionTexture去掉就看起来正常了  看来是插件对OcclusionTexture的解析出了问题, 那么我们来看一下,GLTF中对OcclusionTexture的描述片段,是这样:"name":"5木质长廊1.bmp","o......
  • golang Context应用举例
     Context本质golang标准库里Context实际上是一个接口(即一种编程规范、一种约定)。typeContextinterface{Deadline()(deadlinetime.Time,okbool)Done()<-chanstruct{}Err()errorValue(keyany)any} 通过查看源码里的注释,我们得到......
  • Python之html2text:将HTML转换为Markdown文档示例详解
    From: https://mp.weixin.qq.com/s/Pa3NDXOseyg0mIn869mbhQ-----------------------------------------------------------------------------------------hello大家好我是Monday,本文将详细介绍如何使用Python库中的html2text模块来实现将HTML转换为Markdown的操作,并提供示例......
  • Android 第一次点击EditText不显示光标问题
    可以考虑在XML布局文件中添加android:focusableInTouchMode="true"属性,以确保ClearEditText控件在触摸模式下也能获取焦点。这样,用户在首次点击时会立即看到光标。在XML布局文件中,将ClearEditText的定义中添加android:focusableInTouchMode属性,如下所示:<com.tools.q......
  • Android EditText显示图标
    实现了要给带清除按钮的ClearEditText,但是无法显示图标<androidx.constraintlayout.widget.ConstraintLayoutandroid:layout_width="match_parent"android:layout_height="wrap_content"android:layout_gravity="center">......
  • Spring扩展接口(1):ApplicationContextInitializer
    在此系列文章中,我总结了Spring扩展接口,以及各个扩展点的使用场景。并整理出一个bean在spring中从被加载到初始化到销毁的所有可扩展点的顺序调用图。这样,我们也可以看到bean是如何一步步加载到spring容器中的。ApplicationContextInitializerorg.springframework.context.App......
  • Llama2-Chinese项目:2.3-预训练使用QA还是Text数据集?
      Llama2-Chinese项目给出pretrain的data为QA数据格式,可能会有疑问pretrain不应该是Text数据格式吗?而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术,给出pretrain的data为Text数据格式。所以推测应该pretrain时QA和Text数据格式都应该支持。然后马上就会有一个疑问......
  • latext常用语法
    Latext基本语法Latex语法格式在开始本文之前,请先熟悉下,Latex的行文结构,这也是最基本的,作为一个程序员来说,每开始一个新的编程语言学习时,都要先了解该程序语言的结构,那样才能快速编程。\documentclass[options]{class}\begin{document}%录入正文内容\end{document}参数:op......
  • python mimetext 参数
    Pythonmimetext参数详解在Python3中,使用mimetext模块可以轻松地创建电子邮件消息。在发送电子邮件时,我们需要设置邮件的主题、收件人、发件人、正文和附件等信息。而mimetext模块就是用来处理邮件中的文本和附件的。本文将详细介绍mimetext模块中的参数及其用法。安装步骤pip3......
  • (五)Unity性能优化-Texture导入设置检查与优化
    TextureShape-2D最常用的2D纹理,默认选项-Cube一般用于天空和与反射探针,默认支持Default、Normal、SingleChannel几种类型纹理,可以通过Assets>Create>Legacy>Cubemap生成,也可以通过C#代码Camera.RenderToCubemap在脚本中生成-2DArray2D纹理数组,可以极大提高大......