目录
传统方法的局限性
- 传统的方法基于分割的图像块,会产生伪影。
- 编码器的各个组件之间依赖关系复杂,难以手动进行整体优化。
- 单个模块得到较大提升后,模型整体可能不会有太大提高。
端到端的基于学习的方法
- 对模型整体进行联合优化,对单个组件的改进会影响模型的整体效果。
- 使不同模块之间更自适应的相互协作。
- 通过神经网络也可以更好的提取图像特征
但是这种训练方式存在一个问题,量化操作不可微,因此在训练时学者设计了许多不同的方法去逼近它。有学者[1,2]用加性的均匀噪声来代替真量化,也有学者[3]使用软硬矢量量化代替直接标量量化。
熵编码过程
早期的工作使用元素独立熵模型来估计潜在特征的概率分布,然后再使用元素编码器对每个元素进行独立编码。
后来有研究使用超先验[2],也有研究使用预测模型[4],来显式估计熵。
[1] J. Balle, V. Laparra, and E. P. Simoncelli, “End-to-end optimized image compression,” in Proc. Int. Conf. Learn. Representations, 2017.
[2] J. Balle, D. Minnen, S. Singh, S. J. Hwang, and N. Johnston, “Variational image compression with a scale hyperprior,” in Proc. Int. Conf. Learn. Representations, 2018.
[3] T. Dumas, A. Roumy, and C. Guillemot, “Autoencoder based image compression: Can the learning be quantization independent?” in Proc. IEEE Int. Conf. coust., Speech, Signal Process., 2018,pp. 1188–1192.
[4] D. Minnen, J. Balle, and G. D. Toderici, “Joint autoregressive and hierarchical priors for learned image compression,” in Proc. 32nd Int. Conf. Neural Inf. Process. Syst., 2018, pp. 10794–10803.