首页 > 其他分享 >多媒体技术(五)之数字音频视频信号的压缩

多媒体技术(五)之数字音频视频信号的压缩

时间:2024-08-24 11:24:40浏览次数:15  
标签:编码 H.264 数字音频 视频信号 失真 信源 多媒体技术 图像 冗余

概述

1. 数字视频压缩的必要性和可能性

按ITU-R BT. 601建议,数字化后的输入图像格式为720*576像素,帧频为25帧/s,采样格式为4:2:2,量化精度为8bit,
则数码率:(720 * 576 + 360 * 576 + 360 * 576) * 25帧/s * 8bit = 165.888Mbit/s。
如果视频信号数字化后直接存放在650MB的光盘中,在不考虑音频信号的情况下,每张光盘只能存储31s的视频信号。
数据压缩的理论基础是信息论。从信息论的角度来看,压缩就是去掉数据中的冗余,即保留不确定的信息,去掉确定的信息(可推知的),也就是用一种更接近信息本质的描述来代替原有冗余的描述。数据图像和视频数据中存在着大量的数据冗余和主观视觉冗余,因此图像和视频数据压缩不仅是必要的,而且也是可能的。

1.1 空间冗余

空间冗余也称空域冗余,是一种与像素间相关性直接联系的数据冗余。例如:数字图像的亮度信号和色度信号在空间域(X,Y坐标系)虽然属于一个随机场分布,但是他们可以看成为一个平稳的马尔可夫场。通俗讲,图像像素点在空间域中的亮度值和色度信号值,除了边界轮毂外,都是缓慢变化。因此,图像的帧内编码,即以减少空间冗余进行数据压缩。

1.2 时间冗余

时间冗余也称为时域冗余,它是针对视频序列图像而言的。视频序列每秒有25 ~ 30帧图像,相邻帧之间的时间间隔很小(例如,帧频为25Hz的电视信号,期帧间间隔只有 0.04s),使得图像有很强的相关性。因此,对于视频压缩而言,通常采用运动估值和运动补偿预测技术来消除时间冗余。

1.3 统计冗余

统计冗余也称编码表示冗余或符合冗余。由信息论的有关原来可知,为了表示图像数据的一个像素点,只要按其信息熵的大小分配相应的比特数即可。若用相同码长表示不同出现概率的符号,则会造成比特数的浪费。如果采用可变长编码技术,对出现概率大的符号用短码字表示,对出现概率小的符号用长码字表示,则可去除符号冗余,从而节约码字,这就是熵编码的思想。

1.4 结构冗余

在有些图像的部分区域内有着很相似的纹理结构,或是图像的各个部分之间存在着某种关系,例如自相似性等,这些都是结构冗余的表现。分形图像编码的基本思想就是利用了结构冗余。

1.5 知识冗余

在某些特定的应用场合,编码对象中包含的信息与某些先验的基本知识有关。这时,可以利用这些先验知识为编码对象建立模型。通过提取模型参数,对参数进行编码,而不是对图像像素值直接进行编码,可以达到非常高的压缩比。这是模型基编码(或称知识基编码、语义基编码)的基本思想。

1.6 人眼的视觉冗余

视觉冗余度是相对于人眼的视觉特性而言。压缩视觉冗余的核心思想是去掉那些相对人眼而言是看不到的或可有可无的图像数据。对视觉冗余的压缩通常反映在各种具体的压缩编码中。如对于离散余弦变换(DCT)系数的直流与低频部分采用细量化,而对高频部分采用粗量化。在帧间预测编码中,高压缩比的预测帧及双向预测帧的采用,也是利用了人眼对运动图像细节不敏感的特性。

2. 无失真编码和限失真编码

从信息论的角度出发,根据解码后还原的数据是否与原始数据完全相同,可将数据压缩方法分为两大类:无失真编码和限失真编码。

无失真编码:

无失真编码又称无损编码、信息保持编码、熵编码。

熵指的是具体数据所含的平均信息量,定义为在不丢失信息的前提下描述该信息内容所需的最小比特数。

熵编码事纯粹基于信号统计特性的一种编码方法,他利用信源概率分布的不均匀性,通过变长编码来减少信源数据冗余,解码后还原的数据与压缩编码前的原始数据完全相同而不引入任何失真。

但无失真编码的压缩比较低,可达到的最高压缩比受到信源熵的理论限制:一般是2:1到5:1。最常用的无失真编码方法有哈夫曼(Huffman)编码、算术编码和游程编码(Run-Length Encoding,RLE)等。

限失真编码:

限失真编码也称有损编码、非信息保持编码、熵压缩编码。也就是说,解码后还原的数据与压缩编码前的原始数据有差别的,编码会一定程度的失真。

限失真编码方法利用了人类视觉的感知特性,允许压缩过程中损失一部分信息,虽然在解码时不能完全恢复原始数据,但是如果把失真控制在视觉阈值一下或者控制在可容忍的限度你,则不影响人们对图像的理解,却换来了高压缩比。在限失真编码中,允许的是真愈大,则可达到的压缩比愈高。

常见的限失真编码方法:预测编码、变化编码、矢量量化、基于模型编码等。

3. 熵编码
3.1 熵(Entropy):信源的平均信息量,更精确的描述为表示信源所有符号包含信息的平均比特数。
  • 信源编码要尽可能的减少信源的冗余,使之接近熵
  • 用更少的比特传递更多的信源信息
3.2 熵编码:数据压缩中根据信源消息的概率模型使消息的熵最小化
  • 无损压缩
  • 变长压缩

压缩编码基础

H.264中普通I帧和IDR帧究竟有什么区别

在MPEG2中,有个重要的概念叫GOP(group of pictures),假设编码的帧类型为:IBBPBBPBBPBBIBBPBBPBBPBBI…, 那么这个IBBPBBPBBPBB就叫一个GOP. 由于误差会积累,但MPEG2中的I帧可以阻断误差的积累,也就是说,在MPEG中I帧后面的帧永远不会参考I帧前面的帧,也就是说,一个GOP中的帧永远不会参考前一个GOP中的帧.(另外说句题外话:B帧可以参考下一个GOP的I帧,但在MPEG2中,B帧不会作为参考帧,所以B帧不会导致误差积累)

在H.264中就不同了.很多人说,在H.264中没有I帧这个概念了,当然这也是有道理的,标准中的确没有这么叫,但是,为了方便,也可以延续I帧这个概念,那么H.264中什么叫I帧呢?
定义:H.264中的I帧是指帧中的宏块都是采用帧内预测方式,在H.264中有两种I帧: 普通I帧和IDR帧(特殊I帧).

在H.264中,是IDR帧阻断了误差的积累, IDR帧后面的帧都不能参考该IDR帧前面的帧. 在H.264中,普通的I帧并没有阻断误差的积累,那就是说普通I帧后面的帧就可以参考该I帧之前的帧么?

标签:编码,H.264,数字音频,视频信号,失真,信源,多媒体技术,图像,冗余
From: https://blog.csdn.net/sjw890821sjw/article/details/141418919

相关文章

  • 多媒体技术(二)之声音
    信息论的观点来看,描述信源的数据是信息和数据冗余之和,即:数据=信息+数据冗余。音频信号在时域和频域上具有相关性,也即存在数据冗余。将音频作为一个信源,音频编码的实质是减少音频中的冗余。自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。P......
  • 数字音频接口之I2S总线协议详解
    数字音频接口之I2S总线协议详解应用场景I2S(Inter-ICSound)是一种广泛应用于数字音频传输的串行接口标准。它最初由飞利浦(Philips)公司开发,用于解决在集成电路之间传输音频数据的问题。I2S协议定义了音频数据的传输格式、时序和控制信号。在工作中音频采集和输出,AD和主芯片之间的......
  • 计算机基础(Windows 10+Office 2016)教程 —— 第8章 多媒体技术及应用
    多媒体技术及应用8.1多媒体技术的概述8.1.1多媒体技术的定义和特点8.1.2多媒体的关键技术8.1.3多媒体技术的发展趋势8.1.4多媒体文件格式的转换8.1.5多媒体技术的应用8.2多媒体计算机系统的构成8.2.1多媒体计算机系统的硬件系统8.2.2多媒体计算机系统的软......
  • 数字音频基础­­­­­-从PCM说起
    首先问一个问题——一首歌大概几MB?AI回答一首歌的大小大约为40MB。‌这个估算基于WAV格式的音乐文件,‌这种格式由微软发明,‌以PCM编码为主,‌是多媒体音频中最广泛的格式之一。‌WAV文件的三个主要参数包括采样位数、‌采样频率和声道数。‌通常,‌以PCM编码的WAV文件采样位数是1......
  • 195K数字音频接收器CS8416替代型号DP7416无需修改软硬件PIN对PIN兼容
    DP7416替代CS8416无需修改软硬件192K数字音频接收器产品特性支持EIAJCP1201、IEC-60958、AES3、S/PDIF8:2多路输入选择器32K到192KHz的采样频率支持差分和单端输入自动检测被压缩的输入音频数据流支持SPI和I2C通讯接口协议解码CD和Q-SubCodeDP7416是一款192K数......
  • CS8406国产替代DP7406数字音频发射芯片I2S转S/PDIF/AES同轴输出芯片
    192K数字音频应用采样率192khz,能将192,000hz以下的频率都录下来,而且对声波每秒连续采样192,000次。在回放的时候,这192,000个采样点按顺序播放,从而还原原来的声音。过采样技术除了能让很微观的角度上让声音更连续以外,在对声音进行一些特殊处理时,更不容易失真/出现杂音。48k......
  • CS8406国产兼容替代芯片DP7406数字音频I2S转SPDIF/AES3同轴输出芯片
    模拟音频传输VS数字音频传输模拟音频传输效果模拟音频传输特点:直观且容易实现,但相对会出现失真、不稳定的情况。数字音频传输效果数字音频传输特点:经过数字手段记录、存储、编辑、压缩或播放声音处理,采样率和量化等级越高,模数转换的精度就越高,对信号的还原能力就越强。D......
  • 数字音频技术与JUCE实现(目录)
    第一部分:C++基础与JUCE基础第一章:计算机基础1.1计算机硬件组成1.2CPU与寻址1.3计算机中的数据表示1.4软件的运行过程第二章:C++程序设计1.1HelloWorld1.2C++基础1.3面向对象程序设计1.4多线程技术1.5GDI+技术图形绘制接口屏幕坐标系1.6实验:绘制三角函数......
  • 数字音频发送器DP7406替代CS8406
        DP7406是一款功能强大的192K数字音频发送器,其设计旨在满足多种音频格式的需求,包括EIAJCP1201、IEC-60958、AES3和S/PDIF等。这款发送器具备出色的性能,能够接收数字音频信号并进行复用及编码,然后通过SPI或I2C等3线串口数据格式发送给接口单片机。这一特点使得DP7406在......
  • 多媒体技术2023-04-08
    实验六 老照片的修复,使用Photoshop污点修复画笔工具,画笔大小,硬度(边缘柔化) 修复画笔工具,用来处理划痕。先取原样本,然后alt看效果。  实验七  花朵的仿制和变色仿制图章工具,取完样本,再来绘画。按住alt取原,然后绘制。图案图章工具,取图案的一部分,画笔里面有一个颜......