数字音频基础－从PCM说起

首先问一个问题——一首歌大概几MB？

AI回答

一首歌的大小大约为40MB。‌

这个估算基于WAV格式的音乐文件，‌这种格式由微软发明，‌以PCM编码为主，‌是多媒体音频中最广泛的格式之一。‌WAV文件的三个主要参数包括采样位数、‌采样频率和声道数。‌通常，‌以PCM编码的WAV文件采样位数是16bit，‌采样频率是44.1KHz，‌立体声为双声道。‌基于这些参数，‌一段1分钟的WAV音乐占用的数据量可以通过计算得出：‌16×44100×2×60/816 \times 44100 \times 2 \times 60 / 816×44100×2×60/8（‌字节=8bit）‌，‌结果约为10.584MB。‌因此，‌一首4分钟的歌的数据量大约是40MB。‌这种格式虽然体积较大，‌但提供了无损的音质，‌高频部分能够延伸到20KHz1。‌

百度知道回答：

mp3一般在10MB以内，flac或者ape无损音质的一般在50MB左右，母盘音质10000比特率以上的一般在400MB以上。

音频格式日新月异，到2008年音频格式包括：CD格式、WAVE（*.WAV）、AIFF、AU、MP3、MIDI、WMA、RealAudio、VQF、OggVorbis、AAC、APE。

音频格式是指要在计算机内播放或是处理音频文件，是对声音文件进行数、模转换的过程。音频格式最大带宽是20KHZ，速率介于40~50KHZ之间，采用线性脉冲编码调制PCM，每一量化步长都具有相等的长度。

https://zhidao.baidu.com/question/568740679.html

我回答：

我电脑上的周杰伦的七里香，时间长度4:59，大小3.46MB

按照SD卡最小容量：128MB（4元左右），可以存近40首歌。

“不得不说，现在网上的文章，包括百科词条，在数字音频基础概念上有太多混乱的表达，甚至存在错误。比如比特率、位率、位速和码率这四个词其实是同一个意思。再比如千比特kb表示1000bit，而不是普遍被认为的1024bit。在字节Byte范畴，千字节则表示1024字节，1KB=1024B。”本文从模拟信号的数字化方法讲起，介绍几个基础概念，然后重点区分容易混淆的概念，最后做一些知识扩展。全文目录如下：

1 模拟信号的数字化方法：PCM

1.1 PCM的定义
1.2 PCM的实现过程

2 数字音频基础概念

2.1 采样率 Sample Rate
2.2 采样位数 Bit Depth
2.3 声道 Sound Channel
2.4 比特率 Bit Rate

3 数字音频概念区分

3.1 PCM与ADC
3.2 比特率与下载速度
3.3 音频编码格式和文件格式

3.3.1 PCM编码与PCM文件
3.3.2 编码格式与文件格式的含义
3.3.3 常见的编码格式与文件格式
3.3.4 有损编码与无损编码

4 知识进阶

4.1 比特率的计算
4.2 查看音频文件的参数

1 模拟信号的数字化方法：PCM

1.1 PCM的定义

最基本的概念：模拟信号是指随时间连续变化的物理量，将声音在磁带上记录成磁场强度的变化或在黑胶唱片上记录成沟槽大小的变化就是以模拟方式进行存储。数字信号则是离散的，计算机中的数据都是以数字方式存储的。模拟信号和数字信号可以相互转换，这里我们讨论的就是把模拟信号转换成数字信号。

脉冲编码调制（Pulse Code Modulation, PCM）是一种模拟信号的数字化方法。它是最常用、最简单的波形编码方式，但是也存在其它方法，比如脉冲密度调制（Pulse Density Modulation, PDM）。

1.2 PCM的实现过程

下图就是脉冲编码调制的完整过程，简单概括为：采样，量化，编码。

具体来说就是：

1，将模拟信号按照同样的时间间距（即采样时间）进行采样。

2，按某种运算法确定样本值，即量化。

3，将样本值用二进制表示，即编码。

由上可见，脉冲编码调制实际上并没有"调制"的过程，而且也并没有脉冲出现，只因为PCM来源于PWM和PPM技术，所以也保留了"脉冲"二字。所以将脉冲编码调制（PCM）理解为"一种模拟信号的数字化方法"是最准确的。

2 数字音频基础概念

2.1 采样率 Sample Rate

采样率（采样频率）即每秒内进行采样的次数。符号是fs，单位是Hz。采样率越高，数字波形的形状就越接近原始模拟波形，声音的还原就越真实。

如下是同一波形的两种采样率对比，可以看到低采样率的A采样波形严重失真，而高采样率的B则几乎完全重现原始波形：

根据奈奎斯特－香农采样定理，只有采样频率高于原始模拟信号中最高频率的两倍时，才能把数字信号表示的模拟信号准确还原回去。例如，CD 的采样率为每秒 44,100 个采样，因此可重现最高为 22,050 Hz 的频率，此频率刚好超过人类的听力极限 20,000 Hz。实际应用中采样频率一般为信号最高频率的2.56～4倍。

数字音频领域常用的采样率如下表：

2.2 采样位数 Bit Depth

采样位数（又称位宽，位深，位深度），字面意义就是采样值的二进制编码的位数。采样位数反应了采样系统对声音的辨析度，位数越高，对声音的记录就越精细，所以也称之为采样精度，采样深度。

采样位数的含义是用多少个点来描述声音信号的强度，如1.2节的PCM编码的位数就是3bit，即有2^3 = 8个点。如果是8bit，就有2^8 = 256个点。

采样位数直接影响采集信号的信噪比/动态范围。较高的采样位数可提供更多可能的振幅值，产生更大的动态范围、更低的噪声基准和更高的保真度。

总结一下，采样率是相对于时间来说的，采样位数是相对信号的幅度来说的，在1.2节中分别对应横坐标和纵坐标。

2.3 声道 Sound Channel

声道是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号，通俗的说声道数就是录音时的麦克风数量，也是播放时的音响数量。声道数，也叫通道数，轨道数，音轨数。

常见的声道数有单声道（Mono），双声道（即立体声，Stereo），5.1声道，7.1声道等。这里的 .1声道指的是低音声道。

如下是一个5.1声道家庭影院示意图，六个扬声器分别是：C（Central）中置，FL（Front Left）左前置，FR（Front Right）右前置，SL（Surround Left）左环绕，SR（Surround Right）右环绕和SW（Subwoofer）低音炮。

2.4 比特率 Bit Rate

比特是由bit音译而来，指二进制数中的位，它是数字信息的最小度量单位。

在通信与计算领域，比特率就是指每秒传送或处理的比特的数量（位数），所以比特率又称为"二进制位速率"，简称"位速或位率"，常用于形容传输速度，带宽。

在数字多媒体领域，比特率是每秒播放连续的音频或视频的比特的数量，是音视频文件的一个属性。此时它相当于术语"数字带宽消耗量或吞吐量"，也俗称为"码率"。

比特率的统一含义是"二进制码数量/时间"，单位是比特每秒，bit per second，缩写为bit/s（不是"bits/s"），简写为bps或b/s。有一些不正式的描述比如"128千比特音频流"或"100兆比特网络"则是省略了"每秒"。

常用比特率的表述：

3 数字音频概念区分

3.1 PCM与ADC

PCM（Pulse Code Modulation）是一种模拟信号的数字化方法，ADC（Analog to Digital Converter）芯片是实现这一方法的器件。

3.2 比特率与下载速度

网络带宽常用比特率表示，单位bps，比如千比特每秒Kbps = Kb/s，兆比特每秒Mbps = Mb/s，这里的b是bit（位）。而日常我们说的下载速度的单位是KB/s，MB/s（简写为K/s，M/s），这里的B是Byte（字节），是用来表示文件大小的单位。

字节中的KB、MB、GB的递进关系是1024，而比特率中的kb，Mb，Gb的递进关系则是1000。而且1byte=8bit，所以说 1MB/s ≈ 8Mbps = 8Mb/s。实际上因为网络损耗，运营商口中的带宽bps（b/s）和我们实际理解的下载速度B/s的关系一般是十倍左右。

3.3 音频编码格式和文件格式

[注：在很多语义下，音频编码=音频编码格式，音频文件=音频文件格式]

3.3.1 PCM编码与PCM文件

如上所述，PCM（脉冲编码调制）是一种模拟信号的数字化方法，PCM编码就是这个方法中的数字音频编码方式。PCM编码是最原始的音频编码，其他编码都是在它基础上再次编码和压缩的。

PCM文件是以PCM编码方式存储音频的文件，是未经压缩的原始数字音频文件，通常称为PCM裸流/音频裸数据/raw data。常用文件扩展名是.pcm和.raw，通常它们是不能直接播放的。PCM裸流经过重新编码，封装（见下节）后，比如变为 .wav格式，就可以正常播放了。

3.3.2 编码格式与文件格式的含义

常见的音频文件都有两部分格式：一是文件格式，二是编码格式。两者是不同的概念：文件格式专指存放音频数据的文件的格式，对应文件的扩展名；编码格式则是指音频数据的特定格式，也叫数据格式，音频编码。

3.3.3 常见的编码格式与文件格式

大部分情况下，一种文件格式对应一种音频编码。但是也有例外，比如.caf的文件格式就能包含MP3、LPCM和其他格式编码的音频数据，AAC编码格式对应的文件的扩展名就有.aac、 .mp4 和 .m4a。

文件格式与音频编码的名称有时相同，比如平时我们经常说的mp3既是文件格式，又是编码格式；也有时不同。而且有时它们的称呼也不规范，比如为了方便人们一般称Monkey's Audio音频编码格式为ape编码。

常用的音频编码格式与文件格式的对应关系总结如下：

3.3.4 有损编码与无损编码

理论上说，任何数字音频都是无法完全还原模拟信号的。不过PCM编码是模拟信号转换为数字信号时的原始编码，它代表着数字音频的最佳保真水平，所以PCM编码就约定俗成为"无损编码"。

上节中的音频编码是对PCM编码进行了二次编码，是为了减小原始PCM编码的体积，所以也叫它们为压缩编码，对应的文件叫压缩格式。

二次编码的音频编码也分为两类：有损编码和无损编码，也称为有损压缩和无损压缩。无损就是指相对PCM编码来说音质相同，有损则是损失了一些音频质量。

4 知识进阶

4.1 比特率的计算

假设有一段采样频率44.1KHz，采样位数16bit，立体声的PCM音频。也就是说，在产生这段音频时间里，1s内系统采样的次数是44100次，每次采样的数据位数是16位，同时进行2通道采样。这就意味着，系统每秒采集的比特数为44100次×16位×2通道 = 1411200个。根据比特率的定义，这段音频的比特率就是1411.2kbit/s。

音频的比特率=采样率×位深度×通道数

此外，如果还知道这段PCM音频文件的时长，还可以计算文件的大小：假设文件时长为1分钟，那么文件大小为1411.2kbit/s × 60s = 84672kbit，而1byte=8bit，所以文件大小为10,584,000B = 10,355.9KB = 10.1MB。

【注意】一个 kb（kilobit，千比特）表示 1,000比特，而不是普遍被认为的1,024比特。

音频文件大小(B)=比特率(b/s)×时长(s)÷8

对于mp3，wav等其他格式的音频文件，文件里还包括了帧头等其他附加信息，所以文件体积还会稍大一些。

4.2 查看音频文件的参数

对于音视频文件，查看其比特率最简单的方式是右键-属性-详细，就可以直接看到了。

查看更详细的采样率，声道数，位深，可以将其在Adobe Audition软件中打开：

对于音乐播放软件，左侧网易云的标准、较高和极高音质分别对应MP3音频格式中的128、192和320kbit/s三个比特率，无损音质则是对应700~1000kbit/s的flac文件格式。

对于右侧的QQ音乐，是用品质描述+文件大小来表示，标准品质为128kbit/s的MP3，HQ (High Quality) 高音质则是高于128kbit/s的MP3，SQ (Super Quality) 无损品质则采用APE和FLAC无损文件格式。

----------------------------

以上本人原创，禁止转载。

首发于微信公众号：1E实验室，欢迎关注。

标签：采样,编码,数字音频,说起,音频,比特率,PCM,格式
From： https://www.cnblogs.com/FBsharl/p/18307314

数字音频基础－从PCM说起

1 模拟信号的数字化方法：PCM

2 数字音频基础概念

3 数字音频概念区分

4 知识进阶

相关文章

赞助商

阅读排行

数字音频基础­­­­­－从PCM说起

1 模拟信号的数字化方法：PCM

2 数字音频基础概念

3 数字音频概念区分

4 知识进阶

相关文章

赞助商

阅读排行

数字音频基础－从PCM说起