首页 > 其他分享 >瑞芯微-I2S | 语音文件格式wav与pcm快速入门-4

瑞芯微-I2S | 语音文件格式wav与pcm快速入门-4

时间:2024-08-17 11:15:58浏览次数:12  
标签:采样 pcm I2S WAVE 瑞芯微 文件格式 PCM wav sizeof

一口君后面会陆续更新基于瑞芯微rk3568的I2S系列文章。

预计10篇左右。有对语音感兴趣的朋友,可以收藏该专题。

瑞芯微 | I2S-音频基础 -1

瑞芯微-I2S | 音频驱动调试基本命令和工具-基于rk3568-2

瑞芯微-I2S | ALSA基础-3

调试I2S,最常用到的测试文件就是wav格式和pcm格式,本文主要讲解语音格式相关知识点。

本文还用到逻辑分析仪,使用方法如下:

推荐最近在使用的还不错的一款逻辑分析仪

本文用到的 音频文件+逻辑分析仪软件+i2s数据波形 后台回复:i2s

一、pcm

与pcm相关的几个参数:

1. PCM数据常用量化指标

  • 采样率(Sample rate):
    每秒钟采样多少次,以Hz为单位。
    采样率表示音频信号每秒的数字快照数。该速率决定了音频文件的频率范围。
    采样率越高,数字波形的形状越接近原始模拟波形。
    低采样率会限制可录制的频率范围,这可导致录音表现原始声音的效果不佳。

根据 奈奎斯特采样定理,为了重现给定频率,采样率必须至少是该频率的两倍。
例如,CD 的采样率为每秒 44,100 个采样,因此可重现最高为 22,050 Hz 的频率,此频率刚好超过人类的听力极限 20,000 Hz。

  1. 位深度(Bit-depth):
    表示用多少个二进制位来描述采样数据,一般为16bit。
    位深度决定动态范围。
    采样声波时,为每个采样指定最接近原始声波振幅的振幅值。
    较高的位深度可提供更多可能的振幅值,产生更大的动态范围、更低的噪声基准和更高的保真度。

  2. 字节序:
    表示音频PCM数据存储的字节序是大端存储(big-endian)还是小端存储(little-endian),为了数据处理效率的高效,通常为小端存储。

  3. 声道数(channel number):
    当前PCM文件中包含的声道数,是单声道(mono)、双声道(stereo)?此外还有5.1声道等。

  4. 采样数据是否有符号(Sign):
    要表达的就是字面上的意思,需要注意的是,使用有符号的采样数据不能用无符号的方式播放。

以FFmpeg中常见的PCM数据格式s16le为例:

  • 它描述的是有符号16位小端PCM数据
s表示有符号,
16表示位深,
le表示小端存储。

2. PCM数据流

PCM (Pulse Code Modulation) 也被称为脉冲编码调制。PCM 音频数据是未经压缩的音频采样数据裸流,它是由模拟信号经过采样、量化、编码转换成的标准的数字音频数据。

PCM 音频数据的存储

如果是单声道的音频文件,采样数据按时间的先后顺序依次存入(有的时候也会采用 LRLRLR 方式存储,只是另一个声道的数据为 0),如果是双声道的话通常按照 LRLRLR 的方式存储,存储的时候还和机器的大小端有关。

小端模式如下图所示:

 PCM 音频数据是未经压缩的数据,所以通常都比较大,常见的 MP3 格式都是经过压缩的,128Kbps 的 MP3 压缩率可以达到 1:11

PCM 音频数据的参数

一般我们描述 PCM 音频数据的参数的时候有如下描述方式:

  • 44100HZ 16bit stereo:
每秒钟有 44100 次采样, 
采样数据用 16 位(2 字节)记录, 
双声道(立体声)

44100Hz 指的是采样率,它的意思是每秒取样 44100 次。采样率越大,存储数字音频所占的空间就越大。

16bit 指的是采样精度,意思是原始模拟信号被采样后,每一个采样点在计算机中用 16 位(两个字节)来表示。采样精度越高越能精细地表示模拟信号的差异。

Stereo 指的是声道数,也即采样时用到的麦克风的数量,麦克风越多就越能还原真实的采样环境(当然麦克风的放置位置也是有规定的)。

其他格式例子:

  • 22050HZ 8bit mono:
每秒钟有 22050 次采样, 采样数据用 8 位(1 字节)记录, 单声道
  • 48000HZ 32bit 51ch:
每秒钟有 48000 次采样, 采样数据用 32 位(4 字节浮点型)记录, 5.1 声道

二、WAV文件

WAV 是 Microsoft 和 IBM 为 PC 开发的一种声音文件格式,它符合 RIFF(Resource Interchange File Format)文件规范,用于保存 Windows 平台的音频信息资源,被 Windows 平台及其应用程序所广泛支持。

1. wav文件头

WAVE 文件通常只是一个具有单个 “WAVE” 块的 RIFF 文件,该块由两个子块(”fmt” 子数据块和 ”data” 子数据块),它的标准格式如下图所示:

图片来源:

http://soundfile.sapp.org/doc/WaveFormat/

该格式的实质就是在 PCM 文件的前面加了一个文件头,各字段含义如下:

偏移与大小 名称 说明
0 4 ChunkID 包含 ASCII 形式的字母“RIFF”(0x52494646 大端形式)。
4 4 ChunkSize 36 + SubChunk2Size,或更准确地说:4 + (8 + SubChunk1Size) + (8 + SubChunk2Size)这是此数字之后的块的其余部分的大小。这是整个文件的大小(以字节为单位)减去未包含在此计数中的两个字段的 8 字节:ChunkID 和 ChunkSize。
8 4 格式 包含字母“WAVE”(0x57415645 大端形式)。
12 4 Subchunk1ID 包含字母“fmt”(0x666d7420 大端格式)。
16 4 Subchunk1Size 16 用于 PCM。这是该数字之后的其余子块的大小。
20 2 AudioFormat PCM = 1(即线性量化)1 以外的值表示某种形式的压缩。
22 2 NumChannels Mono = 1、Stereo = 2 等
24 4 SampleRate 8000、44100 等
28 4 ByteRate == SampleRate * NumChannels * BitsPerSample/8
32 2 BlockAlign == NumChannels * BitsPerSample/8 1 的字节数样本包括所有通道。
34 2 BitsPerSample 8 位 = 8,16 位 = 16,等等
2 ExtraParamSize 如果是 PCM,则不存在
X ExtraParams 用于额外参数的空间
36 4 Subchunk2ID 包含字母“数据”(0x64617461 大端形式)。
40 4 Subchunk2Size == NumSamples * NumChannels * BitsPerSample/8 这是数据中的字节数。您还可以将其视为该数字后面的子块的读取大小。
44 * Data 实际的声音数据。

2. wav文件头结构体

wav文件头信息对应结构体:

typedef struct {
    char          ChunkID[4]; //内容为"RIFF"
    unsigned long ChunkSize;  //存储文件的字节数(不包含ChunkID和ChunkSize这8个字节)
    char          Format[4];  //内容为"WAVE“
} WAVE_HEADER;

typedef struct {
   char           Subchunk1ID[4]; //内容为"fmt"
   unsigned long  Subchunk1Size;  //存储该子块的字节数(不含前面的Subchunk1ID和Subchunk1Size这8个字节)
   unsigned short AudioFormat;    //存储音频文件的编码格式,例如若为PCM则其存储值为1。
   unsigned short NumChannels;    //声道数,单声道(Mono)值为1,双声道(Stereo)值为2,等等
   unsigned long  SampleRate;     //采样率,如8k,44.1k等
   unsigned long  ByteRate;       //每秒存储的bit数,其值 = SampleRate * NumChannels * BitsPerSample / 8
   unsigned short BlockAlign;     //块对齐大小,其值 = NumChannels * BitsPerSample / 8
   unsigned short BitsPerSample;  //每个采样点的bit数,一般为8,16,32等。
} WAVE_FMT;

typedef struct {
   char          Subchunk2ID[4]; //内容为“data”
   unsigned long Subchunk2Size;  //接下来的正式的数据部分的字节数,其值 = NumSamples * NumChannels * BitsPerSample / 8
} WAVE_DATA;

3. WAV 文件头解析实例

下面通过提供给大家的音频文件《xiaoniao.wav》来详细讲解wav文件格式,该音频文件格式为:S16_LE

peng@ubuntu:~/test$ ls -l xiaoniao.wav 
-rwxrw-rw- 1 peng peng 1764448 May 10 20:41 xiaoniao.wav

用ue打开该文件,自动显示为十六进制数字,

文件头信息解析如下图:

 数据是小端,比如采样率4个字段是 44 AC 00 00
实际数据是0x0000ac44,转换成10进制是44100

读者对照结构体,可以解析出改文件的所有信息。

三、i2s音频波形分析

wav文件格式我们搞清楚了,那么它和i2s是什么关系呢?

1. 嵌入式设备音频架构

一个典型的嵌入式设备的音频架构大致如下【以rk3568为例】,

当我们使用aplay工具播放wav文件时:

  1. 解析wav文件头,读取相应信息
  2. 然后通过i2s控制器驱动,将pcm音频流通过i2s接口发送给codec rk809,
  3. codec rk809会将pcm音频流进行DAC转换成对应的模拟信号,并通过耳机/喇叭播放出去。

2. 播放命令

播放命令:

root@ATK-DLRK356X:/sdcard# aplay -v xiaoniao.wav
Playing WAVE 'xiaoniao.wav' : Signed 16 bit Little Endian, Rate 44100 Hz, Stereo
ALSA <-> PulseAudio PCM I/O Plugin
Its setup is:
  stream       : PLAYBACK
  access       : RW_INTERLEAVED
  format       : S16_LE
  subformat    : STD
  channels     : 2
  rate         : 44100
  exact rate   : 44100 (44100/1)
  msbits       : 16
  buffer_size  : 22050
  period_size  : 5512
  period_time  : 125000
  tstamp_mode  : NONE
  tstamp_type  : GETTIMEOFDAY
  period_step  : 1
  avail_min    : 5512
  period_event : 0
  start_threshold  : 22050
  stop_threshold   : 22050
  silence_threshold: 0
  silence_size : 0
  boundary     : 6206523236469964800

3.波形分析

现在我在图中i2s控制器与codec之间位置用逻辑分析仪抓取了i2s数据波形,

【该操作需要飞线,建议找硬件工程师帮忙】

波形文件aplay_xiaoniao.kvdat

一口君实际测试的i2s控制器为24位小端格式。
 由上图可知:

  1. xiaomiao.wav文件为s16_le格式,所以i2s控制器依次每次读取data后面2个字节的数据
  2. 根据帧时钟,依次在左右声道时隙,将pcm数据放到数据线中。
  3. 因为控制器是24位,所以各channel会有24个bit的时钟周期;
  4. 根据i2s协议,默认有效数据靠左,并且空1个bit的位置;多出来的8个bit位置默认补充填0。


5. codec就会通过该波形提取对应的pcm数据,做出相应处理之后就可以播放出去了。

四、如何在各种音频格式之间进行转换

处于测试需要,我们还需要经常转换文件格式,可以通过FFmpeg工具

1. FFmpeg

对于其他格式的音频文件,一般用FFmpeg软件进行转换,先在当前的设备安装好FFmpeg软件,然后用命令行就可以进行转换了,常用的示范如下:

  • 将mp4视频提取wav格式:
ffmpeg -i D:\input.mp4 -vn -acodec pcm_s16le -ar 44100 -ac 2 D:\output.wav
  • 将wav格式转变为pcm格式:
ffmpeg -i D:\output.wav -f s16le -acodec pcm_s16le D:\output.pcm
  • 将pcm格式转变为wav格式:
ffmpeg -f s16le -ar 44100 -ac 2 -i D:\output.pcm c:\output.wav

注意上面的命令中指定的采样率为44.1k ,双声道,存储格式是s16le

2. 编写代码实现PCM → WAV 代码

下面是一个实现将pcm文件转换成wav文件的代码实例:

int simplest_pcm16le_to_wave( const char *pcmpath, int channels, int sample_rate, const char *wavepath )
{ // 省去错误判断
    short pcmData;
    FILE* fp = fopen( pcmpath, "rb" );
    FILE* fpout = fopen( wavepath, "wb+" );
    
    // 填充 WAVE_HEADER
    WAVE_HEADER pcmHEADER;
    memcpy( pcmHEADER.ChunkID, "RIFF", strlen( "RIFF" ) );
    memcpy( pcmHEADER.Format, "WAVE", strlen( "WAVE" ) );
    fseek( fpout, sizeof( WAVE_HEADER ), 1 );
    
    //填充 WAVE_FMT 
    WAVE_FMT pcmFMT;
    pcmFMT.SampleRate = sample_rate;
    pcmFMT.ByteRate = sample_rate * sizeof( pcmData );
    pcmFMT.BitsPerSample = 8 * sizeof( pcmData );
    memcpy( pcmFMT.Subchunk1ID, "fmt ", strlen( "fmt " ) );
    pcmFMT.Subchunk1Size = 16;
    pcmFMT.BlockAlign = channels * sizeof( pcmData );
    pcmFMT.NumChannels = channels;
    pcmFMT.AudioFormat = 1;
    fwrite( &pcmFMT, sizeof( WAVE_FMT ), 1, fpout );

    //填充 WAVE_DATA;
    WAVE_DATA pcmDATA;
    memcpy( pcmDATA.Subchunk2ID, "data", strlen( "data" ) );
    pcmDATA.Subchunk2Size = 0;
    fseek( fpout, sizeof( WAVE_DATA ), SEEK_CUR );
    fread( &m_pcmData, sizeof( short ), 1, fp );
    while ( !feof( fp ) ) {
         pcmDATA.dwSize += 2;
         fwrite( &m_pcmData, sizeof( short ), 1, fpout );
         fread( &m_pcmData, sizeof( short ), 1, fp );
    }
    
    int headerSize = sizeof( pcmHEADER.Format ) + sizeof( WAVE_FMT ) + sizeof( WAVE_DATA ); // 36
    pcmHEADER.ChunkSize = headerSize + pcmDATA.Subchunk2Size;

    rewind( fpout );
    fwrite( &pcmHEADER, sizeof( WAVE_HEADER ), 1, fpout );
    fseek( fpout, sizeof( WAVE_FMT ), SEEK_CUR );
    fwrite( &pcmDATA, sizeof( WAVE_DATA ), 1, fpout );
    fclose( fp );
    fclose( fpout );
    return 0;
}

大家可以用我提供的sound.pcmxiaoniao.wav语音文件,测试一下。

标签:采样,pcm,I2S,WAVE,瑞芯微,文件格式,PCM,wav,sizeof
From: https://www.cnblogs.com/yikoulinux/p/18364164

相关文章

  • 数字音频接口之I2S总线协议详解
    数字音频接口之I2S总线协议详解应用场景I2S(Inter-ICSound)是一种广泛应用于数字音频传输的串行接口标准。它最初由飞利浦(Philips)公司开发,用于解决在集成电路之间传输音频数据的问题。I2S协议定义了音频数据的传输格式、时序和控制信号。在工作中音频采集和输出,AD和主芯片之间的......
  • 佰泰盛世—HT5169内置BOOST升压的11WI2S输入D类音频功放
    1特性电源供电• 升压输入VBAT:2.5V-5.5V;• 升压输出PVDD可调,最高7.5V• DVDD/AVDD:3.3V音频性能•9.0W(VBAT=3.7V,PVDD=7.5V,RL=3Ω,THD+N=10%)•11.0W(VBAT=3.7V,PVDD=7.5V,RL=2Ω,THD+N=10%•5.5W(VBAT=3.7V,PVDD=6.5V,RL=4Ω,THD+N=10%)灵......
  • 佰泰盛世—HT760 2x30W I2S 输入,无电感,立体声D级放大器
    1特性电源:•PVDD:4.5V-22V;•DVDD:3.3V音频性能•BTL,2x33W(PVDD=22V,RL=8Ω,THD+N=10%)•PBTL,50W(PVDD=22V,RL=4Ω,THD+N=1%)•THD+N=0.05%(PVDD=12V,RL=4Ω,Po=1W)•Noise:100uV(Gain=19dBV,Aweighted)低静态电流•PVDD=12V时,12mA,无滤波器 1SPW......
  • 错误 C1128 节数超过对象文件格式限制: 请使用 /bigobj 进行编译
    错误C1128表示生成的对象文件(通常是.obj文件)中包含的节数超过了链接器的限制。这通常发生在项目包含大量代码或使用了大量模板时。解决方法是在编译时使用/bigobj选项。这个选项允许对象文件包含更多的节,从而避免这个错误。在VisualStudio中,可以通过以下几种方式......
  • 如何使用Tar命令在Linux系统中解压各种文件格式
    如何使用Tar命令在Linux系统中解压各种文件格式大家好,我是微赚淘客返利系统3.0的小编,是个冬天不穿秋裤,天冷也要风度的程序猿!tar命令是Linux系统中一个非常强大的工具,主要用于归档和压缩文件。它支持多种压缩格式,如.tar、.gz、.bz2、.xz等。本文将详细介绍如何使用tar命令解压各......
  • 案例源码公开!分享瑞芯微RK3568J与FPGA的PCIe通信案例,嵌入式必读!
    ARM+FPGA架构有何种优势近年来,随着中国新基建、中国制造2025的持续推进,单ARM处理器越来越难满足工业现场的功能要求,特别是能源电力、工业控制、智慧医疗等行业通常需要ARM+FPGA架构的处理器平台来实现特定的功能,例如多路/高速AD采集、多路网口、多路串口、多路/高速并行DI/DO......
  • 5折钜惠!瑞芯微RK3588J国产工业评估板,限时限量!
    瑞芯微RK3588国产工业评估板(核心板国产化率100%,提供国产化率认证报告)5折钜惠狂欢活动来啦!之前错过年终活动的小伙伴们赶紧看过来吧,限时10天、限量120套,手快有、手慢无!RK3588J是瑞芯微四核[email protected]+四核[email protected]处理器,支持6TOPS超强算力NPU+48MISP,支持8......
  • 【音频相关】I2S接口规范时序以及其同DSP的连接
    I2S接口概述I²S或I2S(Inter-ICSound或IntegratedInterchipSound)是由飞利浦公司(现NXP)在1986年制定的一种用于音频IC或者设备之间传输数字PCM信息的一种接口标准。I2S常被使用在各种音源到音频DAC中。由于I2S将信号以及时钟分开传送,它的jitter失真十分地小。I2S和I2C名字非常的......
  • 【瑞芯微RV1126(板端摄像头图像数据采集)】②使用v4l2视频设备驱动框架采集图像数据
    RV1126开发板:使用v4l2视频设备驱动框架采集图像数据前言一、按键二、LCD显示三、V4L2摄像头应用编程四、完整代码前言本系列的目的是,不仅仅将能够进行图片推理的模型部署于板端,还提供了两种摄像头数据采集的方法,集成到自己的深度学习推理代码之后,可以根据应用场景......
  • 写入羽毛或镶木地板文件格式时出现 Geopandas 错误 - UnsupportedGEOSVersionError:“i
    当尝试将pandas地理数据帧“gdf”写入羽毛文件格式时,我收到错误消息UnsupportedGEOSVersionError:The“iso”选项至少需要GEOS3.10.0gdf.to_feather("California_Buildings.feather")我环境中当前的GEOS版本是3.12.1应该满足这个要求...尽管我没有......