首页 > 其他分享 >音视频开发基础入门|声音的采集与量化、音频数字信号质量、音频码率

音视频开发基础入门|声音的采集与量化、音频数字信号质量、音频码率

时间:2023-10-11 12:44:38浏览次数:47  
标签:采样 声音 采样率 码率 音频 双声道 音视频 我们

 

 栏目介绍:

为了帮助开发者更好的理解音视频概念,进行音视频应用开发,ZEGO 即构科技联合内部音视频开发专家打磨了本套《音视频开发进阶》课程,帮助大家轻松入门并可以自己动手开发音视频 App!

本次课程为系列内容,课程将从音视频基础概念讲解展开,进行学习内容的难度进阶,后期将带领大家学习有关音视频开发的各种疑难问题,以及如何利用 SDK 开发音视频应用!

内容定期更新推送,请持续关注!

前言

“风声,雨声,读书声,声声入耳”,关于声音,大家肯定都不陌生。作为最基础的信息载体之一,声音被用于社交沟通、唱歌娱乐,被用于人机语音交互、智能控制,在我们生活中的方方面面都在被感知和使用。纵观各大应用商店,以纯音频为主要玩法搭建的应用也数不胜数,场景诸如语音交友、语音开黑、语音阅读、狼人杀、实时KTV等等,可谓琳琅满目。

2022年初,以语聊为核心场景的ClubHouse火遍全球,估值一度超过10亿美金,与其相关的“声音概念股”大涨。虽然现在看Clubhouse似乎是昙花一现,但这受运营策略、内容生态诸多因素的综合影响,抛开这些因素,我们仍能从中窥探到“声音”的魅力,对于“声音”的探索,必定还有更广阔的空间。

但所谓万变不离其宗,无论玩法如何变化、创新,要打造一个成功的音频产品,始终离不开对音频技术的娴熟应用。而对任何一门技术,其基础知识都是重中之重的,这篇文章,希望和大家一起以初学者的角度,聊聊音频技术的一些基础概念

我们会从声音的三要素出发,了解声音最基本的特征,再通过学习声音的采集和量化,了解自然声音、模拟音频、数字音频之间的转换过程,最后,我们再重点了解数字音频的关键质量指标,理解影响音频质量的诸多要素。

一、声音三要素 - 音调、响度、音色

正如一开始说的,对于声音,我们似乎已再熟悉不过。但如果要你具体描述某一种声音,你会从哪方面入手呢?我们描述一个人的时候,可以使用性别、外貌、身高、体重等特征,而描述声音时往往会使用一些形容词,比如刺耳、低沉、响亮、微弱;或者说明具体的声音种类,比如风声、雨声、人声等。但这些描述似乎都只能“耳听”不能“言传”,更无法进行量化。我们需要更明确的属性,对这些形容词、名词做进一步定义。这就涉及到声音的三个基础且重要的特征:音调、响度和音色,也称为声音的三要素

1、音调

“刺耳、低沉”,这其实是我们对声音高低的感觉描述,这一特征我们称之为音调。在物理定义上,声音是物体振动(比如我们的声带)产生的波,而音调由发声体振动的频率决定,频率越高(振动越快)则音调越高,听起来就越“刺耳”,反之音调越低、听起来就越低沉。我们声带的振动频率,约在100Hz~10KHz之间,基本对应于常说的男低音至女高音的频率。而我们耳朵的听力范围仅限于频率20Hz ~ 20KHz,低于或者高于这个频率范围的声音,分别被称为次声波(<20Hz)和超声波(>20KHz),无法被人耳感知。不难发现,虽然人耳的感知范围有限,但人类的发声频率完全包含于人耳的感知范围之内,这意味着任何人说的话,总能被耳朵捕捉到,每个人都有发声的权力,也总有一双耳朵能倾听到你的声音。

 

图1

2、响度

“响亮、微弱”,是我们对声音强弱的感觉描述,这种特征我们称之为响度。响度由发声体振动的幅度决定,当传播的距离相同时,振动幅度越大、则响度越大;相反,当振幅一定时,传播距离越远,响度越小,就是我们常说的“距离太远了,听不见”的原因。

3、音色

“风声、雨声、人声”,是我们对各种音调、各种响度声音的综合感受,这种特征我们称之为“音色”。音色是一种“感官属性”,我们利用这种“感官属性”,能区分发声的物体,发声的状态,还能评价听感上的优劣,比如“钢琴声、二胡声”,比如“只闻其声,如见其人”,比如“悦耳、动听”等等。那么音色是怎么“产生”的,又由什么“决定”呢?前面我们了解到,声音是由物体振动产生的波,而物体整体振动发出的只是基音,其各部分还有复合的振动,这些复合的振动也会发出声音并形成泛音,基音+泛音的不同组合就产生了多样化的音色,声音世界才变得丰富多彩起来。我们一般认为音色由发声体的材质决定。

我们再通过表格对比一下这三种特征:

 

 图2

带着上述的了解,我们看看下面的波形图,是一个声音振源在一段时间内的振动情况。

波形图的水平方向为时间轴,我们把相邻两个波峰、或相邻两个波谷在时间轴上的水平间隔称为波振动的周期(周期的倒数即为振动的频率)。波形图平面的竖直方向为幅度轴,波峰、波谷在竖直方向上距离的一半,被称为波形振动的振幅。有了上述基础设定后,我们可以将波形图从左到右,分为三个不同的阶段,分别使用蓝、红、黑三种颜色来区分。

 

 图3

从左往右来看:蓝色波形和红色波形,在竖直方向上波峰、波谷的距离相同,但是红色波形在水平时间轴上更密集。此时,我们称蓝色波和红色波的振幅相同,但是红色波的频率更高(周期更短);

再继续往右看,红色波形和黑色波形,在水平方向上的密集程度相同,但是黑色波形在竖直方向上距离更长。此时,我们称红色波和黑色波的频率相同(周期相同),但是黑色波的振幅更大。

结合之前对声音三要素的认识,我们可以认为:蓝色波和红色波的响度相同,但是红色波的音调更高;红色波和黑色波的音调相同,但是黑色波的响度更大。需要注意的是,这里没有引入泛音的影响,故不对音色进行区分描述。

二、声音的采集与量化

我们现在知道,声音可以从三要素的维度来进行描述、区分,但仅仅是描述还远远不够,我们需往实际应用层面继续前进,要对声音进行应用开发,而应用开发的前提是要将其进行采集和存储。在空气或固液体等介质中以波形式传播的声音,如何才能被捕获,并转换为可在电子设备、网络链路中传输的数据呢?

1、声音的采集

最常见的音频采集方式是使用麦克风、话筒等拾音设备进行录制。我们每天使用的手机上就有多个麦克风设备,比如用于日常电话语音的底部麦克风、视频通话的顶部麦克风、便捷录音的背部麦克风等等。这些拾音设备里有一层薄且敏感的振动膜(类似于人耳内的鼓膜),在不同振幅、频率声波的影响下,振动膜会同步振动,并配合其他关联模块将振动转换为变化的电流。如此,便把将声波的振动模式记录为了连续的电学模拟信号,也即记录声音的关键要素特征,“捕获”了声音。

ZEGO-SDK 使用什么音频采集方式呢?

ZEGO-SDK 在不同的平台系统上,会使用对应的系统 API(比如 Windows 上的 CoreAudio、Android上的AudioRecord/OpenSLES、iOS 上的 AudioUnit 等)和其默认的音频采集设备。

对于存在多个采集设备的场景,SDK 提供了枚举、设置设备的 API 接口,方便开发者按需选择。至于如何调用系统 API 与设备通信、如何获取数据并处理,均由 SDK 完成,开发者无需关注底层细节,可以专注于业务需求的实现。当然,ZEGO-SDK 也支持开发者自定义实现音频采集模块,具体的音频采集源、采集参数、预处理可由开发者自行灵活实现,SDK 仅提供作为音频数据入口的 API,开发者调用 API 传入音频数据即可。

2、音频信号的数字化

前面我们了解到,声音可以被麦克风等设备采集、转换为电学模拟信号。模拟信号,意味着它在时间维度和幅度维度上,都是连续的,可以被无限分割为任意小的点,无法穷举。听起来似乎比较复杂且难以处理?是的,其实不仅我们觉得如此,计算机也有“同感”。虽然计算机常常和“智能”挂钩,但它其实非常“单纯”,只能识别处理“0”、“1”形式的数字信号(区别于模拟信号,数字信号是离散的、有限个、可穷举的)。

所以,为了“照顾”单纯的计算机,我们还需要将设备采集到的模拟信号“翻译”为数字离散态。也即,将音频模拟信号转换为音频数字信号,这个过程称为音频模拟信号的数字化(也叫模数转化,A/D转换),整个过程主要包括采样、量化、编码等步骤。下面,我们来具体了解一下。

如下图4,红色波形是一段时间上(假设为1s)的模拟信号波。我们仍取水平横轴为时间维度、纵轴为幅度维度,一步步将其转换为数字信号。

 

 图4

第一步,采样:以一定采样率,在时间轴上对模拟信号进行数字化。

首先,我们沿着时间轴,按照固定的时间间隔 T(假设 T=0.1s),依次取多个点(如图中 1~10 所对应波上的点)。此时 T 称为取样周期,T 的倒数为本次取样的采样率(f=1/T=10Hz),f 即表示每秒钟进行采样的次数,单位为赫兹(Hz)。显然,采样率越高、单位时间的采样点越多,就能越好的表示原波形(如果高频率、密集地采集无数个点,就相当于完整地记录了原波形)。

第二步,量化:以一定精度,在幅度轴上对模拟信号进行数字化。

完成采样后,我们接下来进行音频数字化的第二步,量化。采样是在时间轴上对音频信号进行数字化,得到多个采样点;而量化,则是在幅度方向上进行数字化,得到每个采样点的幅度值。

如图 5,我们设定纵轴的坐标取值范围为 0 ~8,得到每个采样点的纵坐标(向上取整),这里的坐标值即为量化后的幅度值。 因为我们将幅度轴分为了 8 段,有 8 个值用于量化取整,即本次量化的精度为 8。显然,如果分段越多,则幅度的量化取值将越准确(取整带来的误差就越小),也能越好的表示原波形。对于幅度的量化精度,有一个专有术语描述 -- 位深,我们后面会详细说明。

 

图5

第三步,编码:按特定格式,记录采样/量化后的数据。

经过量化后,我们得到了每个采样点的幅度值。接下来,就是音频信号数字化的最后一步,编码。编码是将每个采样点的幅度量化值,转化为计算机可理解的二进制字节序列。

如图 6,参照编码部分的表格,样本序号为样本采样顺序,样本值(十进制)为量化的幅度值。而样本值(二进制)即为幅度值转换后的编码数据。最终,我们就得到了“0”、“1”形式的二进制字节序列,也即离散的数字信号。这里得到的,是未经压缩的音频采样数据裸流,也叫做PCM 音频数据(Pulse Code Modulation,脉冲编码调制)。实际应用中,往往还会使用其他编码算法做进一步压缩,以后的文章我们会再展开讨论。

 

 图6

至此,我们基本走完了音频模拟信号数字化的全流程。它包括了采样、量化、编码三个主要步骤,通过在时间轴和幅度轴上的数字化,最终得到了音频信号的二进制形式编码。终于,单纯的计算机将可以理解、处理音频信号了,这迈出了音频数字化应用的重要一步。

就像声音有三要素一样,音频数字信号也有几个需要我们关注的基础属性,分别是采样率、采样位深和声道数。这些属性是影响音频数字信号质量的关键指标(我们常说的音质),也称为音频数字信号的质量三要素。在讲解数字化的过程中,我们已经对这些属性有所提及,接下来需要再详细学习下。

三、音频数字信号质量三要素

1、采样率

音频采样率,指的是单位时间内(1s)对声音信号的采样次数(参考数字化过程-采样)。常说的 44.1KHz 采样率,也即 1 秒采集了 44100 个样本。

我们前面了解到,采样率越高、采样点越多,就可以越好的表示原波形,这就是采样率的影响。而更详细的说明,可以参考奈奎斯特采样定理:采样率 f,必须大于原始音频信号最大振动频率fmax 的 2 倍(也即 f > 2*fmax,fmax 被称为奈奎斯特频率),采样结果才能用于完整重建原始音频信号;如果采样率低于 2*fmax,那么音频采样就存在失真。比如,要对最高频率fmax=8KHz 的原始音频进行采样,则采样率 f 至少为 16KHz。

对于最大频率为 f 的音频信号,当我们分别采用 f、2f、4f/3 的采样率进行采样时,所得到的采样结果参考下图。显然,只有当采样率为 2f 时,才能有效的保留原信号特征。采样率 f 和3f/4 下得到的结果,都和原波形差别很大。

 

 图7

那么,我们需要多大的采样率?

按前面的讨论,采样率似乎越大越好,是否如此呢?理论上来说,最低采样率需要满足奈奎斯特采样定理,在该前提下,采样率越高则保留的原始音频信息越多,声音自然就越真实。但需要注意的是,采样率越高则采样得到的数据量越大,对存储和带宽的要求也就越高。在实际应用中,我们为了平衡带宽和音质,不同场景往往会有不同的选择。常见的选择如下:

采样率

描述

8KHz

在语聊、通话场景,满足基本的沟通目的,同时有效减少数据量、兼容各种传输/存储环境。人说话声音频率一般在300-700Hz之间,最大区间一般为60Hz-2000Hz, 参考奈奎斯特定理,8KHz采样率完全足够

16KHz、32KHz

在保证基本沟通的基础上,进一步提升音质,同时平衡带宽、存储的压力。某些音频处理算法会要求使用32KHz的采样率

44.1KHz,48KHz

在比如在线KTV、音乐教学等场景,对音质要求比较高,可考虑进一步提升采样率。人耳可识别的声音频率范围为 20Hz ~ 20KHz,根据奈奎斯特采样定理,理论上采样率大于40KHz则完全足够。实际应用中,44.1KHz 可满足绝大多数的音视频应用场景。我们一般将 44.1kHz作为CD音质的采样标准

96KHz、192KHz

更特殊的应用,比如需要对采集的音频进行后期加工、二次处理等。96KHz、192KHz等采样率对于人耳听感来说已无明显的提升,反而会增大存储、带宽的压力,对采集/播放设备也有较高要求,RTC场景一般不考虑

图8

不同采样率的音频音质对比

文字上的描述略显苍白,我们可以从实际体验上来感受一下,不同采样率的音质对比。下面有三个音频文件,它们的区别仅在于采样率不同。

8K采样率

16K采样率

44.1K采样率

从上面的示例,我们发现,当采样率从 8KHz 翻倍至 16KHz 时,听感明显变得更清晰、空灵和舒适。此时,采样率的提升带来了明显的音质提升。而采样率从 16KHz 提升至 44.1KHz 时,实际听感却好像没有太大的变化,这是因为采样率到达一定程度后,音频质量已经比较高,再往上提升带来的优化已经很细微。

借助专业的频谱分析软件,或许可以观察到高频谱区域的能量差异,但对于人耳来说,已经很难进行区分。所以实际应用中,我们不需要一味追求高采样率,而是要综合带宽、性能、实际听感,选择合适的配置即可

ZEGO-SDK 使用什么采样率

在实际应用中,采集 → 前处理 → 编码等过程所使用的采样率并非一成不变的,首先受限于实际物理设备能力,然后需要符合软硬件前处理、编码算法的要求,中间会涉及到采样率的转换,最终以编码采样率为最终的输出。

ZEGO-SDK 为满足各种 RTC 场景需求,支持了 8KHz~48KHz 的全频带音频采样率,并经过实践验证选用了最符合自研算法效率、音质调优的默认配置。处理过程中 SDK 音频引擎会根据需要自行完成采样率转换,开发者无需操心。ZEGO-SDK 默认使用 44.1KHz 的采集采样率,而编码采样率使用 44.1KHz 或 48KHz(依据编码格式不同,一般 OPUS 编码使用 48KHz,AAC 编码使用 44.1KHz);针对某些特殊需求,比如希望兼容定制设备、或者有苛刻的带宽限制,ZEGO-SDK 也提供了进阶接口,允许配置使用低采样率(8KHz 及以上)。即构SDK进阶功能:​​自定义音频采集与渲染​

2、采样位深

我们在学习音频数字化过程的“量化”步骤时,就提及了量化精度-位深的概念。采样位深,指的是在音频采集量化过程中,每个采样点幅度值的取值精度,一般使用bit作为单位。比如,当采样位深为 8bit,则每个采样点的幅度值可以用 2^8=256 个量化值表示;采样位深为 16bit 时,则每个采样点的幅度值可以用 2^16=65536 个量化值表示。显然,16bit 比 8bit 可存储、表示的数据更多、更精细,量化时产生的误差损失就越小。位深影响声音的解析精度、细腻程度,我们可以将其理解为声音信号的“分辨率”,位深越大,音色也越真实、生动。

采样位深选择

和采样率的选择类似,虽然理论上来说位深越大越好,但是综合带宽、存储、实际听感的考虑,我们应该为不同场景选用不同的位深。

采样率

描述

8bit

早期常用的位深精度,可满足基础的通话音质需求

16bit

被认为是达到专业音频质量的位深标准,足够完整地收录绝大多数音频场景的动态变化,适用范围广。和44.1KHz采样率一起,被作为CD音质的标准

24bit、32bit、64bit

对于使用常见播放设备(手机、普通音箱)的用户来说,32bit与16bit的感官差异很细微,音质上的提升不明显,反而带来了更大的带宽、存储压力,更不用说64bit。并不需要盲目追求

图9

ZEGO SDK 在音频采样过程中使用的位深是 16bit(取决于实际的设备能力),这符合 RTC 场景对音质、带宽压力的综合需求。

3、声道数

相对于采样率和位深,接下来要讨论的声道数,大家应该比较熟悉。我们常说的单声道、双声道,其实就是在描述一个音频信号的声道数(分别对应于声道数 1 和 2)。声波是可以叠加的,音频的采集和播放自然也如此,我们可以同时从多个音频源采集声音,也可以分别输出到多个扬声器,声道数一般指声音采集录制时的音源数量或播放时的扬声器数量。除了常见的声道数1、2,PC上还有4,6,8等声道的扩展。一般来说声道数越多,声音的方向感、空间感越丰富,听感也就越好。目前很多手机厂商已经将双声道扬声器作为旗舰标配。在RTC音乐场景,越来越多的应用也开始采用双声道配置,其目的也是进一步提高听感,给用户更好的体验。

声道数的选择

实时音视频场景下,声道的选择受限于编解码器、前处理算法的能力,一般仅支持单、双声道。而双声道配置主要在语音电台、音乐直播、乐器教学、ASMR 直播等场景使用,其它场景单声道即可满足。

当然,最终能否使用哪一种声道配置,还是由实际采集、播放设备的能力决定。解码音频数据时,可以获取数据的声道数,在实际播放时,也要先获取设备属性。如果设备支持双声道,但待播放数据是单声道的,就需要将单声道数据转成双声道数据再播放;同理,如果设备只支持单声道,但数据是双声道的,也需要将双声道数据转换成单声道数据再播放。

ZEGO-SDK使用什么声道数

ZEGO SDK 的音频采集、编码默认使用单声道,在 Android、iOS、Windows 等平台也实现了双声道配置,开发者可以通过 API 灵活选择。但需要注意的是,和采样率一样,在实际应用中声音道数也是会变化的,仅仅通过 SDK 接口设置双声道采集/编码还不够,我们还需要支持双声道的设备和系统配合,才能实现期望的双声道效果。

我们现在已经了解了采样率、采样位宽、声道数的基本概念和影响,也知道实际应用中这些配置是可变的。那么有一个问题,如果我们使用不匹配的参数对音频进行处理,处理前后没有进行正确的转换,会有什么影响呢?我们直接从实际的案例中观察一下效果。如下,对 32k 双声道的音频原文件,我们分别使用“32k 双声道”、“48k 双声道”、“32k 单声道” 的配置进行解析播放:

正常使用32k双声道播放

错误使用48k双声道播放

错误使用32k单声道播放

从上述案例我们可以发现,相对于正确配置“32k双声道”下解析的效果,“48k 双声道”、“32k单声道” 处理后的音频听起来“变速”了,就像按下快进或慢放键,音调也变得更尖细或者更粗犷,总之是“面目全非”。

四、音频码率

前面我们谈到,数字音频的三要素不仅影响音频质量,也会影响音频存储、传输所需的空间、带宽。而实际应用场景下,音质决定用户体验、带宽决定成本,都是我们必须考虑到。音质可能更多是主观上的感受,但带宽、空间是比较容易量化的,我们需要了解音频码率的概念。

音频码率,又称为比特率,指的是单位时间内(一般为1s)所包含的音频数据量,可以通过公式计算。比如采样率 44.1K Hz,位深16bit的双声道音频PCM数据,它的原始码率为:

原始码率 = 采样率/s x 位深/bit x 声道数 x 时长(1s)

44.1 * 1000 * 16 * 2 * 1 = 1411200 bps = 1411.2 kbps = 1.411 Mbps (需要注意单位之间的差异和转换,b=bit)

如果一个PCM文件时长为1分钟,则传输/存储这个文件需要的数据量为:1.411 Mbps * 60s = 86.46Mb

需要注意的是,上述计算结果是未经压缩的、原始音频PCM数据的码率。RTC场景下,往往还需要再使用 AAC、OPUS 等编码算法做编码压缩,进一步减小带宽、存储的压力。码率的选择也是一个综合质量和成本的博弈,以后我们会详细讲解音频编码的知识,此处大家先了解即可。

至此,我们已经基本了解了声音的基本特征,知道从哪些维度来描述一个声音信号。也学习了声音信号采集、量化的主要过程,知道了自然界的声音是如何被采集并转换为计算机可理解的形式。最后,通过学习音频数字信号的关键质量指标,我们了解了影响音质的一些关键参数。这些知识,会伴随我们音频技术应用中的每个阶段,大家有必要对不理解或感兴趣的知识点做进一步学习。下面,我们再通过一个思维导图,梳理一下整片文章的内容。

 

思考题

理论上,参考奈奎斯特采样定理,40KHz采样率就能覆盖人耳听力范围的声音,为什么我们还需要44.1KHz呢?

答:人说话声音频率一般在300-700Hz之间,最大区间一般为60Hz-2000Hz,根据奈奎斯特定理,8KHz采样率就足够。而人耳可识别的声音频率范围为 20Hz ~ 20KHz,根据奈奎斯特定理,理论上采样率为40KHz(20KHz*2)便可以保留/还原这些信号。但是40KHz毕竟是理论值,实际应用中我们还需考虑以下问题:

为避免混叠失真(Anti-Aliasing),实际采样前必须对模拟信号进行低通滤波处理(滤除模拟信号中高于奈奎斯特频率的信号)。而抗混叠所使用的低通滤波器并非理想模型,无法实现理想的衰减特性,会存在一个衰减过渡带(Transition Band)。为了确保低通滤波在奈奎斯特频率处有充分的衰减,必须在奈奎斯特频率前留出一部分频带作为过渡带。

早期的磁带录制为兼容PAL和NTSC两种制式,采样率方面需要同时满足PAL和NTSC的规格,44.1KHz是一个计算得到的可用配置。

综合上面两个考虑,最早的无损采样率标准被定为44.1KHz,并沿用至今!

 

标签:采样,声音,采样率,码率,音频,双声道,音视频,我们
From: https://www.cnblogs.com/zegoinfo/p/17756816.html

相关文章

  • 国标GB28181安防视频平台EasyGBS视频分析增加历史音视频下载功能
    国标GB28181协议的实现者也可以提供历史音视频回放功能。具体回看步骤包括设备视音频文件检索和历史视音频回放。同时,前端设备录像功能也可以提供录像存储在国标设备端,如数字硬盘录像机(DVR)和网络硬盘录像机(NVR)上。对于国标GB28181安防视频平台EasyGBS增加历史音视频下载功能,可以......
  • 音视频处理三剑客之 AEC:回声产生原因及回声消除原理
     在上一期课程《音视频开发者进阶——音频要素》中,我们从声音三要素、音频模拟信号的数字化和音频数字信号特征等方面,重新认识了“声音”这个老朋友。今天,我们会进一步聊聊这个老朋友在RTC世界中的其他故事。磨刀不误砍柴工,在主题开始之前,我们先来了解一下RTC场景中音视频数......
  • 音视频处理三剑客之 AEC:回声产生原因及回声消除原理
      在上一期课程《音视频开发者进阶——音频要素》中,我们从声音三要素、音频模拟信号的数字化和音频数字信号特征等方面,重新认识了“声音”这个老朋友。今天,我们会进一步聊聊这个老朋友在RTC世界中的其他故事。磨刀不误砍柴工,在主题开始之前,我们先来了解一下RTC场景中音......
  • 音视频
    计算机音视频是指在计算机上对音频和视频进行处理、编辑、转换和播放的一门技术。随着计算机性能的提高和存储技术的发展,计算机音视频已经成为了人们生活中不可或缺的一部分。在计算机音视频领域,主要涉及以下方面的技术:1.音频处理技术:计算机音频处理技术包括音频录制、音频剪辑和音......
  • 使用安防视频监控/视频汇聚平台EasyCVR收不到音频流怎么办
    安防视频监控平台EasyCVR是一个具有强大拓展性、灵活的视频能力和轻便部署的平台。它支持多种主流标准协议,包括国标GB28181、RTSP/Onvif、RTMP等,还可以支持厂家的私有协议和SDK接入,例如海康Ehome、海大宇等设备的SDK。该平台不仅拥有传统安防视频监控的功能,还具备接入AI智能分析的......
  • 计算机音视频技术的发展与应用
    随着科技的不断进步,计算机音视频技术在各个领域得到了广泛的应用,从个人娱乐到商业活动再到教育培训,都离不开音视频技术的支持。本文将介绍计算机音视频技术的发展历程以及其在各个领域中的重要作用。1.发展历程计算机音视频技术的发展始于上世纪70年代。最早的音频技术是基于模拟......
  • m基于16QAM调制的音频信号同步接收器matlab仿真,包括gardner符号同步,载波同步以及CMA
    1.算法仿真效果matlab2022a仿真结果如下:锁定过程的星座图变化情况:定时收敛曲线:载波同步收敛曲线:2.算法涉及理论知识概要基于16QAM(QuadratureAmplitudeModulation)调制的音频信号同步接收器是一个复杂但高效的通信系统。该系统主要涉及三个关键部分:Gardner符号同步、载波......
  • 零代码编程:用ChatGPT批量将多个文件夹中的视频转为音频
    有多个文件夹中的视频,都要批量转换成音频格式。转换完成后要删除视频。虽然现在已经有很多格式转换软件可以实现这个功能,但是需要一个个文件夹的操作,还要手动去删除视频。用ChatGPT来写一个批量自动操作程序吧:输入提示词如下:你是一个Python编程专家,要完成一个批量转换格式的任务,具......
  • m基于16QAM调制的音频信号同步接收器matlab仿真,包括gardner符号同步,载波同步以及CMA
    1.算法仿真效果matlab2022a仿真结果如下: 锁定过程的星座图变化情况:    定时收敛曲线:   载波同步收敛曲线:   2.算法涉及理论知识概要         基于16QAM(QuadratureAmplitudeModulation)调制的音频信号同步接收器是一个复杂但高效的通信......
  • 音频和视频基本原理
    音频基本原理:声波捕获:音频信号是由声波振动引起的,通常使用麦克风等传感器将声波转化为电信号。声波的频率和振幅决定了声音的音调和音量。采样和量化:模拟音频信号需要经过采样和量化,将连续的模拟信号转换为离散的数字信号。采样率表示每秒采集的样本数,量化位数表示每个样本的精......