揭开 MFCC 的魔力：语音识别的一项关键技术

时间：2023-07-25 13:31:44浏览次数：48

现在，在阅读此博客之前，您必须知道MFCC（梅尔频率倒谱系数）广泛用于人工智能中的语音识别。MFCC基本上用于从给定的音频信号中提取特征。我们先来看一下MFCC中涉及的步骤的流程图说明：

模数转换：此步骤基本上涉及将模拟信号转换为数字信号。这是因为我们在语音识别中执行的大多数步骤都是在数字信号上完成的。将模拟信号转换为数字信号涉及各种步骤，如采样、量化、归一化、基于帧的处理等。这些步骤的详细说明将在下一篇博客中分享。

预加重： 预加重步骤通常使用一阶高通滤波器实现。滤波器强调高频内容，这对于区分语音和音频信号中的重要细节至关重要。通过预加重应用高通滤波器，高频分量的幅度相对于低频分量得到提升。在较高频率下增加声音的能量将提高手机检测的准确性。（不要将自己与手机混淆）

窗口化：简单来说，窗口化是指将音频信号分成不同的段，标准为25ms和10ms之间的距离。此外，在制作段以避免由于切碎而不是矩形段而导致的过度噪音的同时，我们有汉明窗口。 选择值25ms的原因： 该人在1秒内说出的平均单词数为3个单词。每个单词包含 4 个电话，而电话又包含 3 个状态。因此，1 秒内的状态总数 = 3 * 4 * 3 = 36 个状态。因此，1 个状态大约需要 28 毫秒，接近所选值 25 毫秒。

**DFT（离散傅里叶变换）：

**在接下来的步骤中，我们将使用DFT将信号从时域转换为频域，以计算MFCC系数。简单来说，你可以把它看作是一系列复数。

Mel Filter Bank： 在深入探讨这个术语之前，让我们先了解一下像我们这样的人类是如何听到声音的？基本上，当我们将其与高频音频进行比较时，人耳对低频音频非常敏感。仅举一个例子，我们可以说人类可以轻松区分 100Hz 和 200Hz 音频之间的区别，但我们很难区分 2100Hz 和 2000Hz 音频之间的区别。因此，为了在机器中模拟这一点，我们使用mel标度来找到人类可以听到的音频频率：

梅尔频率

Log（）： 让我们回顾一下对数函数的一个重要属性，它告诉我们，在较低的输入值下，梯度相对较*大，而输入值较大的梯度相对较小。*这意味着随着输入值的增加，输入值也会减小。这类似于我们的听力机制。人耳在较低能量下对音频信号比在较高能量下更敏感。这就是为什么我们将应用 log（）函数来模仿人耳。

IDFT： IDFT 代表逆离散傅里叶变换。提取MFCC特征后，我们需要将音频信号从频域转换为时域。MFCC模型在应用IDFT和能量作为特征后，采用前12个系数。

动态特征： 除了13个特征外，MFCC还将考虑特征的一阶和二阶导数。这给我们留下了更多的 26 个功能需要考虑。因此，MFCC 将从每个音频信号生成 39 个特征。 **Δ系数（Δ MFCC）或一阶导数*表示静态MFCC系数随时间的变化率。它们有助于捕获动态变化。增量-增量系数（ΔΔ MFCC）或二阶导数***表示增量系数随时间变化的加速度或变化率。它们都有助于获得每个帧的最终特征向量。

标签：系数,关键技术,魔力,MFCC,步骤,音频,信号,我们
From： https://blog.51cto.com/u_15720252/6844524

RocketMQ关键技术整理
form https://gitee.com/apache/rocketmq/tree/master/docs/cn技术架构RocketMQ架构上主要分为四部分，如上图所示：Producer：消息发布的角色，支持分布式集群方式部署。Producer通过MQ的负载均衡模块选择相应的Broker集群队列进行消息投递，投递的过程支持快速失败并且低延迟。C......
4项关键技术提升 XR 扩展现实体验-XR应用云流化
无论是使用户能够协作设计电动赛车，还是帮助观众通过数字世界与自然互动，越来越多的企业利用XR扩展现实为用户提供沉浸式逼真的虚拟环境。下一代沉浸式技术的应用越来越广泛，图形和人工智能的最新突破正在扩展XR的功能。这四种技术正在XR生态系统中树立新标准：云流化，高级协作工具，高......
火山引擎 DataLeap 构建Data Catalog系统的实践（三）：关键技术与总结
更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群关键技术构建一个好的DataCatalog系统，需要考虑的核心产品设计和技术设计有很多。篇幅所限，本文只概要介绍技术设计中最核心重要的部分，更多细节展开可参照后续的文章。数据模型统一......
MFCC 算法及 C 实现
参考https://blog.csdn.net/weixin_38468077/article/details/1027095101.MFCC是做什么？1.1梅尔频谱人耳能听到的声音频率范围是20-20000Hz，但是人耳对频率感知并不是线性的，而是近似于......
在展会上，让易处长笑谈久壳机房的“魔力”
2023年6月30日，第六届工业互联网展会热闹非凡。省工信厅工业互联网处的易贤辉处长亲自来到久壳机房的展位，倾听我们的技术工程师详细介绍产品。我们的技术工程师们不仅展示了产品，更展示了我们的实力。易处长认真倾听，不时点头，流露出满意的笑容。在实时演示中，我们的技术工程师......
云存储环境下的容灾关键技术
本文分享自天翼云开发者社区《云存储环境下的容灾关键技术》，作者:王兆龙云存储的出现解决了现有容灾系统的几个显著问题：一是面对大量的备份数据，管理系统不够完善的问题；二是面对大规模的数据容灾灵活性和效率不高的问题；三是在数据加密保护方面依然存在的安全隐患问题。那么，云存......
详解金融机构敏捷营销落地：体系架构、关键技术和实施方法
本文根据2023年金融营销科技价值发现论坛中，神策数据金融首席架构师王仕的主题演讲整理所得，聚焦营销5.0理念下的敏捷营销，详细讲解落地敏捷营销涉及到的整体架构、关键技术及实施方法。关注神策数据公众号，即可观看完整版直播回放并下载演讲文档。根据国家发改委官网披露的数据，202......
灵雀云获Gartner® 首份《DevOps平台魔力象限报告》“荣誉提及”
随着平台工程理念的崛起，企业使用的独立的DevOps工具链逐渐向更先进、更便捷的DevOps平台演进。Gartner发布了首份DevOps平台魔力象限报告（GartnerMagicQuadrantforDevOpsPlatforms）。在这个备受关注的报告中，中国云原生厂商灵雀云获“荣誉提及”（HonorableMention），并成为唯一......
IP代理与网络安全：保护隐私的关键技术
在当今数字化时代，保护个人隐私和网络安全至关重要。本文将重点探讨IP代理技术以及它在网络安全领域中的作用。我们将探索IP代理的工作原理、应用场景，以及它如何帮助用户保护个人隐私和数据安全。同时，我们还将介绍一些与IP代理相关的网络安全措施，以帮助读者加强网络安全意识和保护措......
科技政策 | 上海发布元宇宙关键技术攻关两年行动方案，聚焦这两大方向
原创|文BFT机器人6月13日，上海市科学技术委员会发布关于印发《上海市“元宇宙”关键技术攻关行动方案（2023—2025年）》（下称《行动方案》）的通知。《行动方案》称，针对“元宇宙”沉浸式、开放式、永续实时、以人为中心等跨界复合的技术特性，围绕“元宇宙”内容、存算、传输和终端等技术......

揭开 MFCC 的魔力：语音识别的一项关键技术

相关文章

赞助商

阅读排行