在我们的日常生活和工作中,语音转文字(Speech-to-Text,简称STT)技术已经越来越普遍。无论是智能手机的语音助手、智能家居设备的语音控制,在线会议的实时字幕,还是录音转文字方便检索查阅,STT技术都在为我们提供便利。STT技术的基础主要来自于语音识别(Speech Recognition)技术,该技术的目标是理解并转录人类的语音。语音识别的过程通常包括以下几个步骤:声音的采集和预处理、特征提取、模型预测和后处理。1. 声音的采集和预处理:首先,我们需要一个麦克风或其他设备来采集声音,然后将模拟的声音信号转化为数字信号。2. 特征提取:然后,我们需要从这些数字信号中提取出有用的特征,例如梅尔频率倒谱系数(MFCC)。3. 模型预测:接下来,我们将这些特征输入到某种机器学习模型中,例如隐马尔可夫模型(HMM)或深度学习模型,以预测出可能的文字。4. 后处理:最后,我们可能需要一些后处理步骤,例如语言模型,来改善模型的预测结果。早期的STT技术主要基于HMM和GMM(高斯混合模型)等统计模型。然而,随着深度学习的兴起,尤其是循环神经网络(RNN)和卷积神经网络(CNN)在语音识别上的成功应用,STT技术的性能得到了显著提高。近年来,Transformer和BERT等预训练模型也被广泛应用于STT技术中,进一步推动了其发展。此外,端到端(End-to-End)的模型,如CTC(Connectionist Temporal Classification)和Transformer Transducer,也为简化STT系统的构建和提高其性能提供了新的可能。尽管STT技术已经取得了显著的进步,但仍然存在一些挑战。例如,对于有口音、语速快或者语言模糊的语音,STT技术可能难以准确识别。此外,噪声环境下的语音识别也是一个难题。然而,随着技术的不断发展,这些问题正在逐渐被解决。未来,STT技术有望在更多场景中发挥作用,例如在医疗、法律和教育等领域,STT技术可以用于自动地生成病历、法律文件或教学笔记。STT技术将会变得更加成熟和普遍,为我们的生活带来更多便利和可能。
目前语音转文字的服务或工具很多,这里面免费且技术好的要属Whisper了。Whisper是OpenAI在2022年9月份开源的自动语音识别模型。官方宣传其英语的识别水平与人类接近。而2个月后,官方就发布了Whisper V2版本,是第一个版本继续训练2.5倍得到,且加了正则化技术。后面一位网友Sanchit Gandhi发布了Whisper JAX,对原有版本优化识别速度最高达到原始模型的70倍。不过基于大模型技术的Whisper,对本地电脑配置有要求,且不是开箱即用的,如果想使用方便可以用基于它的开源应用Buzz。Buzz 相当于是一个 Whisper 的可视化界面版本,在第一次使用 Buzz 的时候,会下载 Whisper 的模型,根据不同的质量要求,模型尺寸也非常可观:
质量 | 尺寸 | English-only model | Multilingual model | 必需的显存 | 行对速度 |
---|---|---|---|---|---|
tiny | 39 M | tiny.en | tiny | ~1 GB | ~32x |
base | 74 M | base.en | base | ~1 GB | ~16x |
small | 244 M | small.en | small | ~2 GB | ~6x |
medium | 769 M | medium.en | medium | ~5 GB | ~2x |
large | 1550 M | N/A | large | ~10 GB | 1x |
国内,Paraformer是达摩院语音团队提出的一种高效的非自回归端到端语音识别框架。本项目为Paraformer中文通用语音识别模型,采用工业级数万小时的标注音频进行模型训练,保证了模型的通用识别效果。模型可以被应用于语音输入法、语音导航、智能会议纪要等场景。在下面modelscope中,可以上传一个不超过10M的音频文件试用。https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary 免费开源AI中文音频转文本Paraformer模型
下面这篇文章对比了目前常用的语音转文字工具,看测试结果,剪影和飞升妙记还不错,离线的还是Whisper或Buzz。比较后才知道:这些语音转文字工具哪个才是真正的王者! 标签:Whisper,模型,技术,STT,2023.34,语音,识别 From: https://www.cnblogs.com/doit8791/p/17659291.html