首页 > 其他分享 >2023.34 语音转文字STT

2023.34 语音转文字STT

时间:2023-08-26 19:00:36浏览次数:57  
标签:Whisper 模型 技术 STT 2023.34 语音 识别

在我们的日常生活和工作中,语音转文字(Speech-to-Text,简称STT)技术已经越来越普遍。无论是智能手机的语音助手、智能家居设备的语音控制,在线会议的实时字幕,还是录音转文字方便检索查阅,STT技术都在为我们提供便利。STT技术的基础主要来自于语音识别(Speech Recognition)技术,该技术的目标是理解并转录人类的语音。语音识别的过程通常包括以下几个步骤:声音的采集和预处理、特征提取、模型预测和后处理。1. 声音的采集和预处理:首先,我们需要一个麦克风或其他设备来采集声音,然后将模拟的声音信号转化为数字信号。2. 特征提取:然后,我们需要从这些数字信号中提取出有用的特征,例如梅尔频率倒谱系数(MFCC)。3. 模型预测:接下来,我们将这些特征输入到某种机器学习模型中,例如隐马尔可夫模型(HMM)或深度学习模型,以预测出可能的文字。4. 后处理:最后,我们可能需要一些后处理步骤,例如语言模型,来改善模型的预测结果。早期的STT技术主要基于HMM和GMM(高斯混合模型)等统计模型。然而,随着深度学习的兴起,尤其是循环神经网络(RNN)和卷积神经网络(CNN)在语音识别上的成功应用,STT技术的性能得到了显著提高。近年来,Transformer和BERT等预训练模型也被广泛应用于STT技术中,进一步推动了其发展。此外,端到端(End-to-End)的模型,如CTC(Connectionist Temporal Classification)和Transformer Transducer,也为简化STT系统的构建和提高其性能提供了新的可能。尽管STT技术已经取得了显著的进步,但仍然存在一些挑战。例如,对于有口音、语速快或者语言模糊的语音,STT技术可能难以准确识别。此外,噪声环境下的语音识别也是一个难题。然而,随着技术的不断发展,这些问题正在逐渐被解决。未来,STT技术有望在更多场景中发挥作用,例如在医疗、法律和教育等领域,STT技术可以用于自动地生成病历、法律文件或教学笔记。STT技术将会变得更加成熟和普遍,为我们的生活带来更多便利和可能。
目前语音转文字的服务或工具很多,这里面免费且技术好的要属Whisper了。Whisper是OpenAI在2022年9月份开源的自动语音识别模型。官方宣传其英语的识别水平与人类接近。而2个月后,官方就发布了Whisper V2版本,是第一个版本继续训练2.5倍得到,且加了正则化技术。后面一位网友Sanchit Gandhi发布了Whisper JAX,对原有版本优化识别速度最高达到原始模型的70倍。不过基于大模型技术的Whisper,对本地电脑配置有要求,且不是开箱即用的,如果想使用方便可以用基于它的开源应用Buzz。Buzz 相当于是一个 Whisper 的可视化界面版本,在第一次使用 Buzz 的时候,会下载 Whisper 的模型,根据不同的质量要求,模型尺寸也非常可观:

质量尺寸English-only modelMultilingual model必需的显存行对速度
tiny39 Mtiny.entiny~1 GB~32x
base74 Mbase.enbase~1 GB~16x
small244 Msmall.ensmall~2 GB~6x
medium769 Mmedium.enmedium~5 GB~2x
large1550 MN/Alarge~10 GB1x
Buzz - 开源、可离线的实时语音转文字工具
国内,Paraformer是达摩院语音团队提出的一种高效的非自回归端到端语音识别框架。本项目为Paraformer中文通用语音识别模型,采用工业级数万小时的标注音频进行模型训练,保证了模型的通用识别效果。模型可以被应用于语音输入法、语音导航、智能会议纪要等场景。在下面modelscope中,可以上传一个不超过10M的音频文件试用。https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary 免费开源AI中文音频转文本Paraformer模型

下面这篇文章对比了目前常用的语音转文字工具,看测试结果,剪影和飞升妙记还不错,离线的还是Whisper或Buzz。比较后才知道:这些语音转文字工具哪个才是真正的王者!

标签:Whisper,模型,技术,STT,2023.34,语音,识别
From: https://www.cnblogs.com/doit8791/p/17659291.html

相关文章

  • 语音直播讲解软件
      直播本身就是需要借助运用人员实现带货的,如果商家觉得运营成本太高的话,就可以借助直播软件了,语音直播讲解软件可以让用户通过语音进行交互式的讲解,让学习更加高效、便捷。本文将介绍语音直播讲解软件的主要功能和特点。  一、文字识别技术  语音直播讲解软件的核心......
  • 直播间语音直播app软件需求分析
      直播间语音直播软件省去带货主播的运营成本,只需要购买一个直播软件,关联相关的直播账号就可以实时的和粉丝互动了。现在就对直播间语音直播软件的需求进行分析,以帮助开发者更好地设计和开发这类软件。  直播间语音播报软件实时播报,反映速度快,简单易操作,软件使用流程化简......
  • 海康摄像头通过SDK接入到LiveNVR实现双向语音喊话对讲与网页无插件播放,并支持GB28181
    @目录1、确认摄像头是否支持对讲2、摄像头视频类型复合流3、通道配置SDK接入4、视频广场点击播放5、相关问题5.1、如何配置通道获取直播流?5.2、如何GB28181级联国标平台?6、RTSP/HLS/FLV/RTMP拉流Onvif流媒体服务1、确认摄像头是否支持对讲可以访问摄像头自己的页面,看是否能够对......
  • 利用Java实现文本到语音转换(TTS)的实用指南
    在现代技术发展的背景下,文本到语音转换(TTS)成为了一种非常有用的技术。TTS技术可以将文字转换成自然流畅的语音,提供更加人性化和便利的交互方式。本文将介绍如何使用Java来实现TTS功能,让我们一起来探索吧!引言文本到语音转换(TTS)是一种使计算机能够将文字转换成可听的语音的技术。它......
  • 使用 Transformers 优化文本转语音模型 Bark
    ......
  • 六种python读取语音文件的方法
    该文主要记录一下常用的python读取wav文件的常用三方库以及优缺点对比,以一段采样率16k,4.99秒单声道的测试语音为例子,音频文件读取后主要有以下几种形式#格式一:列表[-0.00015259-0.00021362-0.00021362-0.00027466-0.00015259]float32#格式二:列表[-5,-7,-7,-9,-5]int......
  • 五脏俱全,搭建部署多人语音厅源码功能分析
    首先,要搭建部署一个稳定成熟的多人语音厅源码,具体的实现方式可能因项目需求以及使用的工具而有所不同,下边来简单分析下。搭建多人语音厅场景系统:场景功能如下。(1)多个麦位语聊:支持多人连麦及无限观众收听,并将麦位状态同步给房间内所有用户。(2)多人语音厅配置:参数可以按需配置,如码率、......
  • C#调用科大讯飞离线语音合成实现文本转语音
    C#文本转语音(科大讯飞离线版)引言文本转语音(TextToSpeech),简称TTS,在很多业务场景会用到,比如广播大厅,人机互动等。C#要实现TTS有不少选择,比如调用System.Speech,此处就不细说了,下面主要介绍一下C#调用科大讯飞的离线语音合成SDK来实现文本转语音。产品介绍地址:[https://www.......
  • 语音app软件关键开发知识
    平时我们都有玩过TT、氧气、伴伴、比心等语音软件,那么如果自己想要开发一款这样的app需要那些东西呢?感兴趣的可以继续往下看,如果对你有收获可以点赞收藏哦一般来说app可以分为原生和非原生开发,原生开发的软件体验好,流畅度高,可扩展能力也强,混合开发像uniapp这种技术可以做但是效果会......
  • 语音合成技术6:DuTa-VC: A Duration-aware Typical-to-atypical Voice Conversion Appr
    DuTa-VC:一种具有扩散概率模型的时长感知典型到非典型语音转换方法摘要我们提出了一种新颖的典型到非典型语音转换方法(DuTa-VC),它具有以下特点:(i)可以使用非平行数据进行训练,(ii)首次引入了扩散概率模型,(iii)保留了目标说话者的身份,(iv)了解目标说话者的音素持续时间。DuTa-VC由三个部分......