ASRT语音识别项目的自定义数据集制作

时间：2025-01-19 19:43:13浏览次数：1

标签：file ASRT cus250118 语音 import trans os 定义数据

项目地址：https://gitee.com/ailemon/ASRT_SpeechRecognition

通过观察evaluate_speech_model.py的代码，知道DataLoader加载asrt_config.json配置项，进而加载数据内容。复制json配置文件，在数据类“dev”下填写数据集名（name）cus250118、数据路径（data_path）C:/Users/tellw/test/dev、数据列表文件（data_list）datalist/cus250118/val.wav.lst和音节列表文件（label_list）datalist/cus250118/val.syllable.txt

令DataLoader在加载数据的时候读取自定义的json配置文件

准备好转录文本不包含数字和英文字母的音频文件，转录文本满足上述条件的过滤方法：if re.search('[0-9a-zA-Z]',trans)，处理方式来自找出文本中含有特定拼音的汉字序列

处理音频格式

import os
import subprocess

for file in os.listdir('dev1'):
	subprocess.run(f'ffmpeg -i dev1/{file} -ar 16000 -ac 1 -c:a pcm_s16le dev/{file}',shell=True)

ASRT模型只处理16k帧率的音频

生成列表文件

import os
import re
import shutil
from pypinyin import pinyin,Style

lst_f=open('E:/ASRT_v1.3.0/datalist/cus250118/val.wav.lst','w',encoding='utf8')
syl_f=open('E:/ASRT_v1.3.0/datalist/cus250118/val.syllable.txt','w',encoding='utf8')

for file in os.listdir('dev'):
	trans=os.path.splitext(file)[0].split('_')[1] # 音频文件名 %3d_trans.wav
	trans=re.sub(r'\W','',trans)
	syllables=[i[0] for i in pinyin(trans,style=Style.TONE3,neutral_tone_with_five=True)]
	syllables=' '.join(syllables)
	lst_f.write(f'{trans} {file}\n')
	syl_f.write(f'{trans} {syllables}\n')
	print(file)

创建于2501191935，修改于2501191936

标签：file,ASRT,cus250118,语音,import,trans,os,定义数据
From： https://www.cnblogs.com/tellw/p/18679841

FunASR - 语音识别模型训练和微调
文章目录一、关于FunASR核心功能模型仓库最新动态二、安装教程三、快速开始1、可执行命令行2、非实时语音识别2.1SenseVoice2.2Paraformer3、实时语音识别4、语音端点检测（非实时）5、语音端点检测（实时）6、标点恢复7、时间戳预测8、情感识别四、导出ONNX1、从命令行导......
手把手教你学simulink（80.2）--智能家居语音助手系统场景实例：基于Simulink设计和仿真语音
目录语音助手集成场景下的命令识别与响应建模项目实例项目背景介绍系统架构1. 语音采集模块(AudioCapture)2. 语音处理模块(SpeechProcessing)3. 命令识别模块(CommandRecognition)4. 响应生成模块(ResponseGeneration)5. 通信模块(Communication)仿真......
基于STM32单片机自动售货机扫码支付无人超市语音播报无线蓝牙APP/WIFI-APP控制/WIFI视
STM32-S147语音播报+二维码付+4种商品+4路电机出货+选货+手付+库存+缺货+找零+声光+按键+TFT屏+(无线方式选择)产品功能描述：本系统由STM32F103C8T6单片机核心板、1.44寸TFT彩屏、（无线蓝牙/无线WIFI/无线视频监控模块-可选）、步进电机控制电路、语音播报模块接口、蜂鸣器报警电......
智谱发布端到端多模态模型 GLM-Realtime，2 分钟记忆能力；讯飞星火同传语音大模型发布，5
开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（Real-TimeEngagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑......
开箱你的 AI 语音女友「GitHub 热点速览」
随着大模型API服务的不断丰富，开发者无需再依赖昂贵的硬件，也能轻松开发出拥有强大AI能力的应用。这不仅降低了技术门槛，也激发了极客们的创造力。就比如上周飙升1.5kStar的开源项目xiaozhi-esp32，仅用低成本的ESP32开发板和LLMAPI服务，就能制作出一个聪明有趣、......
HTML5怎么为输入框添加语音输入的功能呢？
在HTML5中，你可以使用WebSpeechAPI中的webkitSpeechRecognition接口来实现语音输入的功能。然而，需要注意的是，这个API目前主要是WebKit浏览器（如Chrome和Safari）支持，并且它的前缀webkit也暗示了这一点。此外，这个API在未来的浏览器中可能会被更改或移除，所以在生产环境中使用时需要谨......
2024，语音 AI 元年；2025，Voice Agent 即将爆发丨年度报告发布
围绕VoiceAgent产品的研发、商业化和增长的完整生命周期，报告构建出一份VoiceAgent产业生态全景图。 2024年，AI与实时互动技术的结合达到了前所未有的高度。 5月，OpenAI发布了GPT-4o，并展示了其对话功能，仿佛电影《HER》中的智能助手走入了现实生活。 ......
Kyutai开源端侧模型Helium -1 preview；FoloToy内测「超级智能体」，支持联网查询和语音调
开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（Real-TimeEngagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑......
物联网毕设 -- 智能窗帘（STM32+APP+语音识别+MQTT）
目录前言一连线图1.原理图2.PCB效果3.实物效果4APP效果5功能概括（1）硬件端（2）APP端（3）云平台使用（阿里云）（需要可以找我获取）（4）演示视频二底层代码使用方式1.使用说明2.下载程序三APP使用方式1下载APP四程序架构及修改（通用）前言智能窗帘系统通过STM32......
C语言常用数据类型和自定义数据类型的存储空间
C语言常用数据类型和自定义数据类型的存储空间想知道各种数据类型的存储空间长度，编码测试，代码如下：注意：用到offsetof宏，在stddef.h头文件中定义，一定要包含进去！！！/*filename:sizeof.c*/#include<stdio.h>#include<stddef.h>//foroffsetofmacro/*compile:gccsizeof......

ASRT语音识别项目的自定义数据集制作

处理音频格式

生成列表文件

相关文章

赞助商

阅读排行