首页 > 其他分享 >kaldi训练模型的过程

kaldi训练模型的过程

时间:2023-09-25 17:23:00浏览次数:35  
标签:训练 创建 模型 kaldi blog XX 文件夹 trunk

https://blog.csdn.net/Championvas/article/details/81169785?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-1-81169785-blog-83057183.235%5Ev38%5Epc_relevant_anti_t3&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-1-81169785-blog-83057183.235%5Ev38%5Epc_relevant_anti_t3&utm_relevant_index=2

整理一下训练新模型的过程:
1.进 入 到 kaldi-trunk/egs目录下创建XX(看你心情随便命名)文件夹,然后在文件夹里创建一个audio文件夹,在audio文件夹内在创建两个文件夹train和test。然后把所有的音频文件(.wav文件)放到train和test内(根据你的需求选择测试集和训练集,我是两个文件夹里面都是放的一样的)
2.在XX文件夹下面创建一个文件夹data,在data里面建立test和train文件夹。然后分别在文件夹里面构建以下几个文档:
1)spk2gender 这个文档表明说话人的性别
2)wav.scp
3)test
4)utt2spk
(注意,在train和test里面都要有这些文件)
3.在data文件夹下面创建另外一个文件夹local,在local文件夹创建一个文件corpus.txt
这几个文件的作用还有例子在百度搜索“在kaldi工具包使用小数字语料库创建一个简单的ASR系统”这篇文章可以看到,这里就不在赘述。我的这些文档是在windows下整理的,如果有时间,再整理一个文档来进行说明。
4.在local文件夹下创建一个新的文件夹‘dict’.在dict下创建文件:
1)lexicon.txt
2)nonsilence_phones.txt(你工程中所有的非静音因素)
3)silence_phones.txt(这里面是静音音素)
4)optional.txt
这几个文件的创建方法也在上面说的文章里面有介绍。1)2)两个需要按照你工程实际需要的音素表来写,需要自己生成音素表。
5.在 kaldi-trunk/egs/wsj/s5 目录下拷贝出两个文件夹(注意拷贝所有内
容):‘utils’和‘steps’,并把它们放在你的 kaldi-trunk/egs/XX 目录下
6.安装srilm(这个自行百度就行)
7.在目录 kaldi-trunk/egs/XX 目录下创建一个名为‘conf’的文件夹。
在 kaldi-trunk/egs/XX/conf 目录下创建两个文件:
1)decode.config
2)mfcc.conf(这个文件需要根据你的需要加一些,我这次加了一句采样率的 --sample-frequency=16000)
8. 在 kaldi-trunk/egs/XX目录下创建 3 个脚本:
1)cmd.sh
2)path.sh
3)run.sh
脚本根据实际情况来修改吧,主要是修改一些路径的问题,最后就是运行脚本了。
我相信,没有几个能一次就运行成功的,总是会出现一些莫名其妙的错误。
如果,你和我一样,是在windows下面整理的数据直接拷贝过来的。那么,你要注意对因素表里面的内容进行排序。排序之后会生成一个空行,需要删除。把所有拷贝过来的文档都要另存为unix/linux格式的。一定要特别注意路径的问题,各个地方的路径问题,只要不是你手动输入的,都要注意。
如果运行脚本之后有错误,可以到exp下的log文件夹中去查看错误,然后针对性的修改。
————————————————
版权声明:本文为CSDN博主「Championvas」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/Championvas/article/details/81169785

标签:训练,创建,模型,kaldi,blog,XX,文件夹,trunk
From: https://www.cnblogs.com/wcxia1985/p/17728371.html

相关文章

  • 博弈论——连续产量古诺模型
    连续产量古诺模型连续产量古诺模型是博弈论中非常经典的模型,以两厂商连续产量古诺博弈为例:1、模型建立Player:两个供应相同产品的厂商产量:厂商1的产量为q1,厂商2的产量为q2,市场总供给为Q=q1+q2。市场出清价格P:市场总供给的函数P(Q)=8-Q(市场出清价格是可以将产品全部卖出的价格)成本......
  • Java内存模型
    JavaMemoryModel,JMM是一种规范,定义了程序中各个变量的访问规则,以及在某个线程中对这些变量进行访问时需要遵守的同步策略,所以其目的是解决多线程正确执行的问题。Java内存模型确保了多线程程序的可见性、有序性和原子性;主要内容包括:主内存(MainMemory):所有变量都存储在主内......
  • Java内存模型——基础
    JMM因何产生由于计算机的存储设备与处理器的运算能力之间有几个数量级的差距,所以现代计算机系统都不得不加入一层读写速度尽可能接近处理器运算速度的高速缓存(Cache)来作为内存与处理器之间的缓冲——将运算需要使用到的数据复制到缓存中,让运算能快速进行,当运算结束后再从缓存同步回......
  • 火山引擎DataLeap推出两款大模型应用: 对话式检索与开发 打破代码语言屏障
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 自上世50年代,以“计算机”作为代表性象征的信息革命开始,社会对于先进生产力的认知便开始逐步更迭——从信息化(通常认为是把企业中的信息资源与信息技术有机结合,从而提高企业的管理水......
  • 文档图像处理:大模型的突破与新探索
    前言随着数字化时代的到来,文档图像处理技术在各行各业扮演着越来越重要的角色。在2023第十二届中国智能产业高峰论坛(CIIS 2023)的专题论坛上,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士分享了当前文档图像处理面临的困难,并讨论大模型在该领域的突破和新探索。虚竹哥把......
  • 三维模型3DTile格式轻量化压缩在移动智能终端应用方面的重要性分析
    三维模型3DTile格式轻量化压缩在移动智能终端应用方面的重要性分析 随着移动智能终端设备的不断发展和普及,如智能手机、平板电脑等,以及5G网络技术的推广应用,使得在这些设备上频繁使用三维地理空间数据成为可能。然而,由于这类数据通常具有大尺度、高精度等特点,其数据量巨大,如果......
  • Django的模型设计
    摘要通过Django框架设计一个商城网站,为了记忆其中的关键设置要点,同时对项目的重要知识点进行回顾记忆加深,通过笔记的形式进行记录方便记忆学习。一、商城的路由1、路由的分发规则​ 首先一个完整的路由包含:路由地址、视图函数(或者视图类)、路由变量和路由命名。其中基本信息必......
  • IO模型
    五种IO模型1.阻塞I/O2.非阻塞I/O3.多路I/O复用4.信号驱动I/O5.异步I/O前四种都是同步,只有最后一个是异步I/O阻塞I/O模型进程会一直阻塞(不再占有CPU),直到数据拷贝完成。应用程序调用一个IO函数,导致应用程序阻塞,等待数据准备好。如果数据没有准备好,一直等待….数据准备好了,从......
  • Llama2-Chinese项目:2.3-预训练使用QA还是Text数据集?
      Llama2-Chinese项目给出pretrain的data为QA数据格式,可能会有疑问pretrain不应该是Text数据格式吗?而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术,给出pretrain的data为Text数据格式。所以推测应该pretrain时QA和Text数据格式都应该支持。然后马上就会有一个疑问......
  • 金融领域预训练模型用于分类任务,大模型应用参考
    在bert的基础上加了一个分类层:代码实现:output=bert.model.outputoutput=Lambda(lambdax:x[:,0],name='CLS-token')(output)output=Dense(units=num_classes,activation='softmax',kernel_initializer=bert.initializer)(output)model......