ASR项目实战-数据

时间：2023-12-29 23:12:45浏览次数：38

标签：实战 ASR 要求测试训练项目语音收集数据

使用机器学习方法来训练模型，使用训练得到的模型来预测语音数据，进而得到识别的结果文本，这是实现语音识别产品的一般思路。
本文着重介绍通用语音识别产品对于数据的诉求。

对数据的要求

训练集

测试集

获取数据的方法

训练集

可行的方法有：

采集开源训练数据集。这类数据通常用于研究，因此数据质量相对可控，唯一的问题在于数量较少，直白的说，用来写论文也许够用，但在工业强度下应用，则远远不满足要求。
采购商业数据。数据公司可以通过如下方式收集数据：
- 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
- 采用转包的方式，将任务包交给当地有资质的公司来收集数据。
- 采用众包的方式，收集语音数据。
自行采集数据。类似数据公司的操作方式，可以有如下方式：
- 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
- 采用众包的方式，收集语音数据。

难点在于：

交付周期长。收集数据的操作，从提出诉求到最终收到数据，中间耗时良久，进度基本不可控。
质量不可控。语音数据没有比较好的手段可以实现自动化检查，因此需要花费相当的人力来整理、清洗数据，剔除质量差或者不满足要求的数据。

测试集

可行的方法有：

客户提供带有标注的测试集。
客户提供测试集的获取方法，交付团队按照要求采集数据用于测试。
客户提供测试集的标准，交付团队按照要求自行准备数据。

注意：测试集用于验证模型的有效性，为保证公平性和有效性，测试集中的数据，绝对不允许作为训练集来使用。

参考资料

如何正确使用机器学习中的训练集、验证集和测试集？

标签：实战,ASR,要求,测试,训练,项目,语音,收集,数据
From： https://www.cnblogs.com/jackieathome/p/17935656.html

项目情景问答
1.聊一下最近做的这个养老项目？这是个养老管理软件产品，涵盖来访管理、入退管理、在住管理、服务管理、财务管理等功能模块，涉及从来访参观到退住办理的完整流程。该项目分为两端：管理后台：养老院员工使用，入住、退住，给老人服务记录等等家属端：养老院的老人家属使用，查看老人......
ASR项目实战-构建Kaldi
准备工作安装构建时依赖的基础软件软件清单如下：bzip2python3automakelibtoolcmakegccg++gfortrangitsubversion不同平台安装软件的方式不同，比如可以使用yum或者apt-get等。下载开源软件软件清单如下：LibunwindglogOpenFSTOpenBLASKaldi按照一定的规则，将下......
ASR项目实战-语音识别
本文深入探讨语音识别处理环节。本阶段的重点特性为语音识别、VAD、热词、文本的时间偏移、讲话人的识别等。语音识别业界流派众多，比如Kaldi、端到端等，具体选择哪一种，需要综合考虑人员能力、训练数据量和质量、硬件设施、交付周期等，作出相对合理的交付规划。基于Kaldi的方案，优......
华为云耀云服务器L实例-微人事前后端分离人力资源管理系统-项目本地配置
华为云耀云服务器L实例-微人事前后端分离人力资源管理系统-项目本地配置产品官网：https://www.huaweicloud.com/product/hecs-light.html 项目源代码地址：https://github.com/lenve/vhr 今天我们采用可靠更安全、智能不卡顿、价优随心用、上手更简单、管理......
在 PyCharm 中创建 Flask 项目
在PyCharm中创建Flask项目的步骤如下：https://blog.csdn.net/qq_41604569/article/details/1280633381.打开PyCharm，导航到主菜单，选择`File|NewProject`¹。2.在弹出的`NewProject`对话框中，左侧面板的`Projecttypes`列表中选择`Flask`¹。3.在`Location`中指......
金蝶云苍穹技术开放日第十期精彩回顾|赋能开发者提升项目质量
12月28日，以“开发之巅：项目质量提升之道”为主题的第十期技术开放日活动圆满结束。此次线上交流活动吸引了超过1700+开发者热情参与，来自金蝶云苍穹平台生态部的技术架构师——郑烈彬老师和金蝶中国用户体验部的产品经理——曹卫群老师分别带来了关于开发助手工具的深入解析和用户......
在 PyCharm 中，"视图"通常指的是 IDE 的不同部分和面板，它们提供了不同的功能和信息¹。
在PyCharm中，"视图"通常指的是IDE的不同部分和面板，它们提供了不同的功能和信息¹。以下是一些常见的PyCharm视图：1.**项目视图**：显示项目的文件和目录结构³。可以通过选择`View->ToolWindows->Project`来调出³。2.**运行视图**：显示程序运行的输出信息³。可以通过......
金蝶云苍穹技术开放日第十期精彩回顾|赋能开发者·提升项目质量
12月28日，以“开发之巅：项目质量提升之道”为主题的第十期技术开放日活动圆满结束。此次线上交流活动吸引了超过1700+开发者热情参与，来自金蝶云苍穹平台生态部的技术架构师——郑烈彬老师和金蝶中国用户体验部的产品经理——曹卫群老师分别带来了关于开发助手工具的深入解析和用......
react项目经验，以及一些骚写法
语法糖1.constlogged=!!getToken();这里的`!!`是求布尔值的快捷方式类似的：2.vara=b*1是转数字的快捷方式3.vara=b+''是转字符串的快捷方式架构相关1.webpack2.qiankuan通过package.json可以查看react等等项目中的依赖的各种版本。学会使用chatgpt插件安......
`pip freeze` 是一个命令，它会列出所有已安装的Python库及其版本号。这个命令在Python
pipfreeze是一个命令，它会列出所有已安装的Python库及其版本号。这个命令在Python的包管理器pip中使用，主要用于生成一个项目的依赖列表。这个列表可以用于在其他环境中重新创建相同的库设置，通常通过使用pipinstall-rrequirements.txt命令，其中requirements.txt是由pipfree......

ASR项目实战-数据

对数据的要求

训练集

测试集

获取数据的方法

训练集

测试集

参考资料

相关文章

赞助商

阅读排行