首页 > 其他分享 >ASR项目实战-数据

ASR项目实战-数据

时间:2023-12-29 23:12:45浏览次数:36  
标签:实战 ASR 要求 测试 训练 项目 语音 收集 数据

使用机器学习方法来训练模型,使用训练得到的模型来预测语音数据,进而得到识别的结果文本,这是实现语音识别产品的一般思路。
本文着重介绍通用语音识别产品对于数据的诉求。

对数据的要求

训练集

相关要求,如下:

  • 地域,需要覆盖使用人群所在的地域,且数据的比例适中。
  • 口音,需要覆盖典型的口音。
  • 年龄,从18~60,覆盖各年龄段,且数据的比例适中。
    • 很多国家对未成年人有非常严格的保护措施,因此收集未成年人的数据比较困难。
    • 未成年男性的声音和青年女性的声音,从生理角度存在一定的相似度,这给质量控制增加了复杂度和相应的工作量。
  • 性别,男、女,比例适中。对于特定的语种,这个要求很难达成,比如某些严格执行教规的国家,很难采集到女性的声音。
  • 录音条件。
    • 一般要求静音,近场,10秒以内的短句,前、后静音不超出1秒。
    • 假如业务场景要求模型具备一定的搞噪能力,则需要增加对应场景的数据。
  • 母语人群提供的数据,其比例不低于某限定值。

测试集

相关要求,如下:

  • 数据的特征,接近应用场景。
  • 数据量适中,可以支撑功能和性能测试。

获取数据的方法

训练集

可行的方法有:

  • 采集开源训练数据集。这类数据通常用于研究,因此数据质量相对可控,唯一的问题在于数量较少,直白的说,用来写论文也许够用,但在工业强度下应用,则远远不满足要求。
  • 采购商业数据。数据公司可以通过如下方式收集数据:
    • 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
    • 采用转包的方式,将任务包交给当地有资质的公司来收集数据。
    • 采用众包的方式,收集语音数据。
  • 自行采集数据。类似数据公司的操作方式,可以有如下方式:
    • 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
    • 采用众包的方式,收集语音数据。

难点在于:

  • 交付周期长。收集数据的操作,从提出诉求到最终收到数据,中间耗时良久,进度基本不可控。
  • 质量不可控。语音数据没有比较好的手段可以实现自动化检查,因此需要花费相当的人力来整理、清洗数据,剔除质量差或者不满足要求的数据。

测试集

可行的方法有:

  • 客户提供带有标注的测试集。
  • 客户提供测试集的获取方法,交付团队按照要求采集数据用于测试。
  • 客户提供测试集的标准,交付团队按照要求自行准备数据。

注意:测试集用于验证模型的有效性,为保证公平性和有效性,测试集中的数据,绝对不允许作为训练集来使用。

参考资料

标签:实战,ASR,要求,测试,训练,项目,语音,收集,数据
From: https://www.cnblogs.com/jackieathome/p/17935656.html

相关文章

  • 项目情景问答
    1.聊一下最近做的这个养老项目?这是个养老管理软件产品,涵盖来访管理、入退管理、在住管理、服务管理、财务管理等功能模块,涉及从来访参观到退住办理的完整流程。该项目分为两端:管理后台:养老院员工使用,入住、退住,给老人服务记录等等家属端:养老院的老人家属使用,查看老人......
  • ASR项目实战-构建Kaldi
    准备工作安装构建时依赖的基础软件软件清单如下:bzip2python3automakelibtoolcmakegccg++gfortrangitsubversion不同平台安装软件的方式不同,比如可以使用yum或者apt-get等。下载开源软件软件清单如下:LibunwindglogOpenFSTOpenBLASKaldi按照一定的规则,将下......
  • ASR项目实战-语音识别
    本文深入探讨语音识别处理环节。本阶段的重点特性为语音识别、VAD、热词、文本的时间偏移、讲话人的识别等。语音识别业界流派众多,比如Kaldi、端到端等,具体选择哪一种,需要综合考虑人员能力、训练数据量和质量、硬件设施、交付周期等,作出相对合理的交付规划。基于Kaldi的方案,优......
  • 华为云耀云服务器L实例-微人事前后端分离人力资源管理系统-项目本地配置
     华为云耀云服务器L实例-微人事前后端分离人力资源管理系统-项目本地配置   产品官网:https://www.huaweicloud.com/product/hecs-light.html 项目源代码地址:https://github.com/lenve/vhr  今天我们采用可靠更安全、智能不卡顿、价优随心用、上手更简单、管理......
  • 在 PyCharm 中创建 Flask 项目
    在PyCharm中创建Flask项目的步骤如下:https://blog.csdn.net/qq_41604569/article/details/1280633381.打开PyCharm,导航到主菜单,选择`File|NewProject`¹。2.在弹出的`NewProject`对话框中,左侧面板的`Projecttypes`列表中选择`Flask`¹。3.在`Location`中指......
  • 金蝶云苍穹技术开放日第十期精彩回顾|赋能开发者提升项目质量
    12月28日,以“开发之巅:项目质量提升之道”为主题的第十期技术开放日活动圆满结束。此次线上交流活动吸引了超过1700+开发者热情参与,来自金蝶云苍穹平台生态部的技术架构师——郑烈彬老师和金蝶中国用户体验部的产品经理——曹卫群老师分别带来了关于开发助手工具的深入解析和用户......
  • 在 PyCharm 中,"视图"通常指的是 IDE 的不同部分和面板,它们提供了不同的功能和信息¹。
    在PyCharm中,"视图"通常指的是IDE的不同部分和面板,它们提供了不同的功能和信息¹。以下是一些常见的PyCharm视图:1.**项目视图**:显示项目的文件和目录结构³。可以通过选择`View->ToolWindows->Project`来调出³。2.**运行视图**:显示程序运行的输出信息³。可以通过......
  • 金蝶云苍穹技术开放日第十期精彩回顾|赋能开发者·提升项目质量
    12月28日,以“开发之巅:项目质量提升之道”为主题的第十期技术开放日活动圆满结束。此次线上交流活动吸引了超过1700+开发者热情参与,来自金蝶云苍穹平台生态部的技术架构师——郑烈彬老师和金蝶中国用户体验部的产品经理——曹卫群老师分别带来了关于开发助手工具的深入解析和用......
  • react项目经验,以及一些骚写法
    语法糖1.constlogged=!!getToken();这里的`!!`是求布尔值的快捷方式类似的:2.vara=b*1是转数字的快捷方式3.vara=b+''是转字符串的快捷方式架构相关1.webpack2.qiankuan通过package.json可以查看react等等项目中的依赖的各种版本。学会使用chatgpt插件安......
  • `pip freeze` 是一个命令,它会列出所有已安装的Python库及其版本号。这个命令在Python
    pipfreeze是一个命令,它会列出所有已安装的Python库及其版本号。这个命令在Python的包管理器pip中使用,主要用于生成一个项目的依赖列表。这个列表可以用于在其他环境中重新创建相同的库设置,通常通过使用pipinstall-rrequirements.txt命令,其中requirements.txt是由pipfree......