首页 > 其他分享 >多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程

多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程

时间:2022-12-11 12:35:46浏览次数:68  
标签:教程 AI WenetSpeech 语音 识别 数据 下载

  • 声明: 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️

多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程_数据集

❤️​​专栏:AI 领域数据资源整理​​❤️ 之【有效拒绝假数据】

​​ ???? Follow me ????​​,一起 Get 更多有趣 AI、冲冲冲 ???? ????


???? 数据集介绍


多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程_数据_02

???? 基础信息

西北工业大学音频语音和语言处理研究组(ASLP Lab)、出门问问、希尔贝壳联合发布1万小时多领域中文语音识别数据集 WenetSpeech

  • ​​对应论文 :https://arxiv.org/pdf/2110.03370.pdf​​
  • ​​官方主页:https://wenet-e2e.github.io/WenetSpeech/​​
  • 该部分介绍主要参考该文: ​​https://mp.weixin.qq.com/s/lR22WmI5G2mPSuloZUcWVA​
  • 追求排版体验的同学,可自行复制跳转原文【上面链接】进行查阅

多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程_github_03

???? WenetSpeech 简介

  WenetSpeech 除了含有 10000+ 小时的高质量标注数据之外,还包括2400+ 小时弱标注数据和 22400+ 小时的总音频,覆盖各种互联网音视频、噪声背景条件、讲话方式,来源领域包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等10大场景,领域详细统计数据如下图所示。

多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程_人工智能_04

???? WenetSpeech 收集过程

多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程_人工智能_05

  下图中给出该 OCR 系统在不同场景下的几个典型示例。图中绿色的框为检测到的所有文字区域,红色的框为判定为字幕的文字区域,红色框上方的文本为 OCR 的识别结果。 可以看到,该系统正确的判定了字幕区域,并准确的识别了字幕文本,同时经过我们测试,发现该系统也可以准确判定字幕的起始和结束时间。

多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程_人工智能_06

???? 数据校验

  WenetSpeech 中选取置信度>=95%的数据作为高质量标注数据,选取置信度在0.6和0.95之间的数据作为弱监督数据。

多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程_数据_07

???? 经典算法对比

多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程_人工智能_08


???? 下载正确打开方式


该下载方式记录时间:【2021-10-22记录】

???? 下载主页

多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程_人工智能_09


???? 填写邮箱信息

多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程_github_10

???? 提交成功界面如下

多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程_数据集_11

???? 很快邮箱收到下载方式说明

让准备,500G 磁盘空间

多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程_数据_12

多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程_github_13

???? 开始下载

多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程_github_14

根据网速情况,下载大致需要 大半天吧

  • ​du -sh​​ 数据集压缩包大小:309G
  • ​tree -L 3​​ 查看数据集结构如下

多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程_github_15


???? 致敬大佬


WenetSpeech 是目前最大的开源普通话语音语料库,适用于产业级语音识别的研究

全人类的人工智能事业大概就是这样一步一步向前推动的吧

多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程_github_16

多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程_数据_17

语音数据集总结博文如下

  • ???? ​​语音数据集下载地址汇总| 免费的汉语说话人识别语料库 | Common Voice 数据集 | 下载总结​​

墨理学AI


  • ???? 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️
  • ❤️ 如果文章对你有帮助、点赞、评论鼓励博主的每一分认真创作

多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程_数据集_18

标签:教程,AI,WenetSpeech,语音,识别,数据,下载
From: https://blog.51cto.com/u_15660370/5928210

相关文章