首页 > 其他分享 >离线语音识别与语音转写初探

离线语音识别与语音转写初探

时间:2022-12-15 22:35:55浏览次数:72  
标签:识别 自定义 离线 听录 语音 文本 转写


这里写自定义目录标题

  • ​​语音离线SDK​​
  • ​​科大讯飞​​
  • ​​测试结果​​
  • ​​百度云​​
  • ​​录音环境要求​​
  • ​​吵杂的环境​​
  • ​​阿里云​​
  • ​​腾讯云​​
  • ​​有道云​​
  • ​​谷歌​​
  • ​​微软​​
  • ​​国外版本​​
  • ​​语音转文本​​
  • ​​文本转语音​​
  • ​​语音助手​​
  • ​​关键字识别​​
  • ​​对话听录​​
  • ​​C++/Windows 和 Linux​​
  • ​​C++/Windows​​
  • ​​呼叫中心听录​​
  • ​​编解码器压缩的音频输入​​
  • ​​批量听录​​
  • ​​自定义​​
  • ​​自定义语音转文本​​
  • ​​自定义文本转语音​​

语音离线SDK

能够不联网,或者在初始化过程中仅链接一次网络实现离线资源的调用,翻译准确率,功能集成难易程度,自定义词库功能

科大讯飞

测试结果

  • 离线语音识别
    通过阅读开发文档与下载识别程序运行,发现离线语音识别在数字转换上面,按照说明上面的设置无法实现数字设别倾向于小写:
// 0 -> 倾向大写数字   1 -> 倾向阿拉伯数字
mIat.setParameter("nunum","1");
  • 离线语音合成
    离线语音合成能够在离线状态下较好的运行,可以通过设置自定义文本和语音转换为特定语音输出
  • 离线命令词识别
    按照官方提供的语法规则设置语音命令,例如打电话给xx这种
  • 离线唤醒
    通过设置唤醒词:“小x小x”,“你好小x”能够唤起程序,并且支持命令词唤醒

​百度云​

离线语音识别与语音转写初探_自定义_04

  • 语音识别:只有在线版的语音识别功能,不提供离线版本
  • 命令词识别:离线命令识别,通过设置的命令词识别(首次必须联网)
  • 离线唤醒:通过命令词唤醒,同时支持唤醒后执行命令
  • ​SDK下载​
  • 离线语音识别与语音转写初探_自定义_05

​支持语音自训练,训练自己的语音集​

离线语音识别与语音转写初探_人工智能_06

录音环境要求

百度短语音识别(含唤醒)要求安静的环境,真人的正常语速的日常用语,并且不能多个人同时发音。

以下场景讲会导致识别或者唤醒效果变差,错误,甚至没有结果:

吵杂的环境
  1. 有背景音乐,包括扬声器在播放百度合成的语音。
  2. 离麦克风较远的场景应该选择远场语音识别。
  3. 以下场景的录音可能没有正确的识别结果:

音频里有技术专业名称或者用语 (技术专业名称请到自训练平台改善)
4. 音频里是某个专业领域的对话,非日常用语。比如专业会议,动画片等
5. 百度识别和合成sdk相互独立,没有类似“相互抵消“的功能。 建议先收集一定数量的真实环境测试集,按照测试集评估及反馈。

​阿里云​

  • 支持私有部署
  • 待研究

腾讯云

​腾讯语音识别​

安卓SDK语音识别仅提供在线语音识别

  • 待研究

​有道云​

离线语音识别与语音转写初探_人工智能_07

  • 提供资源包,按照一定量的资源调用次数收费
  • 无语音唤醒

​谷歌​

  • Android 在线语音识别

​微软​

国外版本

语音转文本

语音转文本(也称为“语音识别”)可将音频流听录为应用程序、工具或设备可以使用或显示的文本。 结合语言理解 (LUIS) 使用语音转文本可以从听录的语音中派生用户意向,以及处理语音命令。 使用语音翻译通过单个调用将语音输入翻译为另一种语言。 有关详细信息,请参阅语音转文本基础知识。

可在以下平台上使用语音识别 (SR)、短语列表、意向、翻译和本地容器:

  • C++/Windows 和 Linux 和 macOS
  • C#(Framework 和 .NET Core)/Windows 和 UWP 和 Unity 和 Xamarin 和 Linux 和 macOS
  • Java(Jre 和 Android)
  • JavaScript(浏览器和 NodeJS)
  • Python
  • Swift
  • Objective-C
  • Go(仅 SR)
文本转语音

文本转语音(也称为“语音合成”)将文本转换为类似人类语言的合成语音。 输入文本是字符串文字或使用语音合成标记语言 (SSML)。 有关标准语音或神经语音的详细信息,请参阅文本转语音语言和语音支持。

可在以下平台上使用文本转语音 (TTS):

  • C++/Windows 和 Linux
  • C#/Windows 和 UWP 和 Unity
  • Java(Jre 和 Android)
  • Python
  • Swift
  • Objective-C
    TTS REST API 可以在所有其他情况下使用。
语音助手

语音助理使用语音 SDK,让你可为你的应用程序和体验创建自然的、类似于人类的对话界面。 语音 SDK 提供快速、可靠的交互,其中包括单一连接上的语音转文本、文本转语音和对话数据。 你的实现可以使用 Bot Framework 的 Direct Line Speech 通道或集成的“自定义命令”服务来完成任务。 此外,语音助理可以使用在“自定义语音”门户中创建的自定义语音来添加独特的语音输出体验。

以下平台上提供了“语音助理”支持:

  • C++/Windows 和 Linux 和 macOS
  • C#/Windows
  • Java/Windows 和 Linux 和 macOS 和 Android(语音设备 SDK)
  • Go
关键字识别

语音 SDK 支持关键字识别的概念。 “关键字识别”是在语音中识别关键字的操作,后跟一个在听到该关键字时执行的操作。 例如,“你好,Cortana”会激活 Cortana 助理。

“关键字识别”在以下平台上可用:

  • C++/Windows 和 Linux
  • C#/Windows 和 Linux
  • Python/Windows 和 Linux
  • Java/Windows 和 Linux 和 Android(语音设备 SDK)
    关键字识别功能可能适用于任何麦克风类型,不过,官方关键字识别支持目前仅限于 Azure Kinect DK 硬件或语音设备 SDK 中的麦克风阵列
    会议场景
    无论是在单设备对话中还是在多设备对话中,语音 SDK 都非常适用于“会议听录”场景。
对话听录

对话听录实现了实时(和异步)语音识别、说话人识别,并可以将句子归属到每个扬声器(也称为 分割聚类)。 它非常适合用于听录能够区分说话人的面对面会谈场景。

对话听录 在以下平台上可用:

C++/Windows 和 Linux

C#(Framework 和 .NET Core)/Windows 和 UWP 和 Linux
Java/Windows 和 Linux 和 Android(语音设备 SDK)
多设备对话
借助多设备对话,可在一个对话中连接多个设备或客户端以发送基于语音或文本的消息,并轻松支持听录和翻译。

多设备对话 在以下平台上可用:

C++/Windows

C#(Framework 和 .NET Core)/Windows
自定义/代理场景
语音 SDK 可用于“呼叫中心听录”场景,其中会生成电话服务数据。

呼叫中心听录

呼叫中心听录是语音转文本的一个常见应用场景,用于听录可能来自各种系统(例如交互式语音应答 (IVR))的大量电话服务数据。 语音服务的最新语音识别模型非常擅长听录这些电话数据,即使是人类也难以识别的数据。

呼叫中心听录 通过批量语音服务(经由其 REST API)提供,可以在任何情况下使用。

编解码器压缩的音频输入

一些语音 SDK 编程语言支持编解码器压缩的音频输入流。 有关详细信息,请参阅使用压缩的音频输入格式 。

可在以下平台上使用编解码器压缩的音频输入:

  • C++/Linux
  • C#/Linux
  • Java/Linux、Android 和 iOS
  • REST API
    虽然语音 SDK 涵盖了语音服务的许多功能,但对于某些方案,你可能需要使用 REST API。
批量听录

使用批量听录能够以异步方式对大量的数据进行语音转文本听录。 只能通过 REST API 使用批量听录。 除了将语音音频转换为文本,批量语音转文本还允许进行分割聚类和情感分析。

自定义

语音服务在语音转文本、文本转语音和语音翻译方面提供了强大的功能和默认模型。 有时,你可能希望提高基线性能,以便更好地处理你的独特用例。 语音服务有各种各样的无代码自定义工具,这些工具使上述事项变得简单,并使你能够使用基于你自己的数据的自定义模型获得竞争优势。 这些模型将仅供你和你的组织使用。

自定义语音转文本

使用语音转文本在独特的环境中进行识别和听录时,可以创建并训练自定义的声学、语言和发音模型,以解决环境干扰或行业特定的词汇的问题。 可通过自定义语音识别门户来创建和管理无代码自定义语音识别模型。 自定义语音识别模型在发布后可以由语音 SDK 使用。

自定义文本转语音

自定义文本转语音(也称为“自定义语音”)是一组在线工具,用于为你的品牌创建可识别的独一无二的语音。 可通过“自定义语音”门户来创建和管理无代码“自定义语音”模型。 “自定义语音”模型在发布后可以由语音 SDK 使用。

国内版本缺少语音助手,关键字识别等


标签:识别,自定义,离线,听录,语音,文本,转写
From: https://blog.51cto.com/u_15914240/5946538

相关文章

  • 第21章: Ansible自动化部署K8S-v1.20集群(离线版)
    1.1Ansible介绍Ansible是一种IT自动化工具。它可以配置系统,部署软件以及协调更高级的IT任务,例如持续部署,滚动更新。Ansible适用于管理企业IT基础设施,从具有少数主机的小规......
  • 离线安装mysql5.7【教程二】
    openjdk1.8文件下载链接地址:链接:https://pan.baidu.com/s/1fLt_dNILuw5VsV_PcA_yAQ提取码:ot3emysql5.7安装包下载链接地址:链接:https://pan.baidu.com/s/1du7Dk7WtJ0Ac......
  • 离线计算(Batch批处理)
    基础:google的三大论文——论文GFS、MapReduce、BigTable(kv存储)基于上述论文,开发了产品Hadoop:包含存储(HDFS)+计算(mapreduce)两部分HDFS架构https://www.w3cschool.c......
  • 私有harbor镜像仓库离线安装
    Harbor仓库在做此操作前必须保证有docker-compose1.安装compose[root@server1~]#curl-Lhttps://github.com/docker/compose/releases/download/1.22.0/docker-comp......
  • 【java开发】快速搭建java开发环境(离线开发、在线开发)
    文章目录​​1、简介​​​​2、下载和安装jdk​​​​2.2下载jdk​​​​2.2配置环境变量​​​​2.3常见命令​​​​3、jdk开发​​​​3.1测试代码(helloworld)​​......
  • 推荐一款 在线+离线数据 同步框架 Dotmim.Sync
    移动智能应用可以分为在线模式、纯离线模式与“在线+离线”混合模式。在线模式下系统数据一般存储在服务器端的大中型数据库(如SQLServer、Oracle、MySQL等),移动应用依赖......
  • 科大讯飞语音合成
    一、写在前面的话    讯飞为我们提供了一个很好地平台,语音的相关技术是​​人工智能​​的一项重要组成部分。了解与掌握语音的合成技术更是掌握了一项技能,当然本文......
  • 多领域中文语音识别数据集 WenetSpeech 正式发布——有效下载教程
    声明:作为全网AI领域干货最多的博主之一,❤️不负光阴不负卿❤️❤️​​专栏:AI领域数据资源整理​​❤️之【有效拒绝假数据】​​????Followme????​​,一起Get更多......
  • 离线安装VisualStudio2022
    下载bootstrapperhttps://learn.microsoft.com/en-us/visualstudio/install/create-an-offline-installation-of-visual-studio?view=vs-2022#step-1---download-the-visu......
  • Python实战案例,tkinter+random模块,实现课堂随机抽选提问并语音播报学生姓名
    先看运行结果前言今天给大家介绍Python实现课堂随机抽选提问并语音播报学生姓名实战案例,废话不多说直接开整~开发工具Python版本:3.8相关模块:tkinter模块time模块......