首页 > 其他分享 >纯前端实现语音文字互转

纯前端实现语音文字互转

时间:2024-09-14 22:19:55浏览次数:3  
标签:前端 API Speech SpeechRecognition 语音 互转 识别 recognition

        在现代互联网的发展中,语音技术正逐渐成为改变用户体验的重要一环。Web Speech API 的引入使得开发者能够在浏览器中轻松实现语音识别和语音合成功能,为用户带来更加直观和便捷的操作体验。本文将介绍 Web Speech API 的基本概念、功能特性以及如何利用它来构建创新的应用程序。

什么是 Web Speech API?

        Web Speech API 是一组浏览器 API,允许开发者在 Web 应用程序中集成语音识别和语音合成功能。这些 API 的引入标志着浏览器开始支持本地端的语音交互能力,不仅改善了用户体验,还为开发者提供了更多创新的可能性。

主要组成部分

Web Speech API 包括两个核心部分:

SpeechRecognition(语音识别)

  • 允许用户通过麦克风输入语音,然后将其转换为文本。

  • 可以检测语音的开始和结束,以便进行适当的处理和响应。

  • 提供了各种配置选项,如语言识别设置、连续识别等,以满足不同应用场景的需求。

SpeechSynthesis(语音合成)

  • 允许开发者将文本转换为语音输出。

  • 支持多种语音合成引擎和语音效果,可以根据需求选择合适的语音风格和语言。

  • 提供了控制音调、语速等参数的接口,以实现个性化的语音输出效果。

优势

  • 多语言支持: Web Speech API 支持多种语言,可0以通过设置 recognition.langutterance.lang 来切换不同的语言环境。例如,识别法语、西班牙语等。

  • 语音指令的识别: 不仅仅是简单的文本转换,可以实现对特定命令或短语的识别,如控制网页的导航、播放媒体等。这需要在识别的事件处理程序中进行语音指令的解析和响应。

  • 连续语音识别: 设置 recognition.continuous = true,使得语音识别能够持续监听用户的语音输入,而不是单次识别。

  • 实时反馈和动态调整: 根据识别的实时结果,可以实现实时反馈或动态调整应用程序的行为。例如,在用户说话时动态更新界面或提供即时建议。

如何使用 Web Speech API?

实现语音识别

        属性

  • recognition.grammars 用于存储一组语法规则,可以通过 addFromString 方法添加语法规则。

  • recognition.lang 设置或获取语音识别的语言

  • recognition.interimResults 如果设置为 true,则在识别过程中会提供临时结果。如果为 false,则只提供最终结果

  • recognition.maxAlternatives 设置语音识别返回的替代结果的最大数量。默认值为 1,表示只返回最可能的结果

  • recognition.continuous 如果设置为 true,则识别会持续运行直到显式停止。如果为 false,识别会在单次语音输入后自动停止

  • recognition.onresult 当识别结果可用时触发的事件处理程序。事件对象的 results 属性包含识别结果

  • recognition.onaudiostart 当开始录制音频时触发的事件处理程序

  • recognition.onsoundstart 当检测到声音时触发的事件处理程序

  • recognition.onspeechstart 当检测到用户开始说话时触发的事件处理程序

  • recognition.onspeechend 当用户停止说话时触发的事件处理程序

  • recognition.onaudioend 当音频录制停止时触发的事件处理程序

  • recognition.onend 当语音识别结束时触发的事件处理程序

  • recognition.onerror 当语音识别发生错误时触发的事件处理程序。事件对象的 error 属性包含错误信息

  • recognition.onnomatch 当语音识别没有匹配到任何结果时触发的事件处理程序

  • recognition.onsoundend 当检测到的声音停止时触发的事件处理程序

        事件

  • start() 启动语音识别

  • stop() 停止语音识别

  • abort() 终止语音识别,并且不会触发onend事件

        通过以下简单的 JavaScript 代码片段,可以实现基本的语音识别功能:

const recognition = new webkitSpeechRecognition(); // 创建语音识别对象
recognition.lang = 'en-US'; // 设置识别语言为英语
recognition.onresult = function(event) {
  const transcript = event.results[0][0].transcript; // 获取识别结果文本
  console.log('识别结果:', transcript);
};
recognition.start(); // 开始识别

实现语音合成

        属性

  • SpeechSynthesisUtterance.lang 获取并设置说话的语言

  • SpeechSynthesisUtterance.pitch 获取并设置说话的音调(值越大越尖锐,越小越低沉)

  • SpeechSynthesisUtterance.rate 获取并设置说话的速度(值越大越快)

  • SpeechSynthesisUtterance.text 获取并设置说话的文本

  • SpeechSynthesisUtterance.voice 获取并设置说话时的声音

  • SpeechSynthesisUtterance.volume 获取并设置说话的音量

        事件

  • speak() 将对应的实例添加到语音队列中

  • cancel() 删除队列中所有的语音,如果正在播放,则直接停止

  • pause() 暂停语音

  • resume() 恢复暂停的语音

  • getVoices 获取支持的语言数组

           使用 SpeechSynthesis API 实现文本转语音的功能,示例代码如下:

const utterance = new SpeechSynthesisUtterance('Hello, welcome to our website.');
utterance.lang = 'en-US'; // 设置语音合成的语言
window.speechSynthesis.speak(utterance); // 开始语音合成

SpeechGrammar

什么是 SpeechGrammar

   SpeechGrammar 对象用于指定一个语法规则,这些规则可以帮助语音识别引擎识别特定的语音输入。它常与 SpeechRecognition 对象结合使用。语法规则可以是简单的文本,也可以是复杂的正则表达式或者语法定义。

如何使用 SpeechGrammar

        要使用 SpeechGrammar,你需要创建一个 SpeechRecognition 对象,并为其添加一个或多个 SpeechGrammar 对象。以下是一个示例:

<!DOCTYPE html>
<html lang="en">
<head>
  <meta charset="UTF-8">
  <meta name="viewport" content="width=device-width, initial-scale=1.0">
  <title>Speech Grammar Example</title>
</head>
<body>
  <button id="startButton">Start Speech Recognition</button>
  <div id="output"></div>

  <script>
   // 确保浏览器支持 SpeechRecognition
const SpeechRecognition = window.SpeechRecognition || window.webkitSpeechRecognition;

if (!SpeechRecognition) {
  console.error("SpeechRecognition not supported");
} else {
  // 创建 SpeechRecognition 实例
  const recognition = new SpeechRecognition();

  // 定义语法规则
  const grammar = '#JSGF V1.0; grammar colors; public <color> = red | green | blue | yellow ;';

  // 创建 webkitSpeechGrammarList 实例
  const speechGrammarList = new webkitSpeechGrammarList();
  speechGrammarList.addFromString(grammar, 1);  // 1 是语法的优先级

  // 将语法列表应用到 SpeechRecognition 实例
  recognition.grammars = speechGrammarList;

  // 配置识别选项
  recognition.lang = 'en-US';  // 设置语言
  recognition.interimResults = false;  // 只返回最终结果
  recognition.maxAlternatives = 1;  // 只返回一个替代结果

  // 开始识别
  recognition.start();

  recognition.onresult = (event) => {
    const result = event.results[0][0].transcript;
    console.log('识别结果:', result);
  };

  recognition.onerror = (event) => {
    console.error('识别错误:', event.error);
  };
}

  </script>
</body>
</html>

        通过合理使用 SpeechGrammarSpeechRecognition,你可以创建更精确的语音识别应用,提升用户体验。

实际应用场景包括但不限于:

  • 智能助手和语音搜索: 实现类似于 Siri、Google Assistant 等智能助手的语音控制和信息获取功能。

  • 无障碍和辅助技术: 支持视觉障碍用户的语音导航、文本转语音等辅助功能。

  • 教育和培训: 提供基于语音的学习和培训工具,如语音答题、学习笔记转录等。

  • 娱乐和游戏: 实现语音驱动的游戏操作和交互体验,如语音控制角色移动、发声识别等。

总结

        Web Speech API 的推出不仅仅是技术进步的体现,更是对互联网应用程序用户体验提升的重大贡献。通过使用这些功能强大的 API,开发者可以为他们的应用程序添加创新的语音交互功能,从而吸引更多用户并提升用户满意度。无论是构建下一代互动游戏、个性化的助手应用,还是革新教育和商业应用,Web Speech API 都将为您的创意提供强大的支持。

探索和利用 Web Speech API,让我们共同打造一个更智能、更直观的互联网世界!

标签:前端,API,Speech,SpeechRecognition,语音,互转,识别,recognition
From: https://blog.csdn.net/qq_35159705/article/details/142265005

相关文章

  • 前端网络请求库:Axios
    目录1.网络请求的基本概念1.1网络请求的基础HTTP协议1.2HTTP工作原理1.3TCP连接1.31建立TCP连接1.31关闭TCP连接1.4HTTP的请求方法1.5HTTP的响应状态码分类1.6.前端网络请求方式2.Axios在在vue项目中的使用 2.1安装与使用2.2Axios使用HTTP请求方法2.2......
  • 树莓派智能语音助手实现音乐播放
    树莓派语音助手从诞生的第一天开始,我就想着让它能像小爱音箱一样,可以语音控制播放音乐。经过这些日子的倒腾,今天终于实现了。接下里,和大家分享下我的实现方法:首先音乐播放模块用的是我在上一篇博文写的《用sounddevice实现连续的音乐曲库播放》,然后语义解析部分依旧用的是RAS......
  • 高级java每日一道面试题-2024年9月08日-前端篇-JS的执行顺序是什么样的?
    如果有遗漏,评论区告诉我进行补充面试官:JS的执行顺序是什么样的?我回答:JavaScript的执行顺序是由其特殊的执行环境所决定的。JS的执行环境包括全局执行环境、函数执行环境和eval执行环境。在这些环境中,变量和函数声明会被提升(hoisting),而变量赋值和函数调用则按照......
  • 前端必须掌握的五种排序算法,你会几种?
    文章目录前言1.冒泡排序(BubbleSort)2.选择排序(SelectionSort)3.插入排序(InsertionSort)4.快速排序(QuickSort)5.归并排序(MergeSort)前言在前端开发中,对数据进行排序是一项基本且常见的任务。掌握排序算法不仅可以帮助我们更有效地处理数据,还能提升代码的执行效......
  • 【工具】前端JavaScript代码在线执行器 方便通过网页 手机测试js代码
    【工具】前端JavaScript代码在线执行器方便通过网页手机测试js代码自动补全js代码格式化代码色彩打印日志清空日志待补充<!DOCTYPEhtml><htmllang="zh-CN"><head><metacharset="UTF-8"><metaname="viewport"content="width=device-width,ini......
  • 【前端UI框架】VUE ElementUI 离线文档 可不联网打开
    【前端UI框架】VUEElementUI离线文档可不联网打开Element-Theworld'smostpopularVueUIframeworkElement-Theworld'smostpopularVueUIframework离线文档下载地址文档制作第一步:克隆源代码Gitee地址:https://gitee.com/ElemeFE/element.gitGitHub地址:https:......
  • 【组件】WEB前端-富文本编辑器组件推荐 在线编辑器 Word
    【组件】WEB前端-富文本编辑器组件推荐在线编辑器Wordcanvas-editor基于canvas/svg的富文本编辑器canvas-editor|richtexteditorbycanvas/svgrichtexteditorbycanvas/svghttps://hufe.club/canvas-editor-docs/canvas-editor基于canvas/svg的富文本编辑器开始在GitHub......
  • 前端项目通过 Nginx 发布至 Linux,并通过 rewrite 配置访问后端接口
    〇、前言本文通过将arco框架的前端项目,部署至CentOS7,并访问同服务器的WebAPI接口,来简单演示一下,如何将前端项目发布至Linux系统。关于ASP.NETWebAPI发布至Linux的步骤,可以参考博主过往文章:https://www.cnblogs.com/hnzhengfy/p/18384107/webapi_centos。一、简......
  • 前端表单验证的常见问题与解决方案
    常见问题输入格式不正确用户输入不符合预期的格式,如邮箱地址、电话号码、日期等。必填项未填写用户遗漏了必填项,导致提交无效。字符长度限制输入内容超出或少于指定的字符长度限制。特殊字符限制用户输入了不允许的特殊字符,如在密码中使用了不允许的符号。前后端验证不一致前端验证......
  • 智能语音电销机器人的应用前景
    智能语音电销机器人是一款自动外呼软件,它可以自动拨打电话,在系统中导入手机号码,上传专业话术语音,导入客户名单后就可以自动拨打电话。客户接通后,系统会按照设定好的话术逻辑与客户进行沟通,筛选出意向客户,绑定微信后,会直接将意向客户直接推送到微信上。咨询嘉单科技yyzkd8使用......