首页 > 其他分享 >如何使用语音情感基座模型emotion2vec+

如何使用语音情感基座模型emotion2vec+

时间:2024-05-23 22:29:41浏览次数:19  
标签:训练 模型 基座 emotion2vec 情感 语音 数据

       emotion2vec 是一个由上海交通大学、阿里巴巴、复旦大学和香港中文大学的研究者们共同开发的通用语音情感表征模型。该模型通过自监督学习方法,在大量无标记的公开情感数据上进行预训练,以学习到高度通用的语音情感特征。模型旨在训练语音情感识别领域的“耳语”,通过数据驱动的方法克服语言和记录环境的影响,以实现通用、强大的情感识别能力。

     2024年5月,语音情感基座模型emotion2vec的新版本发布emotion2vec+。emotion2vec+ 的迭代过程最终是在 160,000 小时的语音情感数据中筛选出 40,000 小时的数据来训练 emotion2vec+ large 模型。emotion2vec+在 Hugging  Face的表现明显超过其他高下载开源机型,详图如下:

emotion2vec+包含以下三个版本:

  • emotion2vec+ seed:使用学术演讲情感数据进行微调
  • emotion2vec+ base:使用过滤的大规模伪标记数据进行微调,以获得基本大小模型(~90M)
  • emotion2vec+ large:使用过滤的大规模伪标记数据进行微调,以获得大尺寸模型(~300M)

1、技术框架

1.1 句子级别损失(Utterance-level Loss)

通过均方误差(MSE)计算整体全局情绪,能够捕捉到整个句子的情感信息。

包括单嵌入(Token Embedding)、块嵌入(Chunk Embedding)和全局嵌入(Global Embedding)三种方法,这些方法可以根据具体需求选择使用。

1.2 帧级别损失(Frame-level Loss)

设计为一个逐帧的预设任务,用于学习上下文中的情绪信息。在预训练过程中,结合帧级别损失来进一步细化情感表征,使模型能够更好地理解短时间内的情感变化。

1.3 在线蒸馏(Online Distillation)

一种自监督学习策略,适用于教师-学生(Teacher-Student)学习框架。采用在线蒸馏范式,即在预训练过程中不断地从大规模未标记的情感数据中提取特征,并通过在线蒸馏不断优化模型。这种在线蒸馏方法使得模型能够从师生两个网络中迭代学习,不断提升模型对情感特征的捕捉和理解能力

2、详细训练过程

2.1 数据准备

emotion2vec模型利用大量无标记的公开情感数据进行预训练。

使用四万小时的情感数据进行训练。

2.2 自监督学习方法

通过自监督在线蒸馏(self-supervised online distillation)进行预训练。

结合句子级损失和帧级损失,以更好地捕捉情感信息。

2.3 预训练策略

在预训练过程中,结合句子级损失和帧级损失,以提高模型对情感信息的捕捉能力。

通过这种策略,情感2vec能够在不同的任务、语言和场景中提取情感表征。

2.4 模型结构

emotion2vec模型通过仅训练线性层来实现高效的预训练,这使得其在多种任务中表现优异。

2.5 安装环境和用法

安装环境:pip install -U funasr modelscope。

input: 16k Hz 的语音

granularity:

"utterance": 提取整句语音特征

"frame": 提取帧级别特征(50 Hz)

extract_embedding: 是否提取特征

3、性能评价

AED(自动错误检测)测试中的UA(用户接受度)、WA(错误率)和F1(精确度-召回率比)是评估系统性能的关键指标。

用户接受度(UA):这是衡量系统正确拒绝不相关或错误输入的能力。在安全相关的应用中,如AED系统,高用户接受度意味着系统能够有效地识别并阻止潜在的恶意输入,从而保护系统免受攻击。例如,通过对抗性训练和音频去噪等方法可以显著提高分类器在遭受攻击时的性能,这些方法可以增加近五十个百分点的性能提升。

错误率(WA):这是衡量系统正确识别语音输入的比例。在AED测试中,错误率越低,表明系统的识别能力越强。

精确度-召回率比(F1分数):这是一个综合指标,用于衡量系统在特定任务上的整体表现。它结合了精确度和召回率两个方面,提供了一个平衡这两者的方式。在上述提到的非母语阿拉伯语的发音错误检测和诊断研究中,最佳模型在识别任务中达到了3.83%的错误率,并且在MDD任务中获得了70.53%的F1分数。

4、相关资源

下载链接:

GitHub - ddlBoJack/emotion2vec: Official PyTorch code for extracting features and training downstream models with emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation

emotion2vec在线体验:

魔搭社区

标签:训练,模型,基座,emotion2vec,情感,语音,数据
From: https://blog.csdn.net/robinfang2019/article/details/139090763

相关文章

  • Java实现抓取在线视频并提取视频语音为文本
     最近在做大模型相关的项目,其中有个模块需要提取在线视频语音为文本并输出给用户。作为一个纯后端Jave工程师,搞这个确实是初次尝试。二、调研基于上述功能模块,主要有三大任务:1、提取网页中的视频2、视频转语音3、语音转文本。首先是第一项:尝试了jsoup,webmagic等工......
  • js纯前端实现语音播报,朗读功能
    实现语音播报要有两个原生API分别是【window.speechSynthesis】【SpeechSynthesisUtterance】项目代码//执行函数letvoices,timerVoicestimerVoices=setInterval(()=>{voices=window.speechSynthesis.getVoices()if(voices.length){clearInter......
  • OpenVoiceV2本地部署教程,苹果MacOs部署流程,声音响度统一,文字转语音,TTS
    最近OpenVoice项目更新了V2版本,新的模型对于中文推理更加友好,音色也得到了一定的提升,本次分享一下如何在苹果的MacOs系统中本地部署OpenVoice的V2版本。首先下载OpenVoiceV2的压缩包:OpenVoiceV2-for-mac代码和模型https://pan.quark.cn/s/33dc06b46699该版本针对MacOs系统做......
  • 【语音识别】搭建本地的语音转文字系统:FunASR(离线不联网即可使用)
    参考自:参考配置:FunASR/runtime/docs/SDK_advanced_guide_offline_zh.mdatmain·alibaba-damo-academy/FunASR(github.com)参考配置:FunASR/runtime/quick_start_zh.mdat861147c7308b91068ffa02724fdf74ee623a909e·alibaba-damo-academy/FunASR(github.com)参考运行......
  • TSINGSEE青犀视频边缘计算AI智能分析网关V4告警消息语音推送的配置流程
    TSINGSEE青犀视频边缘计算硬件智能分析网关V4内置了近40种AI算法模型,支持对接入的视频图像进行人、车、物、行为等实时检测分析,上报识别结果,并能进行语音告警播放。今天我们来分享一下如何配置和使用AI智能分析网关V4的语音推送。提前准备:以企业认证在腾讯云注册一个账号腾讯云......
  • aws语音呼叫调用,告警电话
      importrequestsdata={'channel':'99x','called_number':'135xxx','tts_code':'TTS_xx','tts_param':{'msg':'【温馨提示】:你好,我叫马昌伟,你是谁'},&#......
  • 语音信号处理中的“窗函数”
    文章代码仓库:https://github.com/LXP-Never/window_fun窗函数贯穿整个语音信号处理,语音信号是一个非平稳的时变信号,但“**短时间内可以认为语音信号是平稳时不变的,一般10~30ms**。对连续的语音分帧做STFT处理,等价于截取一段时间信号,对其进行周期性延拓,从而变成无限长序列,并对......
  • 文本到语音(tts)
    WebSpeechAPI使你能够将语音数据合并到Web应用程序中。WebSpeechAPI有两个部分:SpeechSynthesis语音合成(文本到语音TTS)和SpeechRecognition语音识别(异步语音识别)SpeechSynthesis:语音服务的控制器接口,获取设备上关于可用的合成声音的信息,开始、暂停语音,或除此之外......
  • uniapp+vue3聊天室|uni-app+vite4+uv-ui跨端仿微信app聊天语音/朋友圈
    原创研发uniapp+vue3+pinia2跨三端仿微信app聊天模板Uniapp-Wechat。uni-vue3-wchat基于uni-app+vue3+pinia2+uni-ui+uv-ui等技术跨端仿制微信App界面聊天项目,支持编译到H5+小程序端+App端。实现编辑框多行消息/emoj混合、长按触摸式仿微信语音面板、图片/视频预览、红包/朋友圈......
  • C语音数据类型
    1、基本数据类型 整数类型 浮点类型 字符类型 ......