首页 > 其他分享 >【大模型论文】Seed-ASR:基于llm的语音识别理解不同的语音和上下文

【大模型论文】Seed-ASR:基于llm的语音识别理解不同的语音和上下文

时间:2024-09-03 17:56:13浏览次数:15  
标签:ASR 训练 模型 Seed 语音 上下文 SFT


研究背景

1.研究问题:这篇文章要解决的问题是如何在现代自动语音识别(ASR)模型中,利用大规模语言模型(LLM)来提高识别准确性,特别是在多领域、多语言、多口音和多种应用场景下。

2.研究难点:该问题的研究难点包括:现有端到端模型在数据匹配场景下表现良好,但在处理复杂语境和多语言场景时逐渐接近瓶颈;如何有效地将LLM的能力应用于ASR任务中,特别是在不需要额外语言模型的情况下。

3.相关工作:该问题的研究相关工作包括经典的端到端模型和最近发布的大型ASR模型,这些模型在数据匹配场景下表现优异,但在处理复杂语境和多语言场景时存在局限性。

【大模型论文】Seed-ASR:基于llm的语音识别理解不同的语音和上下文_ai

研究方法

这篇论文提出了Seed-ASR,一种基于音频条件LLM(AcLLM)的大规模ASR模型。具体来说,

1.音频编码器预训练:首先,使用一个具有近20亿参数的音频编码器(LUISE)进行大规模自监督学习(SSL)。LUISE采用基于BERT的掩码语言预测方法,通过迭代固定分词器方法获取每个帧的离散标签。

【大模型论文】Seed-ASR:基于llm的语音识别理解不同的语音和上下文_语音识别_02

2.监督微调(SFT):然后,使用训练好的LUISE音频编码器和数十亿参数的MoE LLM进行SFT。通过在大量语音-文本对数据上进行训练,建立语音和文本之间的映射关系。

3.上下文感知微调(Context SFT):为了增强模型在复杂语境下的识别能力,引入上下文感知训练和联合束搜索(Joint Beam Search)。上下文感知训练通过生成与转录文本相关的自然语言上下文,并使用这些上下文和语音表示进行训练。联合束搜索则通过平衡语音信息和上下文信息的重要性,减少解码过程中的幻觉问题。

【大模型论文】Seed-ASR:基于llm的语音识别理解不同的语音和上下文_语言模型_03

4.强化学习(RL):最后,引入基于ASR指标的奖励函数,特别是加权词错误率(WWER),作为RL阶段的训练目标。通过构建高质量的训练数据,进一步优化模型参数。

公式解释:

·联合束搜索公式:

【大模型论文】Seed-ASR:基于llm的语音识别理解不同的语音和上下文_自然语言处理_04

其中,P(y∣x,c)表示考虑上下文信息的得分,P(y∣x)表示不考虑上下文信息的得分,α是超参数,用于平衡两者的重要性。

·加权词错误率公式:

【大模型论文】Seed-ASR:基于llm的语音识别理解不同的语音和上下文_语言模型_05

其中,W(y∗,yi)表示词错误率或加权词错误率,Wˉ表示N-best假设的平均词错误率,λ是插值系数,P^(yi∣x)表示假设的归一化似然概率。

实验设计

1.数据收集:训练数据包括超过2000万小时的语音数据和近90万小时的配对ASR数据。对于中文多方言模型Seed-ASR(CN),还包括约5.6百万小时的普通话和13种中国方言数据;对于多语言模型Seed-ASR(ML),还包括约6.4百万小时的英语数据和超过20种其他语言的数据。

【大模型论文】Seed-ASR:基于llm的语音识别理解不同的语音和上下文_自然语言处理_06

【大模型论文】Seed-ASR:基于llm的语音识别理解不同的语音和上下文_语音识别_07

2.实验设计:Seed-ASR的训练过程包括四个阶段:自监督学习(SSL)、监督微调(SFT)、上下文感知微调(Context SFT)和强化学习(RL)。每个阶段都有不同的作用,确保Seed-ASR的逐阶段性能提升。

【大模型论文】Seed-ASR:基于llm的语音识别理解不同的语音和上下文_ai_08

3.样本选择:在上下文感知训练阶段,使用内部LLM生成与转录文本相关的自然语言上下文,并构建三元组数据集进行训练。

4.参数配置:在SSL阶段,使用LUISE音频编码器进行大规模自监督学习;在SFT阶段,使用MoE LLM进行模型初始化;在Context SFT阶段,使用联合束搜索进行解码;在RL阶段,使用MWER作为奖励函数进行优化。

结果与分析

1.公共测试集评估:在多个中文ASR基准测试集上,Seed-ASR(CN)表现出显著的性能优势,平均词错误率(WER)比其他发布模型低24%-40%。

2.多领域和视频集评估:在多领域评估集上,Seed-ASR(CN)的WER相对降低了47%,在视频评估集上的WER也显著降低。

3.多方言和口音集评估:在13种中国方言和11种中国口音的评估集上,Seed-ASR(CN)的平均WER分别降低了11.4%和21%。

4.对话上下文集评估:在对话上下文集上,Seed-ASR(CN)的关键词召回率比不使用上下文的模型提高了15%以上。

5.主观评估:在主观评估中,Seed-ASR(CN)在语音搜索和语音助手的应用场景中与人类转录者的识别准确率相当,在直播、视频和会议的应用场景中表现优于人类转录者。

【大模型论文】Seed-ASR:基于llm的语音识别理解不同的语音和上下文_语音识别_09

总体结论

这篇论文提出的Seed-ASR模型通过阶段化的训练方法,包括SFT、Context SFT和RL,在多个评估集上表现出显著的性能优势。Seed-ASR(CN)和Seed-ASR(ML)分别在中文和多语言场景下展示了强大的识别能力和广泛的适用性。未来的工作将集中于扩展Seed-ASR的多任务处理能力、增强长时处理能力以及增加支持的语言数量。

论文评价

优点与创新

1.高识别准确率:通过在超过2000万小时的语音数据和近90万小时的配对ASR数据上进行训练,Seed-ASR(CN)和Seed-ASR(ML)在公共数据集和内部综合评估集上取得了令人印象深刻的成果。

2.大模型容量:Seed-ASR采用了参数接近20亿的音频编码器和数十亿参数的MoE LLM进行建模,实验表明大规模模型在ASR任务中具有显著优势。

3.多语言支持:Seed-ASR(CN)支持单模型转录普通话和13种中国方言,Seed-ASR(ML)则支持英语和7种其他语言的语音识别,并正在扩展到40多种语言。

4.上下文感知能力:Seed-ASR利用历史对话、视频编辑历史和会议参与细节等上下文信息,显著提高了ASR评估集中的关键词召回率。

5.阶段式训练方案:Seed-ASR的开发采用了自监督学习(SSL)→监督微调(SFT)→上下文SFT→强化学习(RL)的简单而有效的训练方案,确保每个阶段的性能逐步提升。

6.大规模预训练:通过在大规模无监督数据上训练音频编码器,Seed-ASR(CN)和Seed-ASR(ML)获得了强大的语音表示能力,促进了监督微调阶段的快速收敛。

7.上下文SFT和联合束搜索:引入上下文感知训练和联合束搜索策略,显著增强了模型利用上下文信息的能力,缓解了直接使用束搜索时的幻觉问题。

8.强化学习阶段:通过构建基于ASR指标的奖励函数,进一步巩固了Seed-ASR的文本生成行为与准确转录需求之间的对齐,特别是在语义重要部分的转录上。

不足与反思

1.下一步工作:未来工作将专注于扩展Seed-ASR在单一模型内处理多个任务的能力,进一步增强长时能力并增加支持的语言数量。

关键问题及回答

问题1:Seed-ASR模型在音频编码器预训练阶段是如何利用大规模数据进行训练的?

Seed-ASR模型在音频编码器预训练阶段使用了LUISE(Large-scale Unsupervised Iterative Speech Encoder)音频编码器。具体来说,LUISE采用了基于BERT的掩码语言预测方法,通过迭代固定分词器方法获取每个帧的离散标签。训练过程中,首先将语音信号转换为mel滤波器组特征,然后输入到分词器模块以获得每个帧的离散标签。接着,使用交叉熵准则进行训练,损失函数仅计算被掩码帧的损失。训练完成后,移除softmax层,保留编码器部分用于后续的监督微调。

问题2:Seed-ASR模型在上下文感知微调阶段是如何利用上下文信息来提高识别能力的?

在上下文感知微调阶段,Seed-ASR模型通过生成与转录文本相关的自然语言上下文,并使用这些上下文和语音表示进行训练,从而增强模型在复杂语境下的识别能力。具体方法包括:1)使用内部LLM生成与转录文本相关的自然语言上下文;2)构建包含<上下文, 语音, 文本>三元组的训练数据,并与一般ASR数据混合进行上下文感知训练;3)采用联合束搜索策略进行解码,通过公式

【大模型论文】Seed-ASR:基于llm的语音识别理解不同的语音和上下文_语音识别_10

来平衡语音信息和上下文信息的重要性,从而减少幻觉问题。

问题3:Seed-ASR模型在强化学习阶段是如何利用加权词错误率(WWER)作为奖励函数的?

在强化学习阶段,Seed-ASR模型引入了基于ASR指标的奖励函数,特别是加权词错误率(WWER),作为训练目标。具体方法是通过构建高质量的训练数据,使用MWER作为另一个训练目标,与交叉熵目标LCELCE进行插值,公式如下:

【大模型论文】Seed-ASR:基于llm的语音识别理解不同的语音和上下文_人工智能_11

其中,W(y∗,yi)表示ground-truth和假设之间的WER值或WWER值,Wˉ表示N-best假设的平均WER或WWER,λλ是插值系数,P^(yi∣x)表示假设的归一化似然概率。通过这种方式,模型可以更好地优化文本生成行为,特别是语义重要部分的转录准确性。

如何快速掌握大模型技术,享受AI红利?

面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,详尽的全套学习资料,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

无论是初学者,还是希望在某一细分领域深入发展的资深开发者,这样的学习路线图都能够起到事半功倍的效果。它不仅能够节省大量时间,避免无效学习,更能帮助开发者建立系统的知识体系,为职业生涯的长远发展奠定坚实的基础。

标签:ASR,训练,模型,Seed,语音,上下文,SFT
From: https://blog.51cto.com/u_16163480/11909483

相关文章

  • 本地搭建 Whisper 语音识别模型实现实时语音识别研究
    目录摘要关键词1.引言2.Whisper模型简介3.环境准备4.系统架构与实现4.1模型加载4.2实时音频输入处理4.3实时转录处理4.4程序实现的框架4.5代码实现5.实验与结果6.讨论7.结论参考文献摘要语音识别技术近年来发展迅速,广泛应用于智能家居、智能客......
  • 从手控到声控,NRK3502离线语音芯片赋能智能风扇解决方案
    在这个智能家居时代,我们重新定义了“清凉”的含义。九芯作为智能语音识别领域的领航者,推出搭载NRK3502系列芯片的智能风扇解决方案,旨在以离线语音控制技术创新风扇操作体验,让用户享受更加智能、便捷、个性化的凉爽。九芯NRK3502语音识别芯片是一款适用于智能风扇的蓝牙双模智能语音......
  • 一点红语音合成 2.5 (文字转语音) 便携版
    一点红语音合成是一款Windows端文字转语音软件,从22年到现在一直持续优化,而且无广告骚扰;支持Edge语音和微软AzureTTS服务。软件截图:使用说明:1、将压缩文件解压到某固定位置,不要随意移动。2、解压后,双击start_redOne.bat来运行软件下载地址:RedOneTTS_v2.5解压密码:123456......
  • Android 9.0 内置google tts语音包功能实现
    1.前言 在9.0的产品开发中,在gms的相关项目对于文字转语音包功能不是内置功能,需要自己下载google的tts语音包,然后内置,在设置googletts语音包apk作为默认的tts语音引擎功能,接下来分析实现这个功能2.内置googletts语音包功能实现的核心类frameworks/base/core/java/androi......
  • 8月最新版ChatGPT商业运营网站程序源码,支持Midjourney绘画Dalle3绘画,多种语音对话+sun
    8月最新版ChatGPT商业运营网站程序源码,支持Midjourney绘画Dalle3绘画,多种语音对话+suno-ai音乐生成+TTS语音对话+支持GPTs文章目录8月最新版ChatGPT商业运营网站程序源码,支持Midjourney绘画Dalle3绘画,多种语音对话+suno-ai音乐生成+TTS语音对话+支持GPTs前言一、文档总......
  • OpenVoiceV2:零样本跨语言语音克隆技术,支持多种风格控制
    1openvoicev2介绍语音克隆技术近年来取得了显著进展,但现有方法通常存在着局限性,例如无法灵活控制语音风格、需要大量多语言数据进行训练、生成速度慢等等。为了克服这些挑战,MyShell.ai团队推出了全新的语音克隆技术OpenVoiceV2,它能够在无需额外训练的情况下,仅凭少量参考音频......
  • 基于surging 如何利用peerjs进行语音视频通话
    一、概述PeerJS是一个基于浏览器WebRTC功能实现的js功能包,简化了WebrRTC的开发过程,对底层的细节做了封装,直接调用API即可,再配合surging协议组件化从而做到稳定,高效可扩展的微服务,再利用RtmpToWebrtc引擎组件可以做到不仅可以利用httpflv观看rtmp推流直播,还可以采用基于W......
  • 如何本地搭建Whisper语音识别模型
    如何本地搭建Whisper语音识别模型如何本地搭建Whisper语音识别模型1.引言Whisper模型简介本地搭建的意义和应用场景应用场景包括但不限于:2.环境准备系统要求Python环境安装依赖库安装3.安装Whisper模型使用pip安装Whisper依赖工具安装(如FFmpeg)权限和兼容性问题处理......
  • 如何本地搭建 Whisper 语音识别模型?一文解决
    Whisper是OpenAI开发的强大语音识别模型,适用于多种语言的语音转文字任务。要在本地搭建Whisper模型,需要完成以下几个步骤,确保模型在你的设备上顺利运行。1.准备环境首先,确保你的系统上安装了Python(版本3.8到3.11之间)。此外,还需要安装PyTorch,这是Whisper依赖......
  • ai变声:视频怎么变音?分享6个语音变声器,视频变声不再难!
    想过如何让自己的直播内容更吸引人吗?你是否希望通过变声器来打造独特的声音效果?或者,如何用创意声音提升观众的互动体验呢?随着直播行业的不断发展,每位主播都在努力寻找吸引观众的独特方式,而变声器正是他们提升创意与互动的一大利器。无论是在抖音还是其他平台,变声器都能为主播带......