研究背景
1.研究问题:这篇文章要解决的问题是如何在现代自动语音识别(ASR)模型中,利用大规模语言模型(LLM)来提高识别准确性,特别是在多领域、多语言、多口音和多种应用场景下。
2.研究难点:该问题的研究难点包括:现有端到端模型在数据匹配场景下表现良好,但在处理复杂语境和多语言场景时逐渐接近瓶颈;如何有效地将LLM的能力应用于ASR任务中,特别是在不需要额外语言模型的情况下。
3.相关工作:该问题的研究相关工作包括经典的端到端模型和最近发布的大型ASR模型,这些模型在数据匹配场景下表现优异,但在处理复杂语境和多语言场景时存在局限性。
研究方法
这篇论文提出了Seed-ASR,一种基于音频条件LLM(AcLLM)的大规模ASR模型。具体来说,
1.音频编码器预训练:首先,使用一个具有近20亿参数的音频编码器(LUISE)进行大规模自监督学习(SSL)。LUISE采用基于BERT的掩码语言预测方法,通过迭代固定分词器方法获取每个帧的离散标签。
2.监督微调(SFT):然后,使用训练好的LUISE音频编码器和数十亿参数的MoE LLM进行SFT。通过在大量语音-文本对数据上进行训练,建立语音和文本之间的映射关系。
3.上下文感知微调(Context SFT):为了增强模型在复杂语境下的识别能力,引入上下文感知训练和联合束搜索(Joint Beam Search)。上下文感知训练通过生成与转录文本相关的自然语言上下文,并使用这些上下文和语音表示进行训练。联合束搜索则通过平衡语音信息和上下文信息的重要性,减少解码过程中的幻觉问题。
4.强化学习(RL):最后,引入基于ASR指标的奖励函数,特别是加权词错误率(WWER),作为RL阶段的训练目标。通过构建高质量的训练数据,进一步优化模型参数。
公式解释:
·联合束搜索公式:
其中,P(y∣x,c)表示考虑上下文信息的得分,P(y∣x)表示不考虑上下文信息的得分,α是超参数,用于平衡两者的重要性。
·加权词错误率公式:
其中,W(y∗,yi)表示词错误率或加权词错误率,Wˉ表示N-best假设的平均词错误率,λ是插值系数,P^(yi∣x)表示假设的归一化似然概率。
实验设计
1.数据收集:训练数据包括超过2000万小时的语音数据和近90万小时的配对ASR数据。对于中文多方言模型Seed-ASR(CN),还包括约5.6百万小时的普通话和13种中国方言数据;对于多语言模型Seed-ASR(ML),还包括约6.4百万小时的英语数据和超过20种其他语言的数据。
2.实验设计:Seed-ASR的训练过程包括四个阶段:自监督学习(SSL)、监督微调(SFT)、上下文感知微调(Context SFT)和强化学习(RL)。每个阶段都有不同的作用,确保Seed-ASR的逐阶段性能提升。
3.样本选择:在上下文感知训练阶段,使用内部LLM生成与转录文本相关的自然语言上下文,并构建三元组数据集进行训练。
4.参数配置:在SSL阶段,使用LUISE音频编码器进行大规模自监督学习;在SFT阶段,使用MoE LLM进行模型初始化;在Context SFT阶段,使用联合束搜索进行解码;在RL阶段,使用MWER作为奖励函数进行优化。
结果与分析
1.公共测试集评估:在多个中文ASR基准测试集上,Seed-ASR(CN)表现出显著的性能优势,平均词错误率(WER)比其他发布模型低24%-40%。
2.多领域和视频集评估:在多领域评估集上,Seed-ASR(CN)的WER相对降低了47%,在视频评估集上的WER也显著降低。
3.多方言和口音集评估:在13种中国方言和11种中国口音的评估集上,Seed-ASR(CN)的平均WER分别降低了11.4%和21%。
4.对话上下文集评估:在对话上下文集上,Seed-ASR(CN)的关键词召回率比不使用上下文的模型提高了15%以上。
5.主观评估:在主观评估中,Seed-ASR(CN)在语音搜索和语音助手的应用场景中与人类转录者的识别准确率相当,在直播、视频和会议的应用场景中表现优于人类转录者。
总体结论
这篇论文提出的Seed-ASR模型通过阶段化的训练方法,包括SFT、Context SFT和RL,在多个评估集上表现出显著的性能优势。Seed-ASR(CN)和Seed-ASR(ML)分别在中文和多语言场景下展示了强大的识别能力和广泛的适用性。未来的工作将集中于扩展Seed-ASR的多任务处理能力、增强长时处理能力以及增加支持的语言数量。
论文评价
优点与创新
1.高识别准确率:通过在超过2000万小时的语音数据和近90万小时的配对ASR数据上进行训练,Seed-ASR(CN)和Seed-ASR(ML)在公共数据集和内部综合评估集上取得了令人印象深刻的成果。
2.大模型容量:Seed-ASR采用了参数接近20亿的音频编码器和数十亿参数的MoE LLM进行建模,实验表明大规模模型在ASR任务中具有显著优势。
3.多语言支持:Seed-ASR(CN)支持单模型转录普通话和13种中国方言,Seed-ASR(ML)则支持英语和7种其他语言的语音识别,并正在扩展到40多种语言。
4.上下文感知能力:Seed-ASR利用历史对话、视频编辑历史和会议参与细节等上下文信息,显著提高了ASR评估集中的关键词召回率。
5.阶段式训练方案:Seed-ASR的开发采用了自监督学习(SSL)→监督微调(SFT)→上下文SFT→强化学习(RL)的简单而有效的训练方案,确保每个阶段的性能逐步提升。
6.大规模预训练:通过在大规模无监督数据上训练音频编码器,Seed-ASR(CN)和Seed-ASR(ML)获得了强大的语音表示能力,促进了监督微调阶段的快速收敛。
7.上下文SFT和联合束搜索:引入上下文感知训练和联合束搜索策略,显著增强了模型利用上下文信息的能力,缓解了直接使用束搜索时的幻觉问题。
8.强化学习阶段:通过构建基于ASR指标的奖励函数,进一步巩固了Seed-ASR的文本生成行为与准确转录需求之间的对齐,特别是在语义重要部分的转录上。
不足与反思
1.下一步工作:未来工作将专注于扩展Seed-ASR在单一模型内处理多个任务的能力,进一步增强长时能力并增加支持的语言数量。
关键问题及回答
问题1:Seed-ASR模型在音频编码器预训练阶段是如何利用大规模数据进行训练的?
Seed-ASR模型在音频编码器预训练阶段使用了LUISE(Large-scale Unsupervised Iterative Speech Encoder)音频编码器。具体来说,LUISE采用了基于BERT的掩码语言预测方法,通过迭代固定分词器方法获取每个帧的离散标签。训练过程中,首先将语音信号转换为mel滤波器组特征,然后输入到分词器模块以获得每个帧的离散标签。接着,使用交叉熵准则进行训练,损失函数仅计算被掩码帧的损失。训练完成后,移除softmax层,保留编码器部分用于后续的监督微调。
问题2:Seed-ASR模型在上下文感知微调阶段是如何利用上下文信息来提高识别能力的?
在上下文感知微调阶段,Seed-ASR模型通过生成与转录文本相关的自然语言上下文,并使用这些上下文和语音表示进行训练,从而增强模型在复杂语境下的识别能力。具体方法包括:1)使用内部LLM生成与转录文本相关的自然语言上下文;2)构建包含<上下文, 语音, 文本>三元组的训练数据,并与一般ASR数据混合进行上下文感知训练;3)采用联合束搜索策略进行解码,通过公式
来平衡语音信息和上下文信息的重要性,从而减少幻觉问题。
问题3:Seed-ASR模型在强化学习阶段是如何利用加权词错误率(WWER)作为奖励函数的?
在强化学习阶段,Seed-ASR模型引入了基于ASR指标的奖励函数,特别是加权词错误率(WWER),作为训练目标。具体方法是通过构建高质量的训练数据,使用MWER作为另一个训练目标,与交叉熵目标LCELCE进行插值,公式如下:
其中,W(y∗,yi)表示ground-truth和假设之间的WER值或WWER值,Wˉ表示N-best假设的平均WER或WWER,λλ是插值系数,P^(yi∣x)表示假设的归一化似然概率。通过这种方式,模型可以更好地优化文本生成行为,特别是语义重要部分的转录准确性。
如何快速掌握大模型技术,享受AI红利?
面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,详尽的全套学习资料,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。
无论是初学者,还是希望在某一细分领域深入发展的资深开发者,这样的学习路线图都能够起到事半功倍的效果。它不仅能够节省大量时间,避免无效学习,更能帮助开发者建立系统的知识体系,为职业生涯的长远发展奠定坚实的基础。
标签:ASR,训练,模型,Seed,语音,上下文,SFT From: https://blog.51cto.com/u_16163480/11909483