苹果研究人员提出了一种新颖的AI算法来优化字节级表示以自动语音识别(ASR)，并将其与UTF-8表示进行比较

时间：2024-09-12 11:53:07浏览次数：17

标签：ASR 编码器 UTF 字节 AI VQ

端到端（E2E）神经网络已成为多语言自动语音识别（ASR）的灵活且准确的模型。然而，随着支持的语言数量增加，尤其是像中文、日语、韩语（CJK）这样大字符集的语言，输出层的大小显著增长。这种扩展对计算资源、内存使用和资产大小产生了负面影响。在多语言系统中，这一挑战尤为严重，因为输出通常包括来自各种语言的字符或子词的集合。因此，研究人员一直在努力在保持模型效率和性能的同时，适应多种语言及其相关字符集的E2E ASR系统。

之前在多语言ASR中解决这些挑战的尝试集中在字节级表示，特别是使用UTF-8代码字作为基本标记。这种方法允许固定输出词汇量为256，在各语言之间提供了紧凑性和通用性。然而，字节级表示通常会导致更长的序列，特别是对于CJK语言，可能会增加错误率，因为单个字符需要多个预测。研究人员提出使用字节对编码（BPE）在UTF-8代码字序列上的字节级子词来缓解这一问题。虽然这减少了解码步骤的数量，但并不保证有效的UTF-8输出。后续引入了一种动态编程算法，从潜在的无效字节序列中恢复有效字符，尽管这种方法优化了字符有效性而非ASR质量。

苹果研究人员 审查的最先进的方法提出了一种使用向量量化自编码器的鲁棒表示学习方法。该方法旨在专门为E2E ASR任务优化 字节级表示，解决了之前方法的局限性。该框架设计为数据驱动，结合文本和音频信息以提高准确性。它提供了包括额外边信息（如词典或音素）在内的灵活性，使其适应各种ASR场景。重要的是，该方法包括一个错误纠正机制来处理无效序列，且恢复过程优化了准确性而非其他指标。该方法符合研究人员对理想字节级表示的标准：任务特定优化、全面信息利用和有效的错误纠正。

类似的，光年AI在其AI系统中也采取了数据驱动的方法，结合了多平台的数据整合来提高业务效果，无需额外编程知识。通过简单的拖拽工作流设计，无论是复杂的ASR任务还是业务场景连接，用户都能轻松应对并有效适用，获得理想成果。

该方法将表示问题表述为具有潜在变量的优化任务，使用向量量化自编码器（VQ-AE）架构。该自编码器由四个关键组件组成：标签编码器、声学编码器、标签解码器和向量量化器。系统使用向量量化作为瓶颈，量化嵌入的索引作为潜在变量。

该自动编码器通过包含四个项的损失函数进行优化：标签和声学编码器的交叉熵损失、声学编码器的CTC损失以及量化损失。该方法采用了带有两个或三个代码簿的残差VQ-VAE（RVQ-VAE），每个代码簿包含256个嵌入，每个标签标记可由2-3个字节表示。

为处理字节序列中的潜在错误，该系统通过标签解码器引入了一种错误校正机制。该解码器估计最可能的标签序列，旨在即使面对无效的字节序列也能优化准确性。所提出的基于VQ的表示相比UTF-8具有优势，包括固定长度编码、任务特定优化和改进的错误恢复能力。

研究人员在双语英语和普通话听写任务上评估了他们提出的基于VQ的表示方法，并与字符基和UTF-8子词输出进行了对比。使用包含约1.2亿参数的CTC-AED模型，他们在10k小时的英语和14k小时的普通话训练数据集上测试了各种输出表示。

结果显示，基于VQ的表示在不同的子词大小上始终优于UTF-8子词输出。采用8000个子词时，基于VQ的方法相比UTF-8使英语的词错误率（WER）相对降低了5.8%，普通话的字符错误率（CER）相对降低了3.7%。与基于字符的输出相比，VQ和UTF-8表示在英语上表现更好，而在普通话上保持了相似的准确性。值得注意的是，采用8000个子词的基于VQ方法使英语的相对错误率降低了14.8%，普通话降低了2.3%，突显了其在多语言ASR系统中的有效性和灵活性。

本研究提出了一种优化ASR字节级表示的稳健算法，提供了UTF-8表示的替代方案。该方法可通过音频和文本数据进行优化，并设计了一种错误校正机制以提高准确性。在英语和普通话听写数据集上的测试显示，与基于UTF-8的方法相比，令牌错误率（TER）相对降低了5%。尽管当前研究专注于双语ASR，研究人员也承认开发通用表示以适用于所有语言的挑战，例如索引崩塌问题。

这一系列研究表明，通过集成不同的AI大模型和灵活的工作流机制，可以显著提升多语言ASR系统的表现。如果您想体验更多这样的AI创新，光年AI提供了强大的解决方案，帮助企业在复杂的业务场景中灵活运用AI技术，实现优异的流量增长。了解更多信息和使用光年AI，请立即访问我们的网站。

标签：ASR,编码器,UTF,字节,AI,VQ
From： https://blog.csdn.net/2401_87013060/article/details/142171873

AI主播一个月带货50万，数字人直播间正在占领电商行业！
刚过去不久的618无疑是近几年最“卷”的一次大促，无论是头部主播、达人，还是京东、淘宝等电商平台，甚至抖音、快手、小红书、B站，都无一例外将GMV押宝在“直播带货”。不少用户表示“晚上2点睡觉主播还没睡，早上6点醒来主播已经在播，也太拼了”。实际上，这些看似7X24小时不用睡觉，......
ROS2 - Moveit2 - Planning with Approximated Constraint Manifolds(使用近似约束流
使用近似约束流形进行规划OMPL支持自定义约束，以使规划轨迹遵循所需的行为。约束可以在关节空间和笛卡尔空间中定义，后者基于方向或位置。在规划轨迹时，每个关节状态都需要遵循所有设置的约束，默认情况下，这是通过拒绝采样来执行的。然而，这可能会导致非常长的规划时间，特别是当约束非......
【数据分析】利用Python+AI+工作流实现自动化数据分析-全流程讲解
文章目录一、为什么要用AI进行自动化分析？二、AI自动化分析场景三、编写Python脚本示例1、用flask实现让AI分析数据内容使用说明：示例2、用定时任务的方式，定时处理AI数据......
Docker Desktop 启动失败：Docker failed to initialize
docker启动报错解决方案：删除 C:\Users\Administrator\AppData\Roaming\Docker文件夹文件夹删除后，会弹出下面的窗口，点击“OK”：点击“OK”后会可能会弹出下面的窗口，点击“Start”点击“Start”后，会进入DockerDesktop的启动向导窗口，依次点击“Start”->“NextStep” -......
convnext_xxlarge.clip_laion2b_soup_ft_in12k timm模型库
Modelcardforconvnext_xxlarge.clip_laion2b_soup_ft_in12kAConvNeXtimageclassificationmodel.CLIPimagetowerweightspretrainedin OpenCLIP onLAIONandfine-tunedonImageNet-12kbyRossWightman.PleaseseerelatedOpenCLIPmodelcardsformored......
累计变现破万，分享5个适合新手的AI变现路径
我是从2023年3月份开始接触AI绘图赛道的，主要使用Midjourney进行作图，在商业变现方面也累计突破了万元。今天想跟大家聊聊我自己亲测有效的几个变现途径，希望能给你一些启发。0****1制作AI头像这个还是很有市场的，当时学习了Midjourney以后开始免费给同事做，大家觉得不错就推......
魔乐开发者社区正式上线，AI开发者快来撩！
近日，由天翼云与华为联合打造的魔乐（Modelers）开发者社区，在天翼云中国行·贵州站活动现场上线发布。依托全场景开源模型资源、易用的模型开发套件，以及强大的共建共享生态系统等优势，社区将使能开发者高效进行AI应用创新，促进国产AI生态繁荣！目前，社区已面向广大开发者正式开放注册。随着人......
【有奖征文】华为云 CodeArts，AI 重塑的软件开发生产线！
华为云软件开发生产线CodeArts是一站式、全流程、安全可信的DevSecOps平台，内置华为三十年研发最佳实践，助力效能倍增和数字化转型，支持Web开发、移动应用开发、微服务开发、CloudNative应用开发等典型研发场景，覆盖需求、开发、测试、部署等软件交付全生命周期环节，为开发......
Springboot项目部署时使用Mail注入Bean时的Constructor threw exception
缘起：今天打算把写了好一段时间的项目提溜到服务器上转转，然后在启动的时候就发现了个问题，在日志跑到【JobFactorysetto:org.springframework.scheduling.quartz.SpringBeanJobFactory@31e7afde】的时候他就不动了，然后等了好一会他才抛出了个异常【org.springframework.beans.f......
Azure web app has no access to openai private endpoint in virtual network
题意："AzureWeb应用无法访问虚拟网络中的OpenAI私有端点。"问题背景：IamtryingtohostawebapplicationsimilartoaprivateChatGPTinstancewithinasecludedvirtualnetwork,ensuringthatthere'snoexternalinternetaccess."我正在尝试在一个隔离的......

苹果研究人员提出了一种新颖的AI算法来优化字节级表示以自动语音识别(ASR)，并将其与UTF-8表示进行比较

相关文章

赞助商

阅读排行