首页 > 其他分享 >FunASR - 语音识别模型训练和微调

FunASR - 语音识别模型训练和微调

时间:2025-01-17 21:27:52浏览次数:3  
标签:模型 chunk 微调 离线 语音 model 识别 FunASR

在这里插入图片描述

文章目录


一、关于 FunASR

FunASR希望在语音识别的学术研究和工业应用之间架起一座桥梁。通过发布工业级语音识别模型的训练和微调,研究人员和开发人员可以更方便地进行语音识别模型的研究和生产,并推动语音识别生态的发展。让语音识别更有趣!


核心功能

  • FunASR是一个基础语音识别工具包,提供多种功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便捷的脚本和教程,支持预训练好的模型的推理与微调。
  • 我们在ModelScopehuggingface上发布了大量开源数据集或者海量工业数据训练的模型,可以通过我们的模型仓库了解模型的详细信息。代表性的Paraformer非自回归端到端语音识别模型具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务,详细信息可以阅读(服务部署文档)。

模型仓库

FunASR开源了大量在工业数据上预训练模型,您可以在模型许可协议下自由使用、复制、修改和分享FunASR模型,下面列举代表性的模型,更多模型请参考 模型仓库

(注:⭐ 表示ModelScope模型仓库,

标签:模型,chunk,微调,离线,语音,model,识别,FunASR
From: https://blog.csdn.net/lovechris00/article/details/145214946

相关文章

  • 手把手教你学simulink(80.2)--智能家居语音助手系统场景实例:基于Simulink设计和仿真语音
    目录语音助手集成场景下的命令识别与响应建模项目实例项目背景介绍系统架构1. 语音采集模块(AudioCapture)2. 语音处理模块(SpeechProcessing)3. 命令识别模块(CommandRecognition)4. 响应生成模块(ResponseGeneration)5. 通信模块(Communication)仿真......
  • 基于STM32单片机自动售货机扫码支付无人超市语音播报无线蓝牙APP/WIFI-APP控制/WIFI视
    STM32-S147语音播报+二维码付+4种商品+4路电机出货+选货+手付+库存+缺货+找零+声光+按键+TFT屏+(无线方式选择)产品功能描述:本系统由STM32F103C8T6单片机核心板、1.44寸TFT彩屏、(无线蓝牙/无线WIFI/无线视频监控模块-可选)、步进电机控制电路、语音播报模块接口、蜂鸣器报警电......
  • 智谱发布端到端多模态模型 GLM-Realtime,2 分钟记忆能力;讯飞星火同传语音大模型发布,5
      开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑......
  • 开箱你的 AI 语音女友「GitHub 热点速览」
    随着大模型API服务的不断丰富,开发者无需再依赖昂贵的硬件,也能轻松开发出拥有强大AI能力的应用。这不仅降低了技术门槛,也激发了极客们的创造力。就比如上周飙升1.5kStar的开源项目xiaozhi-esp32,仅用低成本的ESP32开发板和LLMAPI服务,就能制作出一个聪明有趣、......
  • 大模型微调基本概念指北
    本文主要分享一下大模型微调相关的基本概念,包括大模型(GPT)训练流程、微调(SFT)方法&分类&框架&最佳实践、强化学习(RLHF),最后则是分享了如何训练垂直领域大模型。本文是参考网上博客、文章后进行总结而成,旨在让刚接触大模型的同学阅读后能对大模型训练的各个阶段有一个大致的......
  • HTML5怎么为输入框添加语音输入的功能呢?
    在HTML5中,你可以使用WebSpeechAPI中的webkitSpeechRecognition接口来实现语音输入的功能。然而,需要注意的是,这个API目前主要是WebKit浏览器(如Chrome和Safari)支持,并且它的前缀webkit也暗示了这一点。此外,这个API在未来的浏览器中可能会被更改或移除,所以在生产环境中使用时需要谨......
  • 2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
      围绕VoiceAgent产品的研发、商业化和增长的完整生命周期,报告构建出一份VoiceAgent产业生态全景图。 2024年,AI与实时互动技术的结合达到了前所未有的高度。 5月,OpenAI发布了GPT-4o,并展示了其对话功能,仿佛电影《HER》中的智能助手走入了现实生活。 ......
  • (ACL-2024)MELoRA:用于参数高效微调的迷你集成低秩适配器
    MELoRA:用于参数高效微调的迷你集成低秩适配器paper是山东大学发表在ACL2024的工作papertitle:MELoRA:Mini-EnsembleLow-RankAdaptersforParameter-EfficientFine-TuningCode:https://github.com/chasonshi/meloraAbstract参数高效微调(PEFT)是一种流行的......
  • 预训练+微调大模型的模式
    预训练模型,微调,大模型,深度学习,自然语言处理,计算机视觉,迁移学习1.背景介绍近年来,深度学习技术取得了飞速发展,特别是大规模预训练模型的出现,为人工智能领域带来了革命性的变革。预训练模型是指在海量数据上进行预训练,学习到通用语言表示或特征的模型。微调则是针对特定任......
  • Kyutai开源端侧模型Helium -1 preview;FoloToy内测「超级智能体」,支持联网查询和语音调
      开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑......