首页 > 其他分享 >ASR项目实战-项目交付历程

ASR项目实战-项目交付历程

时间:2023-12-30 12:11:07浏览次数:30  
标签:实战 ASR 交付 项目 模型 更新 2020 支持 语音

本文记录,作为项目主要负责人,完整参与语音识别项目的交付历程。

2019年12月中旬
接到项目交付任务,收集基本知识,启动业务分析工作。

2020年1月
完成竞品分析的整理。
梳理合作伙伴的清单,整理项目计划,启动和各合作伙伴的沟通工作。
启动架构方案、设计方案的准备工作。

2020年2月
和合作伙伴A谈好合作方案,基于云云对接的方式,启动项目交付工作。
架构设计、方案设计(文件转写)完成文档的输出和评审。
月底,支持短文件转写(即时长在60秒以内的语音文件)的服务,在生产环境顺利上线。

按照部门要求,后续按照月度版本的方式组织交付,即月初启动交付,月底完成版本发布和生产环境的变更。

本月版本交付的内容:

  • 短文件转写(即时长在60秒以内的语音文件)的服务。
  • 支持中文的识别。

2020年3月
基于云云对接的方式,支持长文件转写(即时长大于60秒,小于5小时的语音文件)的服务,在生产环境顺利上线。
端侧SDK的第一个版本,完成功能联调。

为支持端侧SDK的瘦身方案,本月启动了一个调测版本的开发工作。

本月版本交付的内容:

  • 支持长文件转写(即时长大于60秒,小于5小时的语音文件)的服务。
  • 输出运维数据。

2020年4月
支持端侧SDK的瘦身方案的版本,本月月底完成开发和交付,并在生产环境顺利上线。
基于集成模型的方式,在生产环境顺利上线如下服务:

  • 支持短文件转写(即时长在60秒以内的语音文件)的服务。
  • 支持实时语音识别(即时长在60秒以内的语音文件)的服务。

本月版本交付的内容:

  • 短文件转写(即时长在60秒以内的语音文件)的服务。
  • 实时语音识别的服务,支持时长在60秒以内。
  • 支持中文、英语的识别。
  • 集成业务运维系统。
  • 集成客户支撑系统。
  • 构建业务流量控制方案。
  • 完善运维数据。

2020年5月

本月版本交付的内容:

  • 例行更新语音识别的模型:
    • 更新中文的模型。
    • 更新英语的模型。
  • 扩充语种,增加对法语的支持。
  • 完善前处理阶段:
    • 支持重采样。
    • 支持多种音频格式,PCM、AAC、AMR。
  • 新增后处理阶段:
    • 支持数字格式归一化,支持中文、英语。
    • 支持标点符号,基于静音时长的规则。
    • 支持大小写,基于规则。
  • 完善运维数据。

2020年6月

本月版本交付的内容:

  • 例行更新语音识别的模型:
    • 更新中文的模型。
    • 更新英语的模型。
    • 更新法语的模型。
  • 完善后处理阶段:
    • 数字格式归一化,完善中文、英语对特定领域比如计算机、物理等词汇的支持。
  • 完善短文件转写服务:
    • 增加文本的时间偏移的特性。
    • 支持基于URL的方式,加载语音数据文件。

2020年7月

本月版本交付的内容:

  • 例行更新语音识别的模型:
    • 更新中文的模型。
    • 更新英语的模型。
    • 更新法语的模型。
  • 完善后处理阶段:
    • 数字格式归一化,增加法语的支持。
  • 完善运维能力,把一些复杂的配置项,通过运维系统来管理。

基于云云对接的方案,和合作伙伴B启动集成工作。

由于组织架构调整,项目人力有比较重大的调整,开发团队中的骨干开发人员离开项目,我变成了光标司令。
还好算法团队、测试团队仍然完整,并且战斗力很强。

2020年8月

基于集成模型的方式,在生产环境顺利上线如下服务:

  • 支持长文件转写(即时长在60秒以上,5小时以内的语音文件)的服务。
  • 支持实时语音识别(即时长在60秒以上,5小时以内的语音文件)的服务。

本月版本交付的内容:

  • 例行更新语音识别的模型:
    • 更新中文的模型。
    • 更新英语的模型。
    • 更新法语的模型。
  • 长文件转写服务。
  • 实时语音长时间识别服务。
  • 完善后处理:
    • 基于机器学习模型的方式支持标点符号特性。
    • 基于机器学习模型的方式支持大小写特性。
  • 基于合作伙伴B的能力,支持实时语音识别(时长小于60秒),支持4个小语种。

2020年9月
本版本的交付内容,合并至10月版本一并上线。

2020年10月

本月版本交付的内容:

  • 例行更新语音识别的模型:
    • 更新中文的模型。
    • 更新英语的模型。
    • 更新法语的模型。
  • 例行标点符号的模型:
    • 更新中文的模型。
    • 更新英语的模型。
    • 更新法语的模型。
  • 例行更新大小写的模型:
    • 更新中文的模型。
    • 更新英语的模型。
    • 更新法语的模型。
  • 完善文本时间偏移的实现,解决各种场景下不准确、不对齐的问题。
  • 完善系统的可靠性,解决各种奇怪的内存、死锁类的问题。
  • 完善运维系统。
    • 并发路数的分配和管理。
  • 使用逻辑集群的方式支持现有的4款产品,各产品支持独立扩容。
  • 优化文件转写的效率,降低端到端处理时延。

2020年11月

本月版本交付的内容:

  • 例行更新语音识别的模型:
    • 更新中文的模型。
    • 更新英语的模型。
    • 更新法语的模型。
  • 例行标点符号的模型:
    • 更新中文的模型。
    • 更新英语的模型。
    • 更新法语的模型。
  • 例行更新大小写的模型:
    • 更新中文的模型。
    • 更新英语的模型。
    • 更新法语的模型。
  • 完善系统的可靠性,解决时序不对齐导致的底层识别会话无法释放的问题。

2020年12月
本月版本交付的内容:

  • 扩充语种,支持西班牙语。
    • 集成语音识别的模型。
    • 集成标点符号的模型。
    • 集成大小写的模型。
    • 增加数字归一化。
  • 完善前处理阶段:
    • 扩充支持音频格式,增加speex。

启动项目交接,语音识别的项目进入维护状态。

2021年1月
正式离开项目。

总结
前期需求交付的路标规划不完整,因此对于人力的诉求,没有明确的估计,导致项目整个交付过程中,受限于人力,进度压力很大,加班很多,项目成员均有怨言。这是后续独立负责项目交付时的一个比较大的改进点。

标签:实战,ASR,交付,项目,模型,更新,2020,支持,语音
From: https://www.cnblogs.com/jackieathome/p/17935670.html

相关文章

  • 聚合支付项目-20
    3商户资质申请3.1需求分析3.1.1系统交互流程交互流程如下:前端上传证件照片,请求商户平台应用。商户平台应用请求阿里云上传图片。上传成功返回图片标识给前端。前端携带证件图片标识和资质申请信息提交到商户平台应用。请求商户服务保存资质申请。保存成功返回给前端。商户资......
  • ASR项目实战-交付团队的分工
    对于通常的软件项目,参与角色,比如可以有用户,消费者,产品团队,研发团队(研发团队包括开发和测试),运营团队,运维团队,管理团队。通常认为,用户,负责购买服务的群体,而消费者,负责使用业务的群体。这两个群体,不在本文的讨论范围之内,因此后续的介绍中,除非明确说明,否则默认均不涉及。产品团队,研......
  • Web3的未来:DePIN项目引领物理基础设施的去中心化革命
    Web3的未来:DePIN项目引领物理基础设施的去中心化革命在Web3的沉寂市场中,人们逐渐回归冷静,专注于项目的研究、探索与精心的布局,期待着牛市的到来。在Web3的世界里,一直有句话:“选新不选旧,熊市布局,牛市狂欢”。在前一轮牛市中,像Solana、Polygon这样的新公链项目提前两年崭露头角,创造了......
  • 在 SSM 项目中使用 Junit 进行单元测试
    Junit 一个轻量级的单元测试框架,我在这里使用 Junit 对 service 层进行测试,每实现一个功能就进行测试,这样就可以保证在Controller层中调用不会因为service 层的错误而出错。1. 项目目录 项目目录如下图所示:代码放在java 文件夹中,resources 文件夹放的是一些xml配置文件......
  • IPTV SQM的项目总结
    本文于2015年底完成,发布在个人博客网站上,标题为《项目总结--纪念我参与过的IPTVSQM项目》。考虑个人博客因某种原因无法修复,于是在博客园安家,之前发布的文章逐步搬迁过来。时间很快,离开SQM团队已接近10个月,对于参与了5年的项目,很早就想写些什么来纪念;现在终于找到了时间,用自己......
  • ASR项目实战-产品分析
    分析Google、讯飞、百度、阿里、QQ、搜狗等大厂的ASR服务,可以罗列出一款ASR服务所需要具备的能力。产品分类ASR云服务产品,从用户体验、时效性、音频时长,可以划分为如下几类:实时短音频转写,可以用于支撑输入法、搜索、导航等场景。实时长音频转写,可以用于支撑视频字幕、图文直......
  • 在IDEA上创建基于maven的JFinal项目
    一、创建项目:注意:点击完成后需要等待一段时间,让idea根据webapp模板创建项目; 二、相关配置1、pom.xml配置<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance&q......
  • Visio——Mac上可用的项目管理画图工具“Draw.io”
    背景:亮哥画的座位图、安老师夏雪画的流程图、邵工进行的项目进度管理,都是用的Visio,看来想要画个非专业建模图,这是一个很好地工具。  Draw.io因为Visio是微软的软件,只支持Windows系统。所以,要想在Mac上使用Visio,就可以考虑替代品。我自己找了几个,发现Draw.io,可以直接在线使......
  • ASR项目实战-前处理
    本文深入探讨前处理环节。首先介绍一些基本的名词,比如文件名后缀文件格式音频格式采样率和位深预备知识文件名后缀、文件格式和音频格式常见的音频文件,比如.wav、.mp3、.m4a、.wma等,这些都代表什么?仅仅是这类音频文件的后缀而已,不一定和音频文件的编码、音频数据的编码......
  • ASR项目实战-后处理
    本文深入探讨后处理环节。在本环节要处理的重要特性有分词、断句、标点符号、大小写、数字等的格式归一等。分词和NLP、搜索等场景下的分词含义不同。对于拼音类的语言,比如英语、法语等,句子由多个单词组成,语音输出的结果,需要按需在各个单词之间补充或者去掉空格。对于中文来说,......