首页 > 其他分享 >峰会进行时 | 智能音频能力移动端落地实践

峰会进行时 | 智能音频能力移动端落地实践

时间:2023-11-22 21:06:31浏览次数:28  
标签:落地 峰会 音频 技术 音视频 智能 语音 识别

峰会进行时

这一站,趣丸科技来到了 11 月 24-25 日举办的 LiveVideoStackCon 音视频技术大会(深圳站)。LiveVideoStackCon 是专注于音视频领域的技术大会,致力于分享一流的音视频技术内容,在把握行业趋势和热点的同时持续挖掘技术深度。本次大会设置了 LOT 与多媒体、AIGC 与内容生产、音频与体验等 13+场专题,50+技术分享。自首届以来的 13 场大会中,LiveVideoStackCon 成为众多音视频技术人的舞台、国内多媒体生态的风向标。


随着多媒体和通信网络技术的持续升级,以及新型音视频应用场景的不断涌现,音频处理技术正朝着更加智能化和沉浸化的方向迅猛发展。趣丸科技媒体算法负责人马金龙,将于会上发表题为《智能音频能力移动端落地实践》主题分享,通过对智能音频的技术层面、用户体验等方面分析和优化,将进一步推动智能音频能力在移动端的发展和应用。


峰会进行时 | 智能音频能力移动端落地实践_音视频


随着泛娱乐社交的持续火热和 AIGC 的兴起,越来越多了的场景需要用到智能语音处理技术来辅助内容理解和智能交互,因此打造端上智能语音技术显得尤为重要且迫切。例如,用户可以通过端上音频事件检测和端上语音识别对内容进行实时标定,为理解用户意图提供了技术保障。同时,端上语音识别为我们打造基于 AIGC 的智能交互助手提供了低成本方案。

演讲嘉宾

马金龙 | 趣丸科技媒体算法负责人

研究生毕业,CCF 专业会员,9 年媒体算法开发经验,涉及音视频图像文本,负责过音频前后端处理,弱网优化,音视频质量提升,智能内容安全审核“T 网”,内容理解“T 悟”等大型项目。曾作为“灵声讯”创始人,参与智能媒体技术自媒体运营和推广。


演讲提纲

1.端上智能音频能力介绍

2.应用案例及面临的问题

3.端上智能音频实践之路

4.总结与展望


本次分享主要分为四部分:

第一部分是端上智能音频技术现状和挑战,通过此部分了解业界端上智能音频技术目前面临的问题和困难,定位、分析问题。

第二部分是趣丸科技音频技术团队针对端上打造的一系列智能音频技术,例如端上语音情感识别,端上娇喘&炸房识别,端上语音识别等。这部分不仅涵盖了技术原理,优化思路,训练经验,还有针对端上的压缩剪枝方法。

第三部分是端上智能音频技术的应用和落地场景案例分析,例如基于端上 ASR+ LLM + TTS 的智能语音助手,开黑场景语音房的端上内容理解(语音情感+音频事件检测)等。

最后一部分是未来展望,针对移动端技术优化思路和结合 AIGC 落地应用提供自己的见解和看法。


快问快答

关于本次分享 ,我们找金龙聊了聊

↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ 


问:端上智能音频技术发展多年,近期呈现什么样新的发展态势?

答:呈现欣欣向荣的态势。整体来在三个方面有大的发展:首先是模型结构方面层出不穷,无论是CTC (Connectionist- Temporal-Classification)、AED (Attention-based,Encoder-Decoder),还是RNNT (RNN Transducer) 都达到不错的识别准确率;其次是开源方案越来越成熟,进一步催生了智能音频技术的大规模应用;最后是商用技术方案还需要针对性优化和迭代,多技术组合发挥业务价值成了趋势。

它强调以下几个关键点:

层出不穷、准确率、大规模应用、优化和迭代


问:趣丸科技在端上智能音频能力实践中,遇到了哪些挑战?

答:遇到困难很多,但团队都咬着牙克服和攻克了。例如,在模型迭代期初,我们为了追求一味的高识别准确率,加大了模型训练的数据量,导致期初模型超200M。

随着SDK准入制度的建立,需要再模型大小和性能消耗方面做取舍,算法同学大量查阅论文,学习模型剪枝,压缩,量化等方面新技术,终于在一次次失败后,终于使得模型大小从200M->170M->120M->70M->36M->20M,基本符合了准入门槛,识别准确率也达到了产品上线的标准。


问:在这次大会上的议题演讲有什么亮点,端上智能音频能力会带来哪些价值?

答:这次LiveVideoStackCon汇集了各行各业在音视频技术上的实践分享,除了有大家关注的LOT和多媒体、AI与音视频专题还有当下火爆的AIGC智能创作主题。


而我们的议题主要会针对以下方面给行业提供借鉴思考:

  1. 结合业务场景介绍面临的问题;
  2. 面对问题提出我们解决思路;
  3. 推出端上智音技术实践(本期重点ASR语音识别,SED声音事件检测)过程,重点在模型训练,模型压缩,性能优化等方面展开。


如果你有更多的问题想了解,欢迎评论区留言分享~




标签:落地,峰会,音频,技术,音视频,智能,语音,识别
From: https://blog.51cto.com/u_16071478/8519271

相关文章

  • 神经网络中间层特征图可视化(输入为音频)(二)
    相比方法(一)个人感觉这种方法更好importlibrosaimportnumpyasnpimportutilsimporttorchimportmatplotlib.pyplotaspltclassHook:def__init__(self):self.features=Nonedefhook_fn(self,module,input,output):self.features=......
  • Misc_BUUCTF_WriteUp | 乌镇峰会种图
    题目提示:乌镇互联网大会召开了,各国巨头汇聚一堂,他们的照片里隐藏着什么信息呢?(答案格式:flag{答案},只需提交答案)注意:得到的flag请包上flag{}提交题目:(jpg图片分析(题外话,这个提示的要求还真是迂回……打开属性,空空如也。用010Editor打开看看:文件头的正常的jpg头。......
  • 来文心中国行厦门站,感受大模型落地生花的进展!
    11月22日,文心中国行将走进厦门。届时,政府、高校及企业的相关专家将现场分享AI和大模型最新进展,从人工智能政策解读,到大模型底层技术,再到产教融合下的空间感知与计算,产业创新应用洞察及实践案例等等,通过鞭辟入里的研讨交流,让参会者深入了解如何把握大模型时代新机遇。现场还特别设置......
  • 弹性伸缩落地实践
    弹性伸缩落地实践1.什么是HPA?HPA(HorizontalPodAutoscaler)是Kubernetes中的一种资源自动伸缩机制,用于根据某些指标动态调整Pod的副本数量。2.什么时候需要HPA?负载波动:当您的应用程序的负载经常发生波动时,HPA可以自动调整Pod的副本数量,以适应负载的变化。例如......
  • promise时效架构升级方案的实施及落地
    一、项目背景为什么需要架构升级promise时效包含两个子系统:内核时效计算系统(系统核心是时效计算)和组件化时效系统(系统核心是复杂业务处理以及多种时效业务聚合,承接结算下单黄金流程流量),后者依赖前者,分别由两组技术团队支持;因为有些业务的渗透造成两个系统的边界越来越不清晰;有......
  • GEE ——errors & debuggings (2023GEE峰会总结)
    简介:在gee中有三种错误,一种就是系统错误,也就是我们看到的会在JavaScriptcodeeditor中出现的错误,也就是在程序还没有启动之前就会提示的错误,而客户端错误则主要是会提示一些在代码过程中的错误,比如说没出现过的变量名称,另外就是服务器出席那的错误,也就是说,你的代码和你索要运行的......
  • 神经网络中间层特征图可视化(输入为音频)
    importlibrosaimportnumpyasnpimportutilsimporttorchimporttorch.nn.functionalasFfrommatplotlibimportpyplotaspltfromtorchvision.models.feature_extractionimportcreate_feature_extractordevice=torch.device("cuda:0"iftorch.......
  • java操作音频mp3和amr格式转换
    title:音频mp3和amr格式转换tags:-java-mp3-amr一、问题目前大部分java方式操作音频格式转换的都需要安装和配置ffmpeg文件,否则可能会报编/解码器丢失的错误。该方式在本机执行还可以,但是真正运用到生产,由于涉及到扩缩容等问题,真要在生产环境再手动安装ffmpeg就......
  • 改善Go语言编程质量的50个有效实践,技能落地总结50个高效Go程序设计技巧
    改善Go语言编程质量的50个有效实践,技能落地总结50个高效Go程序设计技巧 慕课专栏:《改善Go语言编程质量的50个有效实践》Go语言是Google大牛团队(RobertGriesemer、RobPike以及KenThompson)设计的一种静态类型、编译型编程语言,支持垃圾回收和轻量级并发,它于2009年11月诞......
  • 视频转音频
    目录视频转音频1.maven依赖2.实例视频转音频1.maven依赖<!--视频&音频处理--><dependency><groupId>org.bytedeco</groupId><artifactId>javacv-platform</artifactId><version>1.5</version></dependency>2.实例/**......