峰会进行时
这一站,趣丸科技来到了 11 月 24-25 日举办的 LiveVideoStackCon 音视频技术大会(深圳站)。LiveVideoStackCon 是专注于音视频领域的技术大会,致力于分享一流的音视频技术内容,在把握行业趋势和热点的同时持续挖掘技术深度。本次大会设置了 LOT 与多媒体、AIGC 与内容生产、音频与体验等 13+场专题,50+技术分享。自首届以来的 13 场大会中,LiveVideoStackCon 成为众多音视频技术人的舞台、国内多媒体生态的风向标。
随着多媒体和通信网络技术的持续升级,以及新型音视频应用场景的不断涌现,音频处理技术正朝着更加智能化和沉浸化的方向迅猛发展。趣丸科技媒体算法负责人马金龙,将于会上发表题为《智能音频能力移动端落地实践》主题分享,通过对智能音频的技术层面、用户体验等方面分析和优化,将进一步推动智能音频能力在移动端的发展和应用。
随着泛娱乐社交的持续火热和 AIGC 的兴起,越来越多了的场景需要用到智能语音处理技术来辅助内容理解和智能交互,因此打造端上智能语音技术显得尤为重要且迫切。例如,用户可以通过端上音频事件检测和端上语音识别对内容进行实时标定,为理解用户意图提供了技术保障。同时,端上语音识别为我们打造基于 AIGC 的智能交互助手提供了低成本方案。
演讲嘉宾
马金龙 | 趣丸科技媒体算法负责人
研究生毕业,CCF 专业会员,9 年媒体算法开发经验,涉及音视频图像文本,负责过音频前后端处理,弱网优化,音视频质量提升,智能内容安全审核“T 网”,内容理解“T 悟”等大型项目。曾作为“灵声讯”创始人,参与智能媒体技术自媒体运营和推广。
演讲提纲
1.端上智能音频能力介绍
2.应用案例及面临的问题
3.端上智能音频实践之路
4.总结与展望
本次分享主要分为四部分:
第一部分是端上智能音频技术现状和挑战,通过此部分了解业界端上智能音频技术目前面临的问题和困难,定位、分析问题。
第二部分是趣丸科技音频技术团队针对端上打造的一系列智能音频技术,例如端上语音情感识别,端上娇喘&炸房识别,端上语音识别等。这部分不仅涵盖了技术原理,优化思路,训练经验,还有针对端上的压缩剪枝方法。
第三部分是端上智能音频技术的应用和落地场景案例分析,例如基于端上 ASR+ LLM + TTS 的智能语音助手,开黑场景语音房的端上内容理解(语音情感+音频事件检测)等。
最后一部分是未来展望,针对移动端技术优化思路和结合 AIGC 落地应用提供自己的见解和看法。
快问快答
关于本次分享 ,我们找金龙聊了聊
↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓
问:端上智能音频技术发展多年,近期呈现什么样新的发展态势?
答:呈现欣欣向荣的态势。整体来在三个方面有大的发展:首先是模型结构方面层出不穷,无论是CTC (Connectionist- Temporal-Classification)、AED (Attention-based,Encoder-Decoder),还是RNNT (RNN Transducer) 都达到不错的识别准确率;其次是开源方案越来越成熟,进一步催生了智能音频技术的大规模应用;最后是商用技术方案还需要针对性优化和迭代,多技术组合发挥业务价值成了趋势。
它强调以下几个关键点:
层出不穷、准确率、大规模应用、优化和迭代
问:趣丸科技在端上智能音频能力实践中,遇到了哪些挑战?
答:遇到困难很多,但团队都咬着牙克服和攻克了。例如,在模型迭代期初,我们为了追求一味的高识别准确率,加大了模型训练的数据量,导致期初模型超200M。
随着SDK准入制度的建立,需要再模型大小和性能消耗方面做取舍,算法同学大量查阅论文,学习模型剪枝,压缩,量化等方面新技术,终于在一次次失败后,终于使得模型大小从200M->170M->120M->70M->36M->20M,基本符合了准入门槛,识别准确率也达到了产品上线的标准。
问:在这次大会上的议题演讲有什么亮点,端上智能音频能力会带来哪些价值?
答:这次LiveVideoStackCon汇集了各行各业在音视频技术上的实践分享,除了有大家关注的LOT和多媒体、AI与音视频专题还有当下火爆的AIGC智能创作主题。
而我们的议题主要会针对以下方面给行业提供借鉴思考:
- 结合业务场景介绍面临的问题;
- 面对问题提出我们解决思路;
- 推出端上智音技术实践(本期重点ASR语音识别,SED声音事件检测)过程,重点在模型训练,模型压缩,性能优化等方面展开。
如果你有更多的问题想了解,欢迎评论区留言分享~