首页 > 其他分享 >音视频技术开发周刊 | 220

音视频技术开发周刊 | 220

时间:2023-06-13 12:39:33浏览次数:51  
标签:视频 技术开发 AV1 技术 算法 2021 音视频 220


每周一期,纵览音视频技术领域的干货。


音视频技术开发周刊 | 220_网络

拍乐云基于AV1的实时视频系统技术实践

实时视频系统对于时延的要求极高,视频编码器必须满足实时性的要求。新一代视频标准AV1相比主流H.264在Rate-distortation性能的提升上是以复杂度的上升为代价的,当前应用设备的碎片化非常严重、设备的运算能力差异巨大,这些都是新技术落地实时系统面临的挑战。本次分享将围绕拍乐云在设计Pano Venus实时AV1通信系统时的一些技术实践展开深入分析与讲解,期望和大家共同探索实时视频技术的未来。

自监督、半监督学习在内容安全中的应用

在深度学习领域中,半监督、自监督算法通过借助无标签数据与无监督训练任务,可有效改善传统有监督算法中“泛化性能不足”、“模型过拟合”、“严重依赖数据标注质量”等问题。在此次LiveVideoStackCon 2021 音视频技术大会 北京站,我们邀请到了网易易盾资深算法工程师——崔若璇,为我们介绍了半监督学习领域的发展脉络,并展示半监督、自监督算法在网易易盾内容安全业务上的创新应用。

编解码再进化:Ali266与下一代视频技术

过去的一年见证了人类百年不遇的大事记,也见证了多种视频应用的厚积薄发。而因此所带来的视频数据量的爆发式增长更加加剧了对高效编解码这样的底层硬核技术的急迫需求。正是在这样的大环境下,在ITU-T VCEG和ISO/IEC MPEG两大标准组织再次联手推出的最新视频编解码标准VVC定稿不久之后,阿里巴巴的视频团队开始全力投入开展VVC软件编解码的开发工作。本次LiveVideoStackCon2021北京峰会我们邀请到了阿里巴巴研究员,阿里云智能云视频标准与实现负责人叶琰老师来分享视频业界现状、Ali266自研VVC编解码器的技术演进史和业务展望、以及视频业界所面临的未来机遇和挑战。

冲刺最后一公里——音视频场景下的边缘计算实践

近年来,边缘计算逐渐从未来风口变成了进行时,而内容分发这个天生与“下沉”密不可分的领域,在边缘计算实践中可谓一马当先。网心从2014年开始探索边缘传输网络的商业可行性,实现了传统CDN到边缘CDN的技术演进,也见证了边缘CDN从超前概念到行业标配的发展历程。当数据下沉到最后一公里时,在如此复杂的节点和网络环境下构建百万量级的边缘节点网络,同时服务好需求不断深化的音视频业务,是一个不小的挑战。在此次LiveVideoStackCon 2021 音视频技术大会 北京站,我们邀请到了网心科技首席架构师——曾伟纪,与大家分享一些实践历程和关键问题,以供参考。

下一代音视频SDK的方案设计

经过五年的努力,腾讯云终端团队不断完善并积累出了一套完整的终端SDK方案体系,包含即时通信,主播推流,直播播放、点播播放、RTC实时互动、短视频录制,特效编辑等一系列音视频和实时通信相关的功能特性。在这些功能背后,团队是如何完成了框架设计、组件打磨、数据流转、性能优化的呢?本次LiveVideoStackCon 2021北京站我们邀请到了腾讯云的常青来从产品能力、架构设计、以及技术原理等多个角度进行剖析分享。

音视频技术开发周刊 | 220_大数据_02

基于神经网络视频编码的通用测试规范

JVET第20次会议为基于神经网络的编码成立了EE1,这个EE专门用于探索深度学习在视频编码方面的潜能。为了规范和统一测试条件,JVET专门制定了相应的通用测试条件(Common Test Conditions ,CTC),最新版CTC为JVET-X2016(公众号后台回复“JVET-X2016”获取)。CTC规定了配置、测试序列、训练序列、参考软件、训练方法、评价指标等。

用于大规模视频流的硬件编码架构

本次演讲将介绍基于硬件的视频编码的进展。目前大规模视频服务和平台被迫降低其运营成本,同时减少碳足迹。演讲将比较 GPU、FPGA 和基于 ASIC 硬件的数据中心视频编码。并介绍 ASIC 能够解锁新视频应用并提高现有解决方案的经济可行性的特定用例。

一问一答,浅谈Penguins AI-Codec

腾讯会议天籁实验室携手腾讯AI Lab,共同打造的Penguins,于2021腾讯技术生态大会上正式面世。Penguins是一款超低码率、高质量AI-Codec,支持多种运行模式,以满足RTC场景下多种应用诉求。其核心技术点在于,紧密结合经典信号处理和最新的深度学习技术,最大化提升带宽利用率。

奈飞TV流媒体的AV1实践

AV1 是由开放媒体联盟(AOMedia)提供的第一个免版税许可的高效视频编解码器,Netflix 作为 AOMedia 的创始成员和 AV1 发展的主要贡献者,希望将 AV1 流媒体带到 Netflix 用户的 TV 上。为此 Netflix 做出了许多努力,克服了许多问题与挑战,这里简要介绍了四大挑战以及 Netflix 的解决方案。最终 Netflix 实现了用户体验质量的提升,延迟的降低。

航拍 HDR 视频的 VVC 和 AV1 编码

本文来自 SPIE Optical Engineering + Applications, 2021,作者从以下三个角度研究了航拍 HDR 视频:a) 转换为 VVC 或 AV1 格式码流的方便性;b) 转换为 VVC 或 AV1 格式码流的效率;c) 是否存在复杂度或播放上的问题。

音视频技术开发周刊 | 220_编程语言_03

软硬一体的算法实践,阿里云如何以算法实现场景“再创新”?

音视频消费的新场景催生了越来越多新的技术需求,从当下的直播、点播、RTC,到未来的XR和元宇宙,音视频技术对新场景的支撑越来越趋向于综合性,近年来AI算法发展迅猛,但是较好的算法效果往往需要消耗很大的算力资源,这使算法商业化落地面临非常大的挑战。我们应该如何充分发挥软硬一体的能力?如何有效平衡算法效果和性能?

小波去噪的基本原理及其实现方法(Matlab)

小波去噪方法就是一种建立在小波变换多分辨分析基础上的算法,其基本思想是根据噪声与信号在不同频带上的小波分解系数具有不同强度分布的特点,将各频带上的噪声对应的小波系数去除,保留原始信号的小波分解系数,然后对处理后的系数进行小波重构,得到纯净信号。

WebRTC 实现 Android 传屏 demo

目前,WebRTC的应用已经不局限在浏览器与浏览器之间,通过官方提供的SDK,我们可以很容易的实现本地应用间的音视频传输。在Android平台上,我们也非常容易的集成WebRTC框架,用非常简洁的代码就能实现强大、可靠的音视频传输功能。

音视频技术开发周刊 | 220_网络_04

深入理解 TCP 拥塞控制

随着网络技术的飞速发展,越来越多的工作依赖网络完成,基于互联网的实时通信系统的质量和实时性也很大程度也依赖于网络质量。然而,在Internet的TCP/IP体系结构中,拥塞的发生是其固有的属性。网络拥塞是指用户对网络资源(包括链路带宽、存储空间和处理器处理能力等)的需求超过了固有的处理能力和容量, 相比UDP,TCP自身具有拥塞控制机制,并且需要保障数据可靠传输,这会对基于TCP的音视频实时传输造成一定的困扰。本文将深入讲解TCP的拥塞控制机制以及如何基于TCP传输来设计一个实时音视频系统。

音视频技术开发周刊 | 220_机器学习_05

Python 三维姿态估计+Unity3d 实现 3D 虚拟现实交互游戏

随着人机交互技术飞速发展,人体姿态估计技术越来越受到重视。姿态估计作为人体行为识别的重要组成部分,近年来逐渐成为计算机视觉领域的一个重要的研究热点。由于人体结构和姿态的复杂性以及视觉理论的局限性,最初人体姿态估计算法仅从图像或者视频当中预测人体二维骨架节点的坐标位置。2015年马普所提出了由姿态与体型参数驱动的蒙皮多人线性模型,由于该模型具有出色的建模效果与快速的计算效率,许多团队提出了利用该模型进行人体姿态估计的方法。

音视频技术开发周刊 | 220_编程语言_06

NeurIPS 2021 | 视觉Transformer和CNN看到的特征是相同的吗?谷歌大脑新作

近年来,Vision Transformer (ViT) 势头强劲。本文将解释论文《Do Vision Transformers See Like Convolutional Neural Networks?》 (Raghu et al., 2021) 由  Google Brain 发表,并探讨传统CNN 和 Vision Transformer 之间的区别。

音视频技术开发周刊 | 220_算法_07

基于点线特征的激光雷达单目视觉里程计

本文介绍了一种新颖的使用点和线的激光雷达+单目视觉的里程计方法。与以往的基于lidar+视觉里程计相比,通过在姿态估计中引入点和线特征来利用更多的环境结构信息。提出了一种稳健的点线特征深度提取方法,并将提取的深度值作为点线捆集平差法的先验因子。该方法大大降低了特征的三维模糊度,提高了姿态估计精度。

DROID-SLAM: 单目、双目、RGBD相机的深度视觉SLAM

本文提出了DROID-SLAM, 一个全新的基于深度学习的SLAM系统. DROID-SLAM通过一个深度BA层来循环迭代的更新相机位姿和像素深度值. 实验证明, DROID-SLAM比传统SLAM取得了更高的精度和鲁棒性, 在实验场景中几乎不会失败. 尽管我们只在单目视频上训练了我们的网络, 但是在测试阶段,这个网络仍然可以在双目和RGB-D视频上取得很好的表现。

活动推荐

【城市沙龙】LiveVideoStack Meet|成都:蜀主风流


音视频技术开发周刊 | 220_网络_08

11月20日,LiveVideoStack Meet 成都站 将采用线上直播形式,我们邀请到了京东、新东方、顺丰和咪咕视频等企业的嘉宾进行干货分享,与大家畅谈成都的音视频环境与发展。也期待疫情过后,有更多零距离的交流。

报名链接:

https://www.huodongxing.com/event/9621015759400


插图源自Pexels

标签:视频,技术开发,AV1,技术,算法,2021,音视频,220
From: https://blog.51cto.com/u_13530535/6468856

相关文章

  • 下一代音视频SDK的方案设计
    经过五年的努力,腾讯云终端团队不断完善并积累出了一套完整的终端SDK方案体系,包含即时通信,主播推流,直播播放、点播播放、RTC实时互动、短视频录制,特效编辑等一系列音视频和实时通信相关的功能特性。在这些功能背后,团队是如何完成了框架设计、组件打磨、数据流转、性能优化的呢?本次Li......
  • 2021 音视频技术趋势不完全预测
    TheEconomist(经济学人)在TheWorldin2021特别刊的编者序中写到:“21 是一个与好运、冒险、机遇和掷骰子有关的数字——它是一个标准骰子六面数字相加的总和(即前6个自然数——1+2+3+4+5+6=21——的和,也称三角形数)”。维基百科又告诉我们,21是库德族旗帜中太阳光......
  • LiveVideoStackCon2021音视频技术大会北京站开幕在即,精彩抢鲜看
    10.29-10.30,LiveVideoStackCon2021音视频技术大会北京站将在北京丽亭华苑酒店举行。16个技术专题,67场技术分享,77位讲师,近500位多媒体生态技术代表将齐聚本届LiveVideoStackCon。本届大会主题为:新技术,新机会。在此主题下,大会将围绕技术创新和行业机会,为大家带来一场多媒体技术领域......
  • IBM Cloud:裸金属服务器+多云策略助力音视频解决方案成功出海
    到底什么是公有云、私有云和混合云?疫情给云服务厂商带来了哪些挑战?IBM是如何助力音视频解决方案成功出海的?“后疫情”时代音视频的下一个风口在哪里?对此,LiveVideoStack很荣幸地采访到了来自IBM云平台事业部,资深云计算架构师——胡磊,聊一聊他对这些问题的看法和观点。胡磊技术访谈#0......
  • 解密华为云原生媒体网络如何保障实时音视频服务质量
    随着5G和AI的发展,内容表达视频化成为了当今的主流,很多行业对视频分发有非常旺盛的需求。我们非常荣幸地请到了华为云的资深视频架构师黄挺,为大家介绍基于互联网的实时音视频服务所面临的挑战,分享华为云原生媒体网络全方位保障实时音视频服务体验的实践。文/黄挺整理/LiveVideoS......
  • 音视频技术开发周刊 | 238
    整个世界都是你的绿幕:这个视频抠图换背景的方法着实真假难辨绿幕是影视剧中抠图、换背景的利器,但如果不在绿幕前拍摄,我们还能完美地转换背景吗?华盛顿大学的研究者最近就上传了这样一份论文,不在绿幕前拍摄也能完美转换视频背景,让整个世界都变成你的绿幕。使用边缘计算来增强流传输本......
  • 音视频技术开发周刊 | 237
    瘦脸、瘦腿太初级,揭秘「亚洲秘术」美颜美体特效在机器之心最新一期技术分享中,机器之心机动组以「揭秘人体美化技术」为主题,邀请到了快手、淘宝、火山引擎的技术专家,为大家解密这些特效背后的相关技术。UGC视频质量评价由于内容和质量的高度多样性,用户生成内容(UGC)的视频质量非......
  • 音视频技术开发周刊 | 230
    Opera视频出海非洲面临的技术挑战及应对Opera是一个主要业务在海外的公司。非洲地区,基础设施差,网络带宽小,人均收入低。如何在非洲地区做好视频分发传输是需要一定的市场、技术深耕。本次LiveVideoStackCon2021音视频技术大会北京站,我们邀请到了Opera的技术副总监——张建磊,为我们......
  • 音视频技术开发周刊 | 231
    面向在线教育业务的流媒体分发演进几年前,很多人对在线网课还非常陌生。随着移动设备的普及和音视频技术的发展,如今在线教育产品百花齐放。而在线教育产品能服务千万学子离不开流媒体分发技术的支撑。本次LiveVideoStackCon2021音视频技术大会北京站邀请到了网易有道研发工程师周......
  • 未来已来,音视频江湖再起波澜
    从通信为王的时代,到互联网高歌猛进的二十一世纪,音视频技术一直是众多科技公司的必备技能。一部手机联通全球各地,一个社交账号互动各国友人,已经不是什么新鲜事;就连超低延迟,超高清画质,沉浸式互动的元宇宙和全真互联,都在快速发酵,似乎马上就要被底层的摩尔定律催化过期。新鲜的应用容易......