音视频技术开发周刊 | 237

音视频技术开发周刊 | 237_编程语言

由于内容和质量的高度多样性，用户生成内容 (UGC) 的视频质量非常难以评估，传统测量和评估视频质量的算法和模型不能很好起作用，在这样的情况，亟需针对 UGC 视频的视频质量评价方法。

使用 Puppeteer + canvas + WebCodecs 来代替 FFmpeg

技术团队将 Puppeteer、MP4Box.js、WebCodecs、canvas 和 FFmpeg（final muxing）结合在一起，创建了一个管道，为网络开发者提供熟悉的 canvas 图形 API，而不牺牲 FFmpeg 的性能。

低延迟体育中的内容感知播放

主讲人主要介绍了在直播体育的场景下，他们提出的内容感知速率控制算法，以避免直播重要时刻的卡顿。

音视频开发之旅（一）三种方式绘制图片

在Android开发中我们最常使用的绘制图片的方式就是ImageView，设置src。那么有没有其他方案可以实现图片的绘制呐？有三种方案！

音视频技术开发周刊 | 237_机器学习_02

iOS AVDemo（4）：音频解封装，从 MP4 中解封装出 AAC丨音视频工程示例

这里是第四篇：iOS 音频解封装 Demo。这个 Demo 里包含以下内容：1、实现一个音频解封装模块；2、实现对 MP4 文件中音频部分的解封装逻辑并将解封装后的编码数据存储为 AAC 文件；3、详尽的代码注释，帮你理解代码逻辑和原理。

人工智能语音识别帮助识别机器故障

声音提供有关计算机运行情况的重要信息。ETH研究人员现在已经开发出一种新的机器学习方法，可以自动检测机器是否“健康”或是否需要维护。

如何基于实时声纹变声实现对声音的“克隆”

「实时声纹变声」将颠覆传统的变声音效软件与AI实时变声体验，通过提取语音的音素特征与声纹特征等一系列技术手段，在实时音视频互动中可以将任意用户的语音实时变换成指定或任意一个他人的语音，实现像柯南变声器那样对声音的真正“克隆”，接下来我们将分别介绍传统主流变声方法与实时声纹变声背后的技术原理。

音视频技术开发周刊 | 237_人工智能_03

自回归解码加速64倍，谷歌提出图像合成新模型MaskGIT

来自谷歌研究院的研究者提出了一种使用双向 transformer 解码器的新型图像合成模型 MaskGIT，在性能和速度上都获得了大幅改进。实验表明，MaskGIT 在 ImageNet 数据集上显著优于 SOTA transformer 模型，并将自回归解码的速度提高了 64 倍。

视频编解码芯片设计原理--05 整像素运动估计

本系列主要介绍视频编解码芯片的设计，以HEVC视频编码标准为基础，简要介绍编解码芯片的整体硬件架构设计以及各核心模块的算法优化与硬件流水线设计。

实时通讯中的拥塞控制算法

实时通讯的需求不断增长，低延时的拥塞控制就显得由为重要。这样就有一个组织叫RMCAT专门来负责制定用于实时通讯的拥塞控制的标准。

音视频技术开发周刊 | 237_编程语言_04

马普所开源ICON，显著提高单张图像重建三维数字人的姿势水平

本文介绍了马普所二年级 CS 博士生修宇亮（Yuliang Xiu）入选 CVPR 2022 的一项三维数字人姿态重建新研究 ——ICON[1]。在本文中，他将详述这项工作的来龙去脉，包括厘清本研究的动机及思维起点 (motivation)、梳理出这二十多页论文的主线、论文中没提及的洞见 (insight)，并着重讲一下 ICON 的局限及改进思路。

字节跳动开源大模型训练框架 veGiantModel

字节跳动 AML 团队内部开发了火山引擎大模型训练框架 veGiantModel。基于 PyTorch 框架，veGiantModel 是以 Megatron 和 DeepSpeed 为基础的高性能大模型训练框架。

使用 FFmpeg 对直播流媒体进行内容分类

首先介绍了 FFmpeg 现有的滤波器，比如超分滤波器或者去雨滤波器。然后讨论了自定义创建场景分类器的过程，介绍了一些训练模型、使用 tensorflow 后端以及利用 GPU 运行模型的经验，该项目已完全开源。

FFmpeg 源码分析-转码4

本系列以 FFmpeg4.2 源码为准，本文主要分析 transcode_step() 的内部逻辑，以一条简单的命令开始，ffmpeg -i a.mp4 b.flv。

星球专享 | 播放器 FFmpeg 依赖库的配置

众所周知，FFmpeg 是有很多编译选项和依赖选项的，打开工程之后，接下来就要添加 FFmpeg 的依赖了。这里并不打算讲要如何编译 FFmpeg ，因为一开始就被编译困住了，很难接下来的学习，反而有一种简单的方式直接拿编译好的库就行了。

音视频技术开发周刊 | 237_人工智能_05

公网传输技术之SRT协议解析（上）

本文将从SRT协议的原理分析入手，尝试定义出一个衡量SRT链路可靠性高低的指标：链路安全冗余量(Secure-Margin)，并详细介绍如何依照这个指标来部署一个可靠的SRT传输链路，并分析在不同的直播场景中的参数调整策略。

基于 QUIC 的低延时视频

QUIC (RFC 9000) 是一种新的网络协议，将视频映射到 QUIC API 有多种方法，具体取决于目标延迟和用户体验。在 Twitch/IVS，一个新的分发协议 (Warp) 被构建来替换原来的 HLS 堆栈，利用独特的优先级方案来最大限度地减少面对拥塞时的延迟。

音视频技术开发周刊 | 237_机器学习_06

FaceShifter：一秒换脸的人脸交换模型

如今，深度学习已近在图像合成、图像处理领域中取得惊人的成果。FaceShifter 便是其中之一，它是一种深度学习模型，可以非常先进的技术实现人脸交换。在本文中，我们将了解它是如何工作的。

Transformer将在AI领域一统天下？现在下结论还为时过早！

从自然语言处理任务起家，又在图像分类和生成领域大放异彩，所向披靡的 Transformer 会成为下一个神话吗？

2022斯坦福AI指数报告出炉！中国霸榜AI顶会，但引用量最低

2022年人工智能指数报告发布了！这份报告中，中国在AI顶会论文上表现不凡，但在引用数量方面却低于美国、欧盟和英国。

人工智能的学习经验总结！

在现在这个时代，我们以前的学习方式不太适用了，如果想高效率的学习，需要转换一种学习方式，不妨从实用的角度出发，遇到不会的再去查漏补缺，这样效率更高。

音视频技术开发周刊 | 237_机器学习_07

什么是AR衍射光波导？

衍射光波导是较为主流的AR眼镜光学显示方案，很多AR眼镜采用的都是这种显示方案，为什么各大AR硬件厂商如此青睐衍射光波导？衍射光波导究竟是什么？今天小编就带大家了解一下什么是衍射光波导。

分享 | 建筑设计师不可错过的3款增强现实(AR)软件

ARki、Fologram、Twinbuild和Gamma AR为设计师、承包商和业主提供了从制造、施工到运营和维护在真实世界中精确参考数字模型的能力。

AR技术在物理实验教学中的应用与实践

将AR技术与传统纸质教材和实验仪器或实验装置实物进行结合，学生通过手机等移动端就可以观看实验仪器或装置的内部三维模型和三维动画等内容，实现了仪器或实验现象的可视化和交互化操作。

2022：AR迈入新纪元丨深度

增强现实可以说是迎来了发展的春天，不论是从硬件角度来看，还是从技术上的发展来看2022年，尽管AR技术发展依旧长路漫漫，但或许已经到了能够为世界经济和科技的下一步发展提供可靠动力的关键节点。

音视频技术开发周刊 | 237_机器学习_08

图像分类的主要难点

图像分类是根据图像的类型（类别）为图像分配标签的过程。考虑我们有以下类别的图像：猫和狗因此，当我们将给定类别的图像提供给图像分类系统时，系统会根据类别为图像分配标签。

腾讯老照片修复算法开源，细节到头发丝，3种预训练模型可下载

还记得能将老照片修复到纤毫毕现的GFPGAN吗？现在，它的代码正式开源了！官方已经在GitHub上传了3个预训练模型。

音视频技术开发周刊 | 237_算法_09

自动驾驶的第五大感知技术：“听觉”+自动驾驶

回顾2021，各大互联网、科技巨头纷纷涉足自动驾驶产业，加速自动驾驶产业的布局。随着资本的不断涌入，以及相关法规政策的完善，自动驾驶产业驶入了发展的快车道。

聊聊未来自动驾驶必须解决哪些感知问题

对于研究下一代智能汽车的系统设计、软件开发而言，需要解决包含架构设计、功能开发、车辆控制等方面的诸多问题，而以上问题的根源都在于环境感知的能力研究。

标签：视频,FFmpeg,模型,实时,音视频,技术开发,AR,图像,237
From： https://blog.51cto.com/u_13530535/6466223

音视频技术开发周刊 | 237

相关文章

赞助商

阅读排行