首页 > 其他分享 >音视频技术开发周刊 | 237

音视频技术开发周刊 | 237

时间:2023-06-12 22:32:41浏览次数:42  
标签:视频 FFmpeg 模型 实时 音视频 技术开发 AR 图像 237

音视频技术开发周刊 | 237_编程语言

瘦脸、瘦腿太初级,揭秘「亚洲秘术」美颜美体特效

在机器之心最新一期技术分享中,机器之心机动组以「揭秘人体美化技术」为主题,邀请到了快手、淘宝、火山引擎的技术专家,为大家解密这些特效背后的相关技术。

UGC 视频质量评价

由于内容和质量的高度多样性,用户生成内容 (UGC) 的视频质量非常难以评估,传统测量和评估视频质量的算法和模型不能很好起作用,在这样的情况,亟需针对 UGC 视频的视频质量评价方法。

使用 Puppeteer + canvas + WebCodecs 来代替 FFmpeg

技术团队将 Puppeteer、MP4Box.js、WebCodecs、canvas 和 FFmpeg(final muxing)结合在一起,创建了一个管道,为网络开发者提供熟悉的 canvas 图形 API,而不牺牲 FFmpeg 的性能。

低延迟体育中的内容感知播放

主讲人主要介绍了在直播体育的场景下,他们提出的内容感知速率控制算法,以避免直播重要时刻的卡顿。

音视频开发之旅(一)三种方式绘制图片

在Android开发中我们最常使用的绘制图片的方式就是ImageView,设置src。那么有没有其他方案可以实现图片的绘制呐?有三种方案!

音视频技术开发周刊 | 237_机器学习_02

iOS AVDemo(4):音频解封装,从 MP4 中解封装出 AAC丨音视频工程示例

这里是第四篇:iOS 音频解封装 Demo。这个 Demo 里包含以下内容:1、实现一个音频解封装模块;2、实现对 MP4 文件中音频部分的解封装逻辑并将解封装后的编码数据存储为 AAC 文件;3、详尽的代码注释,帮你理解代码逻辑和原理。

人工智能语音识别帮助识别机器故障

声音提供有关计算机运行情况的重要信息。ETH研究人员现在已经开发出一种新的机器学习方法,可以自动检测机器是否“健康”或是否需要维护。

如何基于实时声纹变声实现对声音的“克隆”

「实时声纹变声」将颠覆传统的变声音效软件与AI实时变声体验,通过提取语音的音素特征与声纹特征等一系列技术手段,在实时音视频互动中可以将任意用户的语音实时变换成指定或任意一个他人的语音,实现像柯南变声器那样对声音的真正“克隆”,接下来我们将分别介绍传统主流变声方法与实时声纹变声背后的技术原理。

音视频技术开发周刊 | 237_人工智能_03

自回归解码加速64倍,谷歌提出图像合成新模型MaskGIT

来自谷歌研究院的研究者提出了一种使用双向 transformer 解码器的新型图像合成模型 MaskGIT,在性能和速度上都获得了大幅改进。实验表明,MaskGIT 在 ImageNet 数据集上显著优于 SOTA transformer 模型,并将自回归解码的速度提高了 64 倍。

视频编解码芯片设计原理--05 整像素运动估计

本系列主要介绍视频编解码芯片的设计,以HEVC视频编码标准为基础,简要介绍编解码芯片的整体硬件架构设计以及各核心模块的算法优化与硬件流水线设计。

实时通讯中的拥塞控制算法

实时通讯的需求不断增长, 低延时的拥塞控制就显得由为重要。这样就有一个组织叫RMCAT专门来负责制定用于实时通讯的拥塞控制的标准。

音视频技术开发周刊 | 237_编程语言_04

马普所开源ICON,显著提高单张图像重建三维数字人的姿势水平

本文介绍了马普所二年级 CS 博士生修宇亮(Yuliang Xiu)入选 CVPR 2022 的一项三维数字人姿态重建新研究 ——ICON[1]。在本文中,他将详述这项工作的来龙去脉,包括厘清本研究的动机及思维起点 (motivation)、梳理出这二十多页论文的主线、论文中没提及的洞见 (insight),并着重讲一下 ICON 的局限及改进思路。

字节跳动开源大模型训练框架 veGiantModel

字节跳动 AML 团队内部开发了火山引擎大模型训练框架 veGiantModel。基于 PyTorch 框架,veGiantModel 是以 Megatron 和 DeepSpeed 为基础的高性能大模型训练框架。

使用 FFmpeg 对直播流媒体进行内容分类

首先介绍了 FFmpeg 现有的滤波器,比如超分滤波器或者去雨滤波器。然后讨论了自定义创建场景分类器的过程,介绍了一些训练模型、使用 tensorflow 后端以及利用 GPU 运行模型的经验,该项目已完全开源。

FFmpeg 源码分析-转码4

本系列 以 FFmpeg4.2 源码为准,本文主要分析 transcode_step() 的内部逻辑,以一条简单的命令开始,ffmpeg -i a.mp4 b.flv。

星球专享 | 播放器 FFmpeg 依赖库的配置

众所周知,FFmpeg 是有很多编译选项和依赖选项的,打开工程之后,接下来就要添加 FFmpeg 的依赖了。这里并不打算讲要如何编译 FFmpeg ,因为一开始就被编译困住了,很难接下来的学习,反而有一种简单的方式直接拿编译好的库就行了。

音视频技术开发周刊 | 237_人工智能_05

公网传输技术之SRT协议解析(上)

本文将从SRT协议的原理分析入手,尝试定义出一个衡量SRT链路可靠性高低的指标:链路安全冗余量(Secure-Margin),并详细介绍如何依照这个指标来部署一个可靠的SRT传输链路,并分析在不同的直播场景中的参数调整策略。

基于 QUIC 的低延时视频

QUIC (RFC 9000) 是一种新的网络协议,将视频映射到 QUIC API 有多种方法,具体取决于目标延迟和用户体验。在 Twitch/IVS,一个新的分发协议 (Warp) 被构建来替换原来的 HLS 堆栈,利用独特的优先级方案来最大限度地减少面对拥塞时的延迟。

音视频技术开发周刊 | 237_机器学习_06

FaceShifter:一秒换脸的人脸交换模型

如今,深度学习已近在图像合成、图像处理领域中取得惊人的成果。FaceShifter 便是其中之一,它是一种深度学习模型,可以非常先进的技术实现人脸交换。在本文中,我们将了解它是如何工作的。

Transformer将在AI领域一统天下?现在下结论还为时过早!

从自然语言处理任务起家,又在图像分类和生成领域大放异彩,所向披靡的 Transformer 会成为下一个神话吗?

2022斯坦福AI指数报告出炉!中国霸榜AI顶会,但引用量最低

2022年人工智能指数报告发布了!这份报告中,中国在AI顶会论文上表现不凡,但在引用数量方面却低于美国、欧盟和英国。

人工智能的学习经验总结!

在现在这个时代,我们以前的学习方式不太适用了,如果想高效率的学习,需要转换一种学习方式,不妨从实用的角度出发,遇到不会的再去查漏补缺,这样效率更高。

音视频技术开发周刊 | 237_机器学习_07

什么是AR衍射光波导?

衍射光波导是较为主流的AR眼镜光学显示方案,很多AR眼镜采用的都是这种显示方案,为什么各大AR硬件厂商如此青睐衍射光波导?衍射光波导究竟是什么?今天小编就带大家了解一下什么是衍射光波导。

分享 | 建筑设计师不可错过的3款增强现实(AR)软件

ARki、Fologram、Twinbuild和Gamma AR为设计师、承包商和业主提供了从制造、施工到运营和维护在真实世界中精确参考数字模型的能力。

AR技术在物理实验教学中的应用与实践

将AR技术与传统纸质教材和实验仪器或实验装置实物进行结合,学生通过手机等移动端就可以观看实验仪器或装置的内部三维模型和三维动画等内容,实现了仪器或实验现象的可视化和交互化操作。

2022:AR迈入新纪元丨深度

增强现实可以说是迎来了发展的春天,不论是从硬件角度来看,还是从技术上的发展来看2022年,尽管AR技术发展依旧长路漫漫,但或许已经到了能够为世界经济和科技的下一步发展提供可靠动力的关键节点。

音视频技术开发周刊 | 237_机器学习_08

图像分类的主要难点

图像分类是根据图像的类型(类别)为图像分配标签的过程。考虑我们有以下类别的图像:猫和狗因此,当我们将给定类别的图像提供给图像分类系统时,系统会根据类别为图像分配标签。

腾讯老照片修复算法开源,细节到头发丝,3种预训练模型可下载

还记得能将老照片修复到纤毫毕现的GFPGAN吗?现在,它的代码正式开源了!官方已经在GitHub上传了3个预训练模型。

音视频技术开发周刊 | 237_算法_09

自动驾驶的第五大感知技术:“听觉”+自动驾驶

回顾2021,各大互联网、科技巨头纷纷涉足自动驾驶产业,加速自动驾驶产业的布局。随着资本的不断涌入,以及相关法规政策的完善,自动驾驶产业驶入了发展的快车道。

聊聊未来自动驾驶必须解决哪些感知问题

对于研究下一代智能汽车的系统设计、软件开发而言,需要解决包含架构设计、功能开发、车辆控制等方面的诸多问题,而以上问题的根源都在于环境感知的能力研究。

标签:视频,FFmpeg,模型,实时,音视频,技术开发,AR,图像,237
From: https://blog.51cto.com/u_13530535/6466223

相关文章

  • 音视频技术开发周刊 | 230
    Opera视频出海非洲面临的技术挑战及应对Opera是一个主要业务在海外的公司。非洲地区,基础设施差,网络带宽小,人均收入低。如何在非洲地区做好视频分发传输是需要一定的市场、技术深耕。本次LiveVideoStackCon2021音视频技术大会北京站,我们邀请到了Opera的技术副总监——张建磊,为我们......
  • 音视频技术开发周刊 | 231
    面向在线教育业务的流媒体分发演进几年前,很多人对在线网课还非常陌生。随着移动设备的普及和音视频技术的发展,如今在线教育产品百花齐放。而在线教育产品能服务千万学子离不开流媒体分发技术的支撑。本次LiveVideoStackCon2021音视频技术大会北京站邀请到了网易有道研发工程师周......
  • 未来已来,音视频江湖再起波澜
    从通信为王的时代,到互联网高歌猛进的二十一世纪,音视频技术一直是众多科技公司的必备技能。一部手机联通全球各地,一个社交账号互动各国友人,已经不是什么新鲜事;就连超低延迟,超高清画质,沉浸式互动的元宇宙和全真互联,都在快速发酵,似乎马上就要被底层的摩尔定律催化过期。新鲜的应用容易......
  • 【专题介绍】音视频+
    音视频+从音视频编解码到网络传输的进一步降低时延;从智能硬件的开发到内容生产端与消费端的升级;从客户端建设到服务质量与体验的提升……音视频领域内的方方面面都在不断向前推进,助力着一个又一个行业从初生到走向成熟,或是加速转型,如:智慧医疗、工业/IoT、游戏、影视行业等等。「音......
  • 音视频PaaS的“未毕之旅”
    编者按:从思科到网易云信,从硅谷回到国内,赵加雨形容自己“爱折腾”。前有EricYuan,赵斌,后有大厂小厂纷纷入局RTC,赵加雨摩拳擦掌。2019年,拍乐云成立,拿到来自红杉中国种子基金的投资。两年多过去了,钉钉宣布收购拍乐云,又完成了一次创业的阶段性里程碑。在赵加雨看来,进入钉钉和阿里,资金......
  • 音视频PaaS的“未毕之旅”
    编者按:从思科到网易云信,从硅谷回到国内,赵加雨形容自己“爱折腾”。前有EricYuan,赵斌,后有大厂小厂纷纷入局RTC,赵加雨摩拳擦掌。2019年,拍乐云成立,拿到来自红杉中国种子基金的投资。两年多过去了,钉钉宣布收购拍乐云,又完成了一次创业的阶段性里程碑。在赵加雨看来,进入钉钉和阿里,资金、......
  • Luogu P2375 [NOI2014] 动物园
    [NOI2014]动物园题目描述近日,园长发现动物园中好吃懒做的动物越来越多了。例如企鹅,只会卖萌向游客要吃的。为了整治动物园的不良风气,让动物们凭自己的真才实学向游客要吃的,园长决定开设算法班,让动物们学习算法。某天,园长给动物们讲解KMP算法。园长:“对于一个字符串\(S\),它......
  • [C#] FFmpeg 音视频开发总结
    为什么选择FFmpeg?延迟低,参数可控,相关函数方便查询,是选择FFmpeg作为编解码器最主要原因,如果是处理实时流,要求低延迟,最好选择是FFmpeg。如果需要用Opencv或者C#的Emgucv这种库来处理视频流,也多是用FFmpeg做编解码然后再转换图像数据给Opencv去处理。用Opencv编解码延迟很高。其......
  • ABC237G Range Sort Query
    思路这道题跟P2824的思路是很相似的。首先由于我们只需求一个特定的值在排序后的位置,而原序列又是一个排列,因此我们可以将序列中的所有数分为三种:大于\(X\)的;等于\(X\)的;小于\(X\)的。我们不关心除了\(X\)之外的其他值的具体数字,而只关心其与\(X\)的大小关系,......
  • 零声学院 音视频高级教程 ubuntu16.04 ffmpeg开发环境搭建
    配置环境ubuntudesktop16.04+ffmpeg4.2.1建议在《编译与安装》一节,都使用源码的方式编译和安装,本编译安装方式最终生成的皆为静态库。部分命令说明:git-C[git-command]指定其它路径的仓库执行命令注意,-C要在命令之前创建目录在home目录下创建ffmpeg_sources:用于下载源文......