首页 > 其他分享 >「人眼视觉不再是视频消费的唯一形式」丨智能编解码和 AI 视频生成专场回顾@RTE2024

「人眼视觉不再是视频消费的唯一形式」丨智能编解码和 AI 视频生成专场回顾@RTE2024

时间:2024-11-14 22:46:19浏览次数:1  
标签:RTE2024 视频 编码 AI 编解码 生成 智能

 

 

 

你是否想过,未来你看到的电影预告片、广告,甚至新闻报道,都可能完全由 AI 生成?

 

在人工智能迅猛发展的今天,视频技术正经历着一场前所未有的变革。从智能编解码到虚拟数字人,再到 AI 驱动的视频生成,这一领域的创新正以惊人的速度推进。这些进步不仅提升了技术指标,更为实时互动、内容创作、广告营销等场景带来了全新的可能性。

 

在本届 RTE2024 实时互联网大会上,来自学界和业界的多位专家深入探讨了视频 AI 技术的最新进展。阿里巴巴达摩院的陈建华、声网的周世付、鹏城实验室的林荣群、双深科技的曹磊、生数科技的张旭东等行业专家分享了他们的研究成果和洞见。

 

北京大学的马思伟教授和声网视频编解码负责人戴伟分别主持了主题分享和圆桌讨论环节。

 

 

林荣群:AI 时代下的智能视频编解码新思路

 

 

鹏城实验室的林荣群博士以一个问题开篇:「如果视频内容全部由 AI 生成,我们该如何进行编码?」

 

林博士首先回顾了视频编码的发展历程,从早期以人眼感知为导向的保真度指标,到注重商业评级的阶段,再到如今 AI 时代对智能任务的需求,视频编码的目标不断演变。他指出,未来的智能编码不仅要满足人类视觉体验,更要服务于机器识别、检测等 AI 任务。

 

在介绍智能编码技术时,林博士强调了两个关键点:智能作为工具,提升我们对编码对象的理解;智能作为目标,服务于下游智能应用。他认为,智能编码的核心挑战在于对场景和对象进行结构化表示。「深入理解压缩对象,才能大幅提升压缩效率。」林博士解释道。

 

林博士随后详细介绍了几种智能编码的技术路线,包括传统编码与深度学习的融合、全神经网络框架以及生成式编码。他还特别介绍了鹏城实验室在文生视频大模型领域的实践,展示了团队基于国产框架和算力平台的最新成果。

 

展望未来发展方向,林博士提出了几个关键点:数据处理的重要性、算法优化、模型轻量化以及推理和采样速度的提升。

 

 

周世付:虚拟数字人的发展趋势与技术突破

 

 

声网人工智能算法负责人周世付首先介绍了虚拟数字人的基本概念,指出它是存在于数字空间中,拥有近似真人或卡通人物外貌、行为和特质的角色。一个成功的虚拟数字人需要兼具「好看的皮囊和有趣的灵魂」。

 

他将虚拟数字人的制作流程概括为三个阶段:建模、驱动和交互。建模阶段利用 AI 技术为特定人物创建模型;驱动阶段运用计算机视觉技术,赋予模型动态的表情和动作;最后,借助大语言模型,实现与虚拟数字人的自然流畅的交互。

 

展望未来,周世付认为虚拟数字人的发展将呈现四大趋势:

 

  1. 3D 智能数字人:3D 形式将成为主流,结合大语言模型实现更高级的智能化。

  2. 实时互动:传输表情参数而非图像像素,依靠终端设备重建数字人形象,实现低延迟、高流畅度的互动体验。

  3. 虚实融合:将数字人融入虚拟空间,增强沉浸式互动体验。

  4. 低成本应用:通过技术进步降低计算量和成本,推动数字人在更广泛的场景中应用。

 

 

陈建华:新一代视频编解码标准 VVC 的机遇与挑战

 

 

 

阿里巴巴达摩院高级算法专家陈建华从一线研发和应用的角度,深入剖析了 VVC(Versatile Video Coding)标准在实际落地过程中的关键问题。

 

关于 VVC 标准发布四年多来的发展现状,陈建华介绍说,支持 VVC 硬件的芯片正逐渐增多,包括联发科(MediaTek)、瑞昱(RealTek)等厂商均已发布相关产品。基于这些芯片,市场上已经出现了超过 100 款支持 VVC 的智能电视、机顶盒等设备。在软件生态方面,除了标准参考软件 VTM 之外,多个开源编解码器和播放器也已支持 VVC,为开发者提供了丰富的学习和研究资源。

 

以达摩院自研的 DAMO 266 为例,陈建华介绍了他们在软件解码器优化方面的创新成果。通过异构计算技术,将关键算法迁移到 DSP 等单元,显著降低了功耗,使 VVC 软解码在移动端的性能已接近 H.265 硬解码水平。这不仅扩展了 VVC 的设备覆盖范围,也为其大规模应用扫清了障碍。

 

 

曹磊:AI Codec 将引领视频编解码技术革新

 

 

双深科技 CEO 曹磊指出,在图像和视频大爆发的时代,提升编解码性能是实现降本增效的关键手段。AI 正在计算机视觉领域发挥越来越重要的作用,贯穿从成像到应用的整个过程。如果编解码也能融入 AI,整个流程将更加智能化。

 

曹磊指出,传统编解码技术发展到 H.266 后,提升空间已趋于平缓,且编码复杂度高,落地困难。相比之下,AI Codec 基于深度学习的端到端编码,能更好地表达细微特征,拥有更大的发展潜力。他引用了团队最新的研究成果,表明他们研发的 ANF 基础模型在平均数据序列上,相比 H.266 的参考软件 VTM,压缩率提升了约 25%,超越了 DCVC 等现有方案。同时,他还介绍了 IEEE 1857.11 HIV 标准,其中双深科技贡献了一项高效的并行熵编码核心专利。

 

曹磊重点分享了 AI Codec 在移动端落地的实践。为了实现落地,团队致力于模型轻量化,包括模型剪枝、蒸馏和量化等,并在算子定制化部署上投入了大量精力,以适应不同型号的手机 NPU。

 

 

张旭东:AI 视频生成技术的飞跃与实践

 

 

生数科技产品总监张旭东分享了 AI 视频生成技术的最新进展。他带领的团队深耕多模态大模型领域多年,亲历了从 GPT-3 到 ChatGPT 的技术变革,以及从图像生成到视频生成的跨越式发展。

 

张旭东回顾了团队在视频生成领域的探索历程。早在 2022 年,他们就提出了 U-ViT 框架,这一架构与后来备受瞩目的 Sora 有着诸多相似之处,其核心优势在于能够进行连续预测,从而获得更佳的一致性和效果。

 

生数科技的视频生成模型在实践中展现出多项显著优势:

 

  1. 强大的语义理解能力:能够精准捕捉复杂的场景描述。

  2. 多镜头语言支持:实现镜头间的流畅过渡。

  3. 极致的推理速度:仅需 30 秒即可生成一段视频。

  4. 出色的一致性表现:在不同场景中保持人物形象、动物特征等元素的一致性。

  5. 参考图像支持:可以根据提供的商品图、人物照片等生成相关视频。

 

这些特性赋予 AI 生成视频在广告制作、影视宣发等领域巨大的应用潜力。张旭东以动画电影《熊猫呼呼》和科幻电影《毒液》的宣传视频为例,展示了 AI 技术如何将原本 1-2 天的制作周期压缩至 3 小时内,极大地提升了效率。

 

 

圆桌讨论:视频生成的 ChatGPT 时刻何时到来?

 

 

 

 

在主题是「视频生成的 ChatGPT 时刻何时到来」的圆桌讨论中,声网视频编解码负责人戴伟担任主持人,邀请了包括始智 AI wisemodel 创始人刘道全、声网人工智能算法负责人周世付、生数科技联合创始人张旭东以及学界代表马思伟教授等嘉宾参与讨论。

 

 

 

刘道全认为,真正的「视频生成的 ChatGPT 时刻」需要融合图像、文本和语音等多种模态,生成完整的视频。目前的难点在于 多模态融合 ,但随着 LLaMA-Omni 等音频语言模型的出现,这种融合正在加速,未来可期。他还提到了始智 AI 在开源社区的贡献,例如 Sora 复刻计划,鼓励大家共同探索。

 

张旭东则对未来充满乐观。他认为,从技术的可用性来看,视频生成已经不再像过去那样生成不可用的内容,甚至已经与索尼等国际大 IP 达成合作,解决实际问题。但他指出,成本和渗透率仍然是制约因素 。目前单次视频生成的成本较高,限制了大规模应用。随着算力提升和算法优化,成本下降,渗透率将会提高,真正的「视频生成的 ChatGPT 时刻」也将到来。

 

周世付则从交互角度出发,认为 以语音交互为基础 ,结合大语言模型和数字人,或许会更快地推动「视频生成的 ChatGPT 时刻」的到来。

 

马思伟老师补充道,虽然视频生成面临一致性、时长等技术挑战,但从应用模式和技术发展来看,一些公司例如生数科技、智谱 AI 的 会员付费模式 ,既带来了资金支持,也积累了训练数据,形成了良性循环,推动着技术的进步。他乐观地认为,2024 年或许可以视为「视频生成 ChatGPT 时刻」的开端。

 

当机器也开始「生产」和「观看」视频,视频的意义将被重新定义。RTE2024 大会让我们思考,在人眼视觉之外,视频还能为我们带来什么?在机器视觉的时代,视频技术又将如何发展?这些问题,或许正是未来视频技术探索的方向。

 

 

标签:RTE2024,视频,编码,AI,编解码,生成,智能
From: https://www.cnblogs.com/Agora/p/18547015

相关文章

  • 无插件H5播放器EasyPlayer.js视频流媒体播放器点播H264、H265需求(点播mp4、Hls)
    EasyPlayer.js视频流媒体播放器属于一款高效、精炼、稳定且免费的流媒体播放器,可支持多种流媒体协议播放,无须安装任何插件,起播快、延迟低、兼容性强,使用非常便捷。EasyPlayer.js播放器不仅支持H.264与H.265视频编码格式,也能支持WebSocket-FLV、HTTP-FLV、HLS(m3u8)、WebRTC、ws-fm......
  • RTSP播放器EasyPlayer.js播放器PC电脑端播放视频时整个显示器会白屏的操作方法
    EasyPlayer.js播放器是TSINGSEE青犀流媒体组件系列中关注度较高的产品,经过多年的发展和迭代,目前已经有多个应用版本,包括RTSP版、RTMP版、Pro版以及js版,其中js版本作为网页播放器,受到了用户的广泛使用。在功能上,EasyPlayer支持直播、点播、录像、快照截图、MP4播放、多屏播放、倍......
  • 智慧园区算法视频分析服务器垃圾桶溢满园区算法详解及应用
    在数字化转型的浪潮中,视频监控技术已成为各行各业提升安全管理、优化运营效率的重要工具。特别是对于城管、环卫、教育、水利、园区、小区等多样化的应用场景,一个集成化、智能化的视频监控解决方案显得尤为关键。智慧园区算法视频分析服务器不仅能够提供高清视频监控接入,还能进行......
  • 视频智能分析网关视频分析网关吸烟检测预警厂区吸烟行为监测系统
    在工业生产和公共安全管理中,吸烟行为的监测和控制是一个重要而紧迫的问题。尤其是在厂区这样的特殊环境中,吸烟不仅违反了安全生产规定,更可能引发火灾等严重安全事故。随着人工智能技术的发展,吸烟检测视频分析网关应运而生,为厂区吸烟行为监测提供了一种高效、智能的解决方案。该系......
  • [QT][NCNN][YOLOV8-SEG]使用ncnn框架部署yolov8-seg,外加qt进行界面可视化操作,用于图片
    yolov8seg_qt_ncnn使用ncnn框架部署yolov8-seg,外加qt进行界面可视化操作,用于图片和视频实例分割推理。Github地址:https://github.com/zhahoi/yolov8seg_qt_ncnn起一直以来自己做算法部署或者是模型推理,最后总是需要在命令行敲各种命令,然后通常借助opencv进行可视化。老......
  • 萤石设备视频接入平台EasyCVR大华设备视频平台果园综合安防解决方案
    在现代农业发展中,果园作为农业生产的重要组成部分,其安全防护和管理效率的提升显得尤为重要。随着科技的进步,传统的果园管理方式已经无法满足现代高效、智能化的需求。特别是在偏远地区,果园面临着非法入侵、夜间安全监控以及供电和网络布线等一系列挑战。为了应对这些挑战,萤石设备......
  • 国标GB28181视频平台LiteGBS国标GB28181摄像机接入视频汇聚管理系统的方案
    随着视频技术的不断进步,视频监控、直播、执法记录仪等多种视频资源的应用场景愈发广泛且多样化。这些视频资源不仅在数量上快速增长,更在质量、格式及编码标准等方面展现出极高的多样性。因此,为了实现对这些资源的有效整合和统一管理输出,信息化项目中对于LiteGBS国标GB28181摄像机......
  • 国标GB28181网页直播平台LiteGBS国标GB28181视频平台在安防监控中的应用和发展
    随着安防技术的飞速发展和智慧城市建设的推进,视频监控系统已成为公共安全、城市管理和企业运营等领域的重要基础设施,其在各行各业的应用范围不断扩大。在这一背景下,LiteGBS国标GB28181视频平台作为国家标准的视频监控设备通信协议——GB28181,逐渐受到业界的广泛关注和应用。一、......
  • 探索视频编辑的无限可能:揭秘Python的MoviePy库
    文章目录探索视频编辑的无限可能:揭秘Python的MoviePy库第一部分:背景介绍第二部分:MoviePy是什么?第三部分:如何安装MoviePy?第四部分:简单库函数使用方法第五部分:实际应用场景第六部分:常见问题及解决方案第七部分:总结探索视频编辑的无限可能:揭秘Python的MoviePy库第一......
  • 如何将下载的mp4视频嵌入react应用程序?
    将下载的mp4视频嵌入React应用程序可以通过以下步骤实现:将下载的mp4视频文件放置在React应用程序的合适位置,例如在public文件夹下创建一个videos文件夹,并将视频文件放置其中。在React组件中引入视频文件,可以使用<video>标签来嵌入视频。在组件的render方法中,可以使用以下代码来......