首页 > 其他分享 >对话MPEG创始人Leonardo Chiariglione: MPEG精神将在MPAI中延续

对话MPEG创始人Leonardo Chiariglione: MPEG精神将在MPAI中延续

时间:2023-06-13 13:01:58浏览次数:43  
标签:MPAI MPEG AI Chiariglione Leonardo LiveVideoStack


翻译/编辑:Alex

技术审校:李忠

Leonardo Chiariglione本人也审阅了采访的中、英文版本,特此感谢。

Leonardo Chiariglione

人物对话

#001#

对话MPEG创始人Leonardo Chiariglione: MPEG精神将在MPAI中延续_区块链

Leonardo Chiariglione(照片由Leonardo Chiariglione本人提供)

 

作为MPEG的创始人,Leonardo Chiariglione曾将MP3、DVD和数字电视带进了千家万户。他近期出版了第一本书:The history of MPEG and how it made digital media happen, 这本书讲述了MPEG 32年的辉煌历史,以及它如何通过标准化方法改变了通信的本质。

在领导MPEG 32年之后,Leonardo Chiariglione去年宣布关闭MPEG,并创立了一个新的组织——MPAI(Moving Picture, Audio and Data Coding by Artificial Intelligence)。据他介绍,MPEG 的精神会在 MPAI 中得以延续。

最近Leonardo Chiariglione接受了LiveVideoStack的邮件采访,在采访中,我们和他一起讨论了新书 、MPEG 和 MPAI。下面是整理的采访稿。

LiveVideoStack:Chiariglione先生,非常感谢您接受采访,您的新书Even the stars die: The history of MPEG and how it made digital media happen 已于暑期出版,您能告诉大家您为什么会写这本书吗?

对话MPEG创始人Leonardo Chiariglione: MPEG精神将在MPAI中延续_区块链_02

Even the stars die: The history of MPEG and how it made digital media happen

 

Leonardo Chiariglione:毫无疑问, MPEG是一个传奇故事——一个草根组织掀起了一场媒体数字化的革命。作为MPEG的创始人,并领导了这个组织32年,我认为我有责任不让这一伟大成就被世人遗忘,或者发展到更坏的地步——被毫无道德准则的人利用达到自己不可告人的目的。

 

LiveVideoStack:您能说一个大家应该读这本书的理由吗?

 

Leonardo Chiariglione:历史不会简单地重演,但历史演进的轨道却十分相似。世界肯定不是33年前的世界,技术也不再是33年前的技术。但人类所遵循的模式却惊人地一致。对于那些想要了解媒体数字化历程的读者,这本书是必读之物。同样,那些心有远大理想的人也能从MPEG独特的故事中汲取灵感。

LiveVideoStack: 您去年辞去了MPEG主席一职,并宣布关闭MPEG,但MPEG却并不同意您的说法,您和这个视频标准组织之间究竟发生了什么?

Leonardo Chiariglione:首先我们必须就某些词语的含义达成一致。1991年,当苏联解体时,生活在该政权下的人民和土地消失了吗?不,他们没有。他们变成了俄罗斯联邦、乌克兰、哈萨克斯坦等。MPEG的消失正如苏联一样,它已经被那些令人兴奋的组织名称所替代,如WG 1、WG 2等。

 

我在1988年所创立的组织已经不复存在,它已经被一批其他组织所替代。

 

如果你说:“MPEG不同意”,你应该告诉我你所指的MPEG是什么。

 

如果你问我:“您和这个视频标准组织之间究竟发生了什么?”我会说:正如一个犯罪团伙劫持了飞机一样,MPEG也被“劫持”了。这样的事情,在《三国演义》所记载的封建时代里随处可见,并依然在今天的ISO组织中延续。

 

如果你问我:“您和MPEG的人之间发生了什么?”我的答案是:除了“劫机者”,我和其他人绝对没有任何矛盾。几十年来,我同一起在MPEG中共事过的数千位同事保持着良好的关系。

LiveVideoStack: 对于MPEG,有什么令您感到后悔的事吗?或者一些您本来想做,但没有做成的事情?

 

Leonardo Chiariglione: 像MPEG这样的组织已经经历了数十年的磨砺,它本应该继续辉煌下去,未来有更多的数十年在等待着它。在第100次会议的庆祝活动中,我曾说过,如果100年后MPEG不复存在,那肯定是因为有人想要“杀死”它。没想到一语成谶。

 

LiveVideoStack: 既然您已经开始了您的新事业——MPAI, 那么您对MPAI有什么样的期待?

 

Leonardo Chiariglione: MPAI并不能称为新的事业。MPAI希望能在制定基于人工智能的数据编码标准上扮演重要角色,如同曾经的MPEG在基于数字化处理的媒体编码上所扮演的角色一样。这不仅仅是一个计划,最近MPAI已经发布了3个草案文件,正在征求社区意见,参见: 

https://mpai.community/standards/mpai-mmc/draft-standard/,

https://mpai.community/standards/mpai-cui/draft-standard/ 和 https://mpai.community/governance。

前两个标准草案将于 9 月 30 日发布。在接下来的几个月中,将发布更多标准。

 

LiveVideoStack: MPAI中正在进行的标准有哪些?您能详细说一下吗?

 

Leonardo Chiariglione: 我来详细说说。计划今年10月发布的AI框架(MPAI-AIF)是基础标准,它是一个标准环境,其中可以执行由基础算子(被称为AI模块)构成的工作流。AI工作流和AI模块已经经过了安全、一致和性能方面的检查,可以直接从MPAI商店中下载(参见https://mpai.community/governance)。一个编码标准的实现,其性能是通过可靠性、健壮性、可复制性和公平性来评估。

 

另一个标准是上文提到的多模态对话(MPAI-MMC),计划9月份发布。MPAI-MMC的情感对话支持与由语音合成和人脸动画所模拟的机器进行视听对话;多模态问答支持对所显示对象请求信息。单向、双向和一对多语音翻译支持使用语音合成的会话翻译,保留说话人的语音特征。

 

LiveVideoStack: 第一个标准将在什么时间发布?您认为需要多长时间这些标准可以获得大范围的应用?

 

Leonardo Chiariglione:9月30日将很有可能发布两个标准:MPAI-MMC 和 MPAI-CUI。后者包含一个被称为“基于AI的公司业绩预测”的用例。通过该用例,用户可以在一个给定的预测范围内(如3或5年)评估某个公司的组织健康度、违约概率以及业务不可持续概率。

 

一些 MPAI 成员在标准发布后会立即实施。

 

LiveVideoStack: 您认为EVC和AV1的发展会削弱VVC的专利限制吗?

 

Leonardo Chiariglione: 我曾写过不少文章,介绍MPEG所推动的优秀技术是如何获取报酬的正确实践。但现状却不断恶化,这需要被重新审视。我不知道未来情况是否会有所改善。我唯一知道的是,只有12%的互联网视频使用HEVC。人人都知道是谁造成今天这种失败的局面。

 

LiveVideoStack: 基于AI的视频编码方法(端到端,多场景应用)会是未来趋势吗?在实现过程中最大的挑战是什么?(比如标准的缺失,硬件问题)

 

Leonardo Chiariglione: 毫无疑问,AI在未来视频编解码中肯定会发挥重要作用。但遗憾的是,决定使用哪种编码方法的下一阶段的研究,既不会基于技术,也不会是商业价值或者用户需求,而是基于支持过去视频编码标准的专利。

 

LiveVideoStack: 您认为基于AI的编解码器将很快超越传统编码器吗?还是两种编码器将共存很长时间?

 

Leonardo Chiariglione:传统的数据处理技术仍然会大显身手,但在很多领域,它已经走到了发展的尽头。而人工智能,才刚刚开始。

 

几天前,我发表了一篇文章(参见

https://blog.chiariglione.org/the-governance-of-the-mpai-ecosystem/)。

文中,我写道:“如果一台AI机器通过仔细训练后,可以发现某些特定的编码模式比其他模式更通用,那么它将很可能会比人类按照概率论机制所推导的编码模式取得更好的压缩率。” AI可以像人类那样根据经验解释新事物,因此机器积累经验的能力必然会随着处理和存储能力的增加而增加。然而,不要指望AI视频编码将在短期内超越传统视频编码。技术虽然发展很快,但是对过去技术的投资如此巨大,新技术的部署必然需要长久的时间。

 

激动人心的未来就在眼前。

LiveVideoStack: 在中国,您是否发现了MPAI的机会?

 

Leonardo Chiariglione: MPAI中有几位来自中国的成员,但是中国如此之大,所以我期待更多中国成员加入进来。

标签:MPAI,MPEG,AI,Chiariglione,Leonardo,LiveVideoStack
From: https://blog.51cto.com/u_13530535/6469011

相关文章

  • Easy Tech:什么是MPEG-DASH协议
    MPEG-DASHEasyTech#014#MPEG-DASH是最流行的视频流协议之一,它广泛用于点播和直播,将媒体传输给各种终端设备,包括手机、平板、智能电视、游戏机等。MPEG-DASH是一种基于HTTP的流媒体传输协议,负责将视频从HTTP服务器传输给终端用户。在MPEG-DASH中,一个视频被分割成许多切片,这一信息被......
  • 一文简述FFmpeg
    Easy-Tech#017#——FFmpegFFmpeg是一款开源软件,用于生成处理多媒体数据的各类库和程序。FFmpeg可以转码、处理视频和图片(调整视频、图片大小,去噪等)、打包、传输及播放视频。作为最受欢迎的视频和图像处理软件,它被来自各行各业的不同公司所广泛使用。审校者注:FFmpeg项目由Fabrice......
  • FFmpeg操作电脑摄像头实验
    最近在学习音视频相关知识,参考雷神(leixiaohua1020)的博客做了一些小实验,记录备忘。一、记录几条命令1、列出电脑支持的音视频设备ffmpeg-list_devicestrue-fdshow-idummy输出如下(节选了关键内容):[dshow@0000025feeb5d840]DirectShowvideodevices(somemaybebot......
  • [Multimedia][ChatGPT] 如何使用 ffmpeg 将一个包含绿幕的前景视频叠加到背景视频上,并
    要使用ffmpeg将包含绿幕的前景视频叠加到背景视频上,并将前景视频中的绿幕设置为透明色,您需要以下步骤:安装ffmpeg。首先确保您已安装了最新版本的ffmpeg。如果还没有安装,请访问官方网站下载并安装相应版本。使用chromakey过滤器将绿幕替换为透明色。chromakey过滤器可以识......
  • [C#] FFmpeg 音视频开发总结
    为什么选择FFmpeg?延迟低,参数可控,相关函数方便查询,是选择FFmpeg作为编解码器最主要原因,如果是处理实时流,要求低延迟,最好选择是FFmpeg。如果需要用Opencv或者C#的Emgucv这种库来处理视频流,也多是用FFmpeg做编解码然后再转换图像数据给Opencv去处理。用Opencv编解码延迟很高。其......
  • 使用ffmpeg合并两个音频文件
    #寻找指定路径下所有的wav文件find$filePath-iname"*.wav">wav.flist#依次取出每个wav文件,与test.wav进行合并forlinein`catwav.flist`doecho$lineffmpeg-ipath/to/test.wav-i$line-filter_complex"[0:a]volume=1,atrim=1:4[a1];[1:a]volume=0.5[a......
  • FFmpeg组合图片声音为视频课程
    需求:有了PPT,有了课程的录音,想直接生成PPT画面+同步声音讲解,这样就可以搞成视频课程了。要做的步骤:把PPT另存为图片,比如60页PPT,就是60个JPG;听声音,然后记录画面出现的声音文件的时间位置。 比如:p1.jpg   出现时间点0:0:0  ; p2.jpg  0:0:35 ,做成个excel列表;......
  • Windows环境FFmpeg下载、环境变量配置
    FFmpeg官网下载地址第一步:点击Download下载按钮第二步:选择适合当前的运行环境,选择windows第一个地址Windowsbuildsfromgyan.dev第三步:选择releasebuilds中合适的版本第四步:环境变量配置,我安装的目录是:E:\ProgramFiles\ffmpeg-6.0-essentials_build点击ffmpeg安装......
  • 零声学院 音视频高级教程 ubuntu16.04 ffmpeg开发环境搭建
    配置环境ubuntudesktop16.04+ffmpeg4.2.1建议在《编译与安装》一节,都使用源码的方式编译和安装,本编译安装方式最终生成的皆为静态库。部分命令说明:git-C[git-command]指定其它路径的仓库执行命令注意,-C要在命令之前创建目录在home目录下创建ffmpeg_sources:用于下载源文......
  • Ubuntu系统-FFmpeg安装及环境配置
     镜像下载、域名解析、时间同步请点击 阿里云开源镜像站1简介FCN-4是一个应用于音频自动标注的全卷积神经网络。使用该网络完成音频标注任务时,首先需要使用python的音频处理工具包Librosa提取音频的时频特征,针对mp3格式的音频文件,Librosa读取音频文件的工作依赖音频处理......