首页 > 其他分享 >视频理解串讲

视频理解串讲

时间:2023-04-24 19:00:12浏览次数:39  
标签:视频 串讲 双流 BN 网络 fusion 理解 lstm

 这是一篇早期论文提到的fusion方法,有late early,所以自然就想到slow,但实际上结果差别不大,甚至还不如手工特征,可见特征工程重要性

这篇文章作者采用了一个早期的类注意力机制,人为强制的将图片中心裁剪出来进行识别,当然这是假设我们关心的对象大概率出现在图片中心

 

第二个工作就是双流网络,双流网络是late fusion,可以考虑在模型的中间进行fusion。

但这个工作能处理的视频非常短,实验是在10帧的短视频上进行的。如果是高帧率的视频来说,10帧也就是0.5秒的时间,都无法覆盖一个完整的动作

显然双流网络里的单帧图片和光流,都无法做这件事

所以有一篇文章提出将视频分片,每一个分片进行一次双流

还有一个小点就是提取光流的那个网络在小数据集上结果不一定很好,但是又很难在大数据集上进行预训练。所以这里直接把imagenet上预训练好的模型参数拿过来用。但是预训练模型有RGB3个C,我们这里有20个C,办法就是把RBG3个C做一个平均,然后复制二十遍。

这里是对网络参数做了一个平均,很多时候看到在融合特征的时候,把网络输出的特征在某一层,做加法,做乘法,取平均,最大值,甚至用一个FC层等等,虽然从数学上讲操作不一样,但是在深度学习里搞不好都是work的(我们在GNN/transformer中都见过做加法做乘法的特征融合)

此外还有一个BN的问题:当视频数据集很小的时候,虽然采用BN会让训练加速,但也带来过拟合的问题。作者提出一个partial BN,在微调阶段如果所有BN都参与微调,那么一调就容易过拟合,但是如果全部冻住不调的话,迁移学习效果又会比较差。作者提出只对第一个BN进行微调,后面冻住不动。

 

 

第三类工作就是融合lstm,在较短的视频上提升有限。朱老师认为很好理解,短视频上每一帧内容都差不多,其实提取完特征输入lstm之前得到的东西都差不多,lstm很难再提到什么东西。但是如果每一帧差别很大,lstm的确还是能学到一些运动信息的。

 

标签:视频,串讲,双流,BN,网络,fusion,理解,lstm
From: https://www.cnblogs.com/andoblog/p/17350112.html

相关文章

  • GitLab-理解里程碑(史诗)/议题,评论/主题,代码建议
    1、里程碑:  可以理解为对大的工作内容进行定义,比如构建一个版本、新增某个功能、变更某个需求。2、议题:  为对“里程碑”进行进行模块拆分,比如变更某个需求时设计到多个端进行修改、多个接口修改、多个接口修改时又涉及到其他系统业务场景进行测试。可对这些内容进行拆分,并......
  • ffmpeg 视频 图形叠加
    使用scale视频过滤器将输入缩放(调整大小)为特定大小,然后使用overlay视频过滤器将视频放置在静态图像上。ffmpeg-loop1-ibackground.png-ivideo1.mp4-ivideo2.mp4-filter_complex\\"[1:v]scale=(iw/2)-20:-1[a];\\[2:v]scale=(iw/2)-20:-1[b];\\[0:v][a]overla......
  • 视频直播源码,android动画小飞机旋转效果
    视频直播源码,android动画小飞机旋转效果 //小飞机旋转动效果publicclassPlaneViewextendsView{  privatePaintpaint;  privateintwidth;  privateintheight;  privatefloatcurLength;  privatefloatallLength;  privatefloatmAnimato......
  • 如何解决安卓七,客户端用的webview打包视频切换有暂停图标
    可以用video中的html5poster属性poster="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7"data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7为最小的base64图片并且透明也可以选择黑色:data:image/gif;b......
  • 视频分享 点赞 收藏,分享数接口开发研究
    Q44804487已于2022-10-0920:13:43修改386收藏1文章标签:androidjava开发语言版权最近应客户需求研究了下某音分享的接口对该接口做了个测试这里测试了个风控点就是单个作品请求到一个上限后成功率低数据增长比较缓慢这个上限目前测试是5000-20000(5K的多一点,正常来说一个......
  • 抖音视频播放量 视频搜索接口算法 XG XK 算法 设备注册
    Q44804487于2022-08-2221:31:48发布1067收藏11文章标签:音视频ios版权最近应客户要求研究了下抖音搜索视频和播放视频的接口现在已做完放出部分接口给大家参考下注:全套需要配合抖音设备使用视频搜索接口   defsearch_video_ios(query,page,sort_type,publish_time......
  • 五分钟理解Java算法的时间复杂度
    关注我了解更多Java技术知识,带你一路“狂飙”到底!上岸大厂不是梦!前言时间复杂度主要是为了反映函数的执行时间随着输入规模增长而变化的规律,在一定程度上可以体现程序的执行效率和算法的优劣。作为程序员,掌握基本的算法时间复杂度的计算是很有必要的。时间复杂度介绍理论上,执......
  • 参数与非参数检验:理解差异并正确使用
    数据科学是一个快速发展的领域,它在很大程度上依赖于统计技术来分析和理解复杂的数据集。这个过程的一个关键部分是假设检验,它有助于确定从样本中获得的结果是否可以推广到总体。在这篇文章中,我们将探讨参数与非参数检验之间的区别,提供示例以更好地理解它们的用例,并总结关键要点。......
  • 【视频版】基于飞腾芯片的设计与调试入门指导
    飞腾爱好者技术交流群码公众号“乌拉大喵喵” 本文已录制讲解视频发布到B站,可以搜索UP主“乌拉大喵喵”或者扫二维码进入B站专辑进行查看:  一、啥是自主可控国产CPU现在厂家细算起来其实有很多,现在华为、小米也在做自己的CPU,瑞芯微、全志等的SoC现在也是广泛应用。但......
  • 音视频八股文(4)--ffmpeg常见命令(3)
    17FFmpeg滤镜17.1filter的分类按照处理数据的类型,通常多媒体的filter分为:●音频filter●视频filter●字幕filter另一种按照处于编解码器的位置划分:●prefilters:usedbeforeencoding●intrafilters:usedwhileencoding(andarethusanintegralpartofavi......