双流网络

双流网络

时间：2023-04-23 15:15:28浏览次数：35

视频理解难点在于两处，一种是图像的appearance信息(外表信息)，另一种是运动信息（时序信息）

该文贡献有三点：1.双流 2.已证实，在少量数据下，只学习光流信息也能取得较好效果 3.为弥补数据的不足，在两个数据集上训练骨干网络，在两个数据集上都有效果提升

导言：与图像识别相比，视频中的动作信息能提供一个额外的重要线索，很多动作仅凭运动信息即可识别。此外，视频天生就能提供很好的数据增强，即同一个物体在视频中会出现各种变化（形变、遮挡、光照改变），这种改变多样且自然，比生硬的手动数据增强好很多。

注意这个故事的头是怎么起的，首先是讲作为分类来讲，视频可以多提供一个动作信息，其次是视频中天生的数据增强使得网络更健壮

实验证明，如果无脑的把神经网络当作能力强大的黑盒，将连续帧直接输入网络效果极差

双流网络即一个抓取空间特征，另一个用光流抓取动作特征，在网络末端进行late fusion

对于空间特征的网络，它的输入就是单张图片，所以直接使用在imagenet上预训练好的模型来初始化

时间特征网络直接用光流做输入预测动作，所以网络本身已经不需要提取motion information了

因为人的视觉中枢也有两条路，一条空间特征一条运动特征，所以受到启发设计此网络（仅仅作为一个故事出现，不是很严谨）

relate work：一种是基于局部时空特征的方法，后来演变为了3D网络。一种是基于点对点光流轨迹，后来演变为本篇双流网络

再次强调，将原始的连续帧直接给网络学习是很难的，无论是将一帧一帧的图片给2D网络，还是一股脑给3D网络，效果都差不多，都学不到运动特征。在超大数据集上的训练结果比手工特征还要差20个点

方法：双流，一流空间，一流时间，这里时间就等同于运动

具体空间就是一张图片分类，运动就是光流，导言中都讲过

这里强调空间信息本身就很重要，因为运动对象和运动信息本身就是强耦合的，能识别出对象也是很重要的线索

从图中可见，双流网络用的是卷积，而且两条路用的网络结构一模一样，当然输入维度的channel是不一样的，该图为展示出来这一点不同

图2中ab就是连连续两针，光流可视化出来就是图c，d是水平方向位移，e是竖直方向位移，可见主要是手部动作的位移

光流这张图的维度是HWC，这个C是2，分别表示水平和竖直方向变化量，也就是说总共L帧的视频，得到的光流就是L-1帧

使用光流最简单的方法就是直接识别这个光流图，但是这其实还是图像分类，意义不大

注意，在模型实现层面，叠加光流的时候是先叠加水平光流图，然后接上竖直光流图

应用光流信息一种方法是将所有光流图从channel上叠起来，每一张光流图表示的是两帧之差，那对于一个特定点来讲，每次研究的其实是这个点和上一帧有什么区别。类似于研究流体力学的欧拉视角，即固定坐标点看流体

第二种方式是从第一张图片已知一个点运动到另一个点之后，第二张光流图找到移动后的位置再找到下一步的运动位置，类似于流体力学的拉格朗日视角，即固定流体质点，跟踪记录

乍一看第二种方式更为合理，但实验证明第一种方式结果更好

小技巧

双线光流:双向的方法应用广泛，是很保守的方法，一般都会涨几个点，再不济也不会掉点。双向也就是说既计算前向光流，业绩算后向光流。

存储：光流图占用了非常大的空间，即便存储空间足够，io速度也提不起来。这里作者提出将光流图缩放到[0,255]，当然要把所有取值变成整数，然后存成JPEG，这相当于直接使用了JPEG对于图片的压缩和解压方法，将之前1.5TB的数据直接压缩为了27GB。这和之前有个工作提出用队列数据结构一样，很多时候其实要巧妙的使用计算机的许多技巧

这里注意，光流计算速度慢，占用空间大是一个很大的被诟病的地方，所以后续出现很多优化光流算法，甚至许多研究弃用光流，直接对原始数据上3D网络

标签：视频,双流,网络,信息,光流图,光流
From： https://www.cnblogs.com/andoblog/p/17344312.html

FX110网：小心那些在社交网络上高调“炫富”的交易员们
随着社交网络的发达，我们可以在微信、微博或Instagram以及Facebook、Twiiter等海内外社交平台上，那些所谓的“外汇专家/高手”会贴出他们的交易盈利记录，以及他们从交易中赚取的豪华跑车、旅游以及名人朋友等照片，并声称如何客户“追随交易信号”就可以和他们一样赚钱并享受这种令人艳......
【网络安全知识】网络技术领域术语大全，强烈建议收藏！
自主访问控(DAC:DiscretionaryAccessControl)自主访问控制(DAC)是一个访问控制服务，其执行一个基于系统实体身份的安全政策和它们的授权来访问系统资源。双附接集线器(DAC:Dual-attachedConcentrator)双附接集线器(DAC)是FDDI或CDDI集线器有能力接入到一个FDDI或CDDI网络的两......
nmap工具：一款开源的网络扫描和主机检测工具，可以用于发现计算机系统上运行的端口、服务
1、nmap是一款开源的网络扫描和主机检测工具，可以用于发现计算机系统上运行的端口、服务以及操作系统等信息。通过nmap的扫描，系统管理员可以获得自己网络环境下的详细情况，包括哪些端口正在监听，哪些服务正在运行等信息，可以在保证网络安全和稳定的前提下优化网络配置，增强网络安全......
图与网络——最小费用最大流Python实现
最小费用最大流问题是经济学和管理学中的一类典型问题。在一个网络中每段路径都有“容量”和“费用”两个限制的条件下，此类问题的研究试图寻找出：流量从A到B，如何选择路径、分配经过路径的流量，可以在流量最大的前提下，达到所用的费用最小的要求。如n辆卡车要运送物品，从A地到B地。由于......
手把手教你使用Python网络爬虫获取菜谱信息
今日鸡汤一腔热血勤珍重，洒去犹能化碧涛。/1前言/ 在放假时，经常想尝试一下自己做饭，下厨房这个网址是个不错的选择。下厨房是必选的网址之一，主要提供各种美食做法以及烹饪技巧。包含种类很多。今天教大家去爬取下厨房的菜谱，保存在world文档，方便日后制作自......
一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取
前几天小编给大家分享了数据可视化分析，在文尾提及了网易云音乐歌词爬取，今天小编给大家分享网易云音乐歌词爬取方法。本文的总体思路如下：找到正确的URL，获取源码；利用bs4解析源码，获取歌曲名和歌曲ID；调用网易云歌曲API，获取歌词；将歌词写入文件，并存入本地。本文的目的是获取网易云......
使用SIMCOM的SIM8260C-M2 5G通讯模组与本机网络调试助手通讯
偶然间得到了一块SIMCOM的底板，上方的模组是SIM8260C-M25G通讯模组，在同事的指导之下，实现了通过5G模组发访问本机网络调试助手的功能。步骤如下： ①、首先是根据官方文档，安装相关驱动；网址链接：驱动安装②、驱动成功安装后，将底板连接上电脑，在设备管理器中能看到如下驱动； ③......
计算机网络体系结构
计算机网络体系结构计算机网络是利用通信线路将地理上分散的、具有独立功能的计算机系统和通信设备按不同的形式连接起来，以功能完善的网络软件及协议实现资源共享和信息传递的系统。网络模型OSI七层模型，开放系统互连参考模型（OpenSystemInterconnect，简称OSI）是国际标准化组织(ISO)......
计算机网络基础知识总结
原文地址一、网络层次划分国际化标准组织（ISO）在1978年提出了“开放系统互联参考模型”，即著名的OSI/RM模型（OpenSystemInterconnection/ReferenceModel）。它将计算机网络体系结构的通信协议划分为七层，直下而上依次为：网络层（PhysicsLayer）、数据链路层（DataLinkLayer）、网络层（Ne......
子母钟（网络时钟系统）助力医院学校数字化建设
子母钟（网络时钟系统）助力医院学校数字化建设子母钟（网络时钟系统）助力医院学校数字化建设京准电子科技官微——ahjzsz概述医院时钟系统为全医院提供提供统一的准确时间，其主要作用是为整个医院的工作人员提供准确的时间服务，同时也为计算机系统及呼叫系统、BA系统、手术室控制系统......

相关文章

赞助商

阅读排行