面向真实监控场景的多模态视频理解
https://mp.weixin.qq.com/s/3iPeKtqVEKvWpOb_pqEOXA
3. 多模态异常检测
在监控视频领域,常用到多模态异常检测这一技术。传统的异常检测主要关注视频画面的大规模变化或异常行为,如打架或车祸等。随着技术进步,特别是 GPT 的发展,现在可以在异常检测过程中融入文本信息。具体来说,视频对应的文本描述可以作为模型的额外输入,通过融合文本和视频特征来提升异常检测的效果。
Q1:用户提出了一个关于基于视频监控的大模型在实际应用中抽帧处理的问题。具体来说,如果每秒只能提供一帧图像,这样的低帧率是否会严重影响模型的性能?特别是在传输路数较多的情况下,如何处理这种情况?
A1:对于低帧率传输可能导致的问题,可以通过在端侧部署模型来解决。具体做法是不在服务器端传输完整的视频流,而是先在前端使用视频字幕生成模型将视频内容转化为文本描述,并优先传输这些文本信息。这样可以在不影响实时性的情况下快速检索和定位视频中的关键部分,随后再传输相关的视频片段。这种方法有助于减轻网络带宽的压力并提高系统的响应速度。
Q2:在实验中视频帧的抽取频率是多少。即在进行视频处理时,每秒从视频中抽取多少帧用于分析或进一步处理?
A2:尝试了不同的帧抽取频率,包括每秒 8 帧和 16 帧。原始视频的帧率为 30 帧/秒,但为了适应模型的输入限制,实际处理时减少了帧数,具体保留了多少帧已记不清。由于模型不能处理过长的视频输入,因此对帧数进行了相应的调整。
Q3:如果将大模型或多模态大模型应用于实时处理多个摄像头视频流的场景中,会有哪些处理方法。考虑到实际应用中的算力限制,直接使用这些模型可能无法实现?
A3:为了实现实时处理多个摄像头视频流的目标,可以采用以下几种方法:开发轻量化模型:创建计算负担较小的模型,以便更好地适应实时处理的需求。数据下采样:减少输入数据的复杂度,例如降低视频帧率,从而简化处理流程。多级处理:在前端进行初步筛选,例如过滤掉无人活动的视频片段,仅将含有有价值信息的数据传输到后端进行进一步处理。
OpenAI也有24MB的模型
https://cloud.tencent.com/developer/article/1867633
最后得到的学生模型大小为48MB。经过几个星期的单 P100 GPU 的训练,模型效果已经可以应用了。随后作者将模型转换成 CoreML 格式,将精度降低到 FP16(大小变为只有24 MB) ,发现其性能与 FP32模型相比变化不大。
除此之外,在进行图像检索时,仍然使用 CLIP 中的原始语言模型。
蒸馏后的CLIP模型可以在iPhone上运行。
CLIP
https://github.com/openai/CLIP
CLIP (Contrastive Language-Image Pre-Training) is a neural network trained on a variety of (image, text) pairs. It can be instructed in natural language to predict the most relevant text snippet, given an image, without directly optimizing for the task, similarly to the zero-shot capabilities of GPT-2 and 3. We found CLIP matches the performance of the original ResNet50 on ImageNet “zero-shot” without using any of the original 1.28M labeled examples, overcoming several major challenges in computer vision.
https://zhuanlan.zhihu.com/p/432590298
一句话总结:利用text信息监督视觉任务自训练,本质就是将分类任务化成了图文匹配任务,效果可与全监督方法相当 ;
标签:模态,视频,场景,CLIP,处理,模型,com From: https://www.cnblogs.com/lightsong/p/18424610