首页 > 其他分享 >【人脸伪造检测】Self-Supervised Video Forensics by Audio-Visual Anomaly Detection

【人脸伪造检测】Self-Supervised Video Forensics by Audio-Visual Anomaly Detection

时间:2024-11-18 09:08:09浏览次数:1  
标签:伪造检测 同步 视频 特征 检测 Self Video 视听 delays

一、研究动机

[!note]

原理:经过处理后的视频在视觉和音频信号之间通常会有不一致的现象,提出一种基于异常检测算法实现视频伪造取证。

挑战:不同于简单的检测不同步的例子,因为由于视频采集往往会有“延迟”现象,出现帧偏移现象

创新点:提出在视听特征中实现异常检测,该特征包含了视听特征的一致性

二、检测模型

在大量的真实视频上训练,学习视觉和音频信号是如何同时发生的,在推理阶段可以对音频视觉流不一致时分配低可能性;基于自回归模型拟合真实视频中视听同步特征检测异常,并且在训练过程中不需要任何伪造视频

  • 视听同步特征获取

​ 从原视频中直接学习视听特征是困难的,为了能够更好的从真实视频中学习到视听特征,文章提出从特征集合中提取视听特征。基于Chen et al. [18].提出的模型计算视觉和听觉同时发生的概率\(\phi(V_i,A_i)\),并且通过一个时序滑动窗口计算同步性得分作为同步性得分概率,其中\(\tau\)表示最大的时间差(即为视频最大可能的帧偏移)

image

​ 最后通过InfoNCE Loss对模型进行学习:

image

  • 异常检测

​ 基于上述模型提取的同步特征,进一步的需要对视频的同步特征异常进行检测。本篇文章学习了提取同步特征的分布,建立自回归模型学习这些分布,通过前\(i-1\)帧的特征预测第\(i\)帧的分布:\(x_{i+1} = p_ \theta(x_{i+1}|x_1,x_2,...,x_i)\),通过最大化对数概率损失学习自回归模型:
image

同步特征选取1:Discrete time delays

该特征表示当前帧相对于听觉信号的延迟(提前)的帧数, 特征为\(argmax_j(S(i,j))\)

同步特征选取2:Distributions over delays

虽然离散时间延迟(Discrete time delays)特征很容易表示出来,但是作为特征会损失很多信息,例如当前的延迟信息存在着歧义,因此,文章提出了预测完整的时间延迟分布作为同步特征,即每个帧的延迟时间的概率

image

三、实验

  • 验证数据集:FakeAVCelebKoDF
  • FakeAVCeleb数据集上不同模型的分析结果

image

  • 不同语言KoDF的数据集验证

image

  • 同步特征(Distributions over delays)可视化

image

标签:伪造检测,同步,视频,特征,检测,Self,Video,视听,delays
From: https://www.cnblogs.com/DLShark/p/18551679

相关文章

  • 【伪造检测】Noise Based Deepfake Detection via Multi-Head Relative-Interaction
    一、研究动机[!note]动机:目前基于噪声的检测是利用PhotoResponseNon-Uniformity(PRNU)实现的,这是一种由于相机感光传感器而造成的缺陷噪声,主要用图像的源识别,在伪造检测的任务中并没有很好的表现。因此在文中提出了一种基于伪造噪声痕迹的检测算法。实现原理:通过提取伪造视......
  • [鲜花] 20241115 My(self+life).
    它是我的生命。我透过明亮的镜子看过去,是我与我的生命的像,还有它的影子,还有那些...意料之外,情理之中。或许我早就感知到它的存在,生活中总是能感觉到它的温度:触碰到了它的体感肌肤,传递冷暖于我。我想找到它,或者说:我想找到属于我自己的东西。可在我轻微的挪动之后,它彻底不见了。从......
  • SELF-REFINE: Iterative Refinement with Self-Feedback
    1.概述基于给定的Prompt,大语言模型生成的Reponse可能不是最好的(这一点我认为当前的LLM大部分都是Decoder架构,基于已生成的结果产生下一个Token,一旦之前生成结果出错,也不容易及时改正。)。本文为原始的生成添加了额外的反思重写步骤,过程如下:对于给定的\(Input\),先交给LLM生成......
  • self-respect和self-esteem的区别
    说起“自尊心”这个概念,只接受过国内英语教育的人第一个想到的词一定是“self-respect”。然而,如果你经常看美剧你会发现,在表达“伤自尊”这个意思时,大多数时候美剧里的角色会说“hurtmyself-esteem”。这是因为中文的“自尊”实际上包含两种含义:1.自信、自豪(小明是一个自尊......
  • uniapp微信小程序video不显示,不生效
    问题描述微信小程序开发者工具video不显示,无法播放,也没有任何错误,就是不显示原因报错原因:微信开发者工具调试基础库版本太高解决方法 ......
  • kinect2.0 Self-Learning (1) - recycling disconnect (solved)
    Firstedit:Afterdowningkinect2.0sdk,Ifollowedacoursetoverifyifkinect2.0canconnectwithmylaptop.Everythingseemsgoingwell.However,Ifoundthekinect2.0wouldconnectfor5secondsthendisconnectfor5secondsagainandagain,thatrea......
  • ComfyUI-CogVideoX_图片生成视频、文字生成视频工作流,相关软件包及工作流均已打包好,一
    「文末提供获取方式」▼本期带来图片生成视频模型工作流,此工作流操作简单,相关ComfyUI软件包、模型、节点、工作流均已打包在内,一键启动即可。开源地址(源码):https://github.com/THUDM/CogVideo开源地址(节点):https://github.com/kijai/ComfyUI-CogVideoXWrapper#配置要......
  • 《VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Aud
    文章汉化系列目录文章目录文章汉化系列目录摘要1引言2相关工作2.1Vision中的Transformer2.2自监督学习3方法3.1标记化与位置编码3.1.1DropToken3.2Transformer架构3.3公共空间投影3.4多模态对比学习4实验4.1实验设置4.2结果4.2.1视频动作识别的微调4.2......
  • Linux下使用makeself制作一键安装包
    Linux下使用makeself制作一键安装包下载makeselfyum-yinstallmakeselfmakeself命令和参数makeself.sh--gzip.<output_file.run>"<display_name>"<startup_script>.表示当前目录,这样makeself将会打包当前目录下的所有文件和子目录。该目录最好使用绝对路径......
  • ffmpeg Video and Audio file format conversion
    Anysupportedfileformatandprotocolcanserveasinputtoffmpeg:Examples:YoucanuseYUVfilesasinput:ffmpeg-i/tmp/test%d.Y/tmp/out.mpgItwillusethefiles:/tmp/test0.Y,/tmp/test0.U,/tmp/test0.V,/tmp/test1.Y,/tmp/test1.U,/tmp/test1.V,etc......