首页 > 其他分享 >Datawhale AI 夏令营 全球Deepfake攻防挑战赛 task2

Datawhale AI 夏令营 全球Deepfake攻防挑战赛 task2

时间:2024-07-17 21:28:39浏览次数:12  
标签:视频 task2 baseline AI 音频 Datawhale 音视频 图像 Deepfake

数天未见,进步如何?距第一篇笔记发布已过多日,在笔记中立下的flag推动下再次打开CSDN创作中心来记录学习进展。


首先让我来对竞赛项目和datawhale提供的baseline做一个简单的梳理:

balseline网址:https://www.kaggle.com/code/littlejian/deepfake-ffdv-baseline

项目要求:判断一段视频(图像+音频)是否为Deepfake图像,输出其为Deepfake图像的概率评分,目标值1分代表是深度伪造的音视频,0分表示真实的人脸音视频~意思大概是要人类选手利用手上的工具与Deepfake进行对抗,世界是一个巨大的生成对抗模型。。。是时候再去回顾《矛盾论》了。。。

项目数据:非常大,建议直接登录kaggle避免本地下载

curl 'http://zoloz-open.oss-cn-hangzhou.aliyuncs.com/waitan2024_deepfake_challenge%2F_%E8%B5%9B%E9%81%932%E5%AF%B9%E5%A4%96%E5%8F%91%E5%B8%83%E6%95%B0%E6%8D%AE%E9%9B%86%2Fphase1.tar.gz?Expires=1727816306&OSSAccessKeyId=LTAI5tAfcZDV5eCa1BBEJL9R&Signature=Saa7nwn904l3UTeLgizBt4AQ840%3D' -o multiFFDV-phase1.tar.gz

数据集简介:在baseline中Input文件夹中可以看到两个数据集,ffdv-sample-dataset和ffdv-sample-dataset-10K,出看两者似乎没有差别,后续在官网看到7.8对数据做了修正,所以我们要用ffdv-sample-dataset-10K文件下的数据。

数据集内容是Deepfake伪造的音视频和真实的人脸音视频,分类标签储存在txt文件中,文件格式是视频文件名,标签。

我先尝试使用自己的大脑——自然选择亿万年后的高级产物,作为分类器去判定视频真假。

在2000个样本里随机抽了10个视频,其中8个正例(这里正例代表fake)中7个判断正确,2个反例中1个判断正确,80%的正确率。fake视频可能具有明显问题比如下图,具有莫名奇妙的方块黑影,其他的问题有僵硬的脸部和嘴唇,和音频内容完全不匹配,还有就是某些音频问题较明显,在某个音节处由女声变为男声。(CSDN不能插入视频,可惜,想让读者也尝试判断一下,感兴趣的同学自行登录datawhale的baseline即可观看数据集)

 平心而论,只让我听声音的话,我会觉得大部分音频都是真实的,我判断真伪的依据主要是图像,,尤其是图像和音频是否同步。而初步的深度学习测试结果证明了这一点,仅把音频作为判断依据的深度学习模型在测试集上表现较差,AUC在0.5附近,基本是随便猜能够达到的分数。将音频和图像模型融合是必要的。


然后我们来理解一下baseline做了一项什么工作

简单来说,baseline:

  1. 提取了每段音视频的 音频 
  2. 将音频转为频谱图
  3. 将频谱图归一化为256*256的矩阵
  4. 以频谱矩阵作为输入,标签作为输出目标微调resnet18
  5. 预测测试集音视频为fake的概率

其略显吃力的原因应该在于音频本身和resnet的预训练数据差异过大

频谱图

归一化后的频谱图:

 目前的结论就是单用音频不大可能在deepfake分类任务中有较好表现,结合图像和同时间的音频则有较高的潜力,依据比较主观,来源于我自己在做分类时总结的规律,但听声音,基本判断不出结果(还有语言不通的问题);只看图像,效果要比音频强,因为图像生成的瑕疵更多;结合音频和图像,相信可以区分大部分fake视频。

让我们期待一下后续的进展,多模态模型能否实现遥遥领先呢?拭目以待吧。

标签:视频,task2,baseline,AI,音频,Datawhale,音视频,图像,Deepfake
From: https://blog.csdn.net/Z_Zhangyijian/article/details/140501720

相关文章

  • Datawhale AI夏令营第二期——机器学习 基于神经网络stack融合策略的多模型融合
    #AI夏令营#Datawhale夏令营基于神经网络stack融合策略的多模型融合改进点:1.数据清洗,异常值替换(板块2)2.基于神经网络的stack模型融合(板块5)根据大佬的提示对Task3所做的改进,大佬链接:http://t.csdnimg.cn/RSC3o1.模型导入导入所需要包:importpandasaspdimportnumpy......
  • AI Earth——MuSyQ 30m/10天叶片叶绿素含量产品(中国)应用 app
    应用介绍 ​​​​​​​30m/10天合成的叶片叶绿素含量产品是空天院多源协同定量遥感产品生产系统((Multi-sourcedataSynergizedQuantitativeremotesensingproductionsystem,MuSyQ))产品之一。叶片叶绿素含量(Chlleaf)是植被遥感监测中最重要的参数之一,目前国际上缺少高分......
  • LangChain补充一:一些小且有用的点
    一:LangChain表达式语言LCEL(LangChainExpressionLanguage)chain:我们可以将包括大模型调用在内的一组操作组成“链条”,即所谓“调用链”(一)概念LangChain提供的LangChainExpressionLanguage(LCEL)让开发可以很方便地将多个组件连接成AI工作流(或者说是调用链)。如下是一......
  • LangChain补充五:Agent之LangGraph的使用
    一:LangGraph入门https://www.51cto.com/article/781996.htmlhttps://blog.csdn.net/weixin_41496173/article/details/139023846https://blog.csdn.net/wjjc1017/article/details/138518087https://langchain-ai.github.io/langgraph/https://langchain-ai.github.io/langg......
  • LangChain补充四:Agent知识点和案例补充
    https://www.alang.ai/langchain/101/lc07一:基本流程和概念(一)概念LangChainAgent的核心思想是,使用大语言模型选择一系列要执行的动作。在Chain中,一系列动作是硬编码在代码中的。在Agent中,大语言模型被用作推理引擎,以确定要采取的动作及其顺序。它包括3个组件:规划:将任......
  • [AIZU ONLINE JUDGE] 计算几何 CGL_3_C (射线法判断一点是否在多边形内部)
    Polygon-Point-ContainmentForagivenpolygon g andtargetpoints t,print"2"if g contains t,"1"if t isonasegmentof g,"0"otherwise.g isrepresentedbyasequenceofpoints p1, p2,..., pn wherelinesegmentsconnec......
  • 【AI原理解析】—生成对抗网络(GAN)原理
    目录一、基本原理二、核心算法原理和数学模型三、训练过程四、GAN的优缺点生成对抗网络(GenerativeAdversarialNetwork,简称GAN)是一种深度学习模型,自2014年由IanGoodfellow等人提出以来,在人工智能领域得到了广泛应用。GAN的基本原理是通过两个神经网络——生成器(Genera......
  • OpenAI新模型代号曝光,Blackwell需求强劲、英伟达与台积电的晶圆订单量增加25%
      ChatGPT狂飙160天,世界已经不是之前的样子。更多资源欢迎关注每日行业新闻1、OpenAI正在开发新的人工智能模型,代号为“草莓”据知情人士和媒体查阅的内部文件,ChatGPT开发商OpenAI正在一个代号为“草莓”的项目中开发一种新的人工智能模型。该项目的细节此前从未被......
  • 探索Mojo编程语言:AI开发者的新宠儿
    文章目录探索Mojo编程语言:AI开发者的新宠儿一、Mojo编程语言概述什么是Mojo?二、Mojo的安装与配置安装MojoWindowsmacOSLinux配置Mojo三、基本语法与数据类型标量变量数组哈希四、控制结构条件语句循环语句五、函数与模块函数模块六、文件操作与正则表达式文件读取......
  • 传知代码-揭秘AI如何揪出图片中的“李鬼”(论文复现)
    代码以及视频讲解本文所涉及所有资源均在传知代码平台可获取文字篡改图像的“照妖镜”:揭秘AI如何揪出图片中的“李鬼”在数字化时代,我们时常被各种图像信息所包围。然而,这些图像中有时隐藏着不为人知的秘密——被篡改的文字或图像。这些被篡改的内容可能误导我们的判断,......