首页 > 其他分享 >中电金信多模态鉴伪技术抵御AI造假威胁

中电金信多模态鉴伪技术抵御AI造假威胁

时间:2024-09-24 10:51:44浏览次数:10  
标签:模态 视频 AI 音频 金信 特征 鉴伪 伪造


AI换脸技术,属于深度伪造最常见方式之一,是一种利用人工智能生成逼真的虚假人脸图片或视频的技术。基于深度学习算法,可以将一个人的面部特征映射到另一个人的面部,创造出看似真实的伪造内容。近年来,以AI换脸为代表的AIGC技术被用于诈骗活动呈显著增长趋势,给金融行业带来了巨大的安全风险。

中电金信多模态鉴伪技术抵御AI造假威胁_数据集

注:图左为AI分身

如上述画面,领英创始人里德·霍夫曼用LLM创建了自己的AI分身,并接受了其AI分身的采访,整场采访的效果极为逼真,难辨真假。

而在近期,GitHub上的一个名为Deep-Live-Cam的项目爆火,更让人感受到AI技术的出神入化。通过这款工具随意使用一张他人的照片,就能实现在直播流中的实时换脸。

中电金信多模态鉴伪技术抵御AI造假威胁_数据集_02

国外网友(图右)使用了一张埃隆·马斯克的照片映射在自己脸上,即使在昏暗的灯光下表情也很生动。


目前,Deep-Live-Cam完全开源,对于很多网友来说是多了一个娱乐或者研究项目,但是对于不法分子来说,他们伪造欺诈的手段也会“更上一层楼”!

新型金融诈骗重灾区:AI换脸拟声

近年来,以身份验证环节的人脸识别安全为例,AI换脸诈骗作为一种新兴的“AIGC”诈骗手段,已经对金融业务安全构成了严重威胁,同时,通过换脸伪装成亲友,以紧急情况为由借钱,让受害者在毫无防备的情况下遭受资金损失的案例也很多,比如:

01

对于不法分子来说,最关键的是破译线上银行的人脸核验系统。要突破人脸验证,还必须经历金融机构风控的多个环节,比如验证码、密码等环节攻破,这也意味着整个线上验证系统都会经历不同程度的。而一旦进入人脸核验环节,不法分子便可通过表情、实时换脸等驱动让照片做出“张嘴、眨眼、点头、摇头”等指令性动作,再让智能设备不启动摄像头,直接底层注入合成的动态人脸视频,绕过动作等活体检测,便可顺利破译人脸识别。不法分子在掌握用户个人信息后便可轻易实施银行卡盗转盗刷,或者是引诱转账、实施敲诈等作案行为。

02

伪造他人身份通话、视频,骗取转账。不法分子首先会通过各种公开的渠道获取受害人的个人肖像或视频,然后利用AI技术,对这些照片中的面容特征进行学习,从而模仿眨眼、摇头等动作,实现以假乱真的效果,然后在微信等即时通信或者社交软件上伪装成他人,以紧急情况为由借钱,开展相应的金融诈骗活动,而受害人在视频通话中看到了熟悉的亲友样貌,打消了顾虑,向对方发起转账汇款等行为,最终造成经济损失。

多模态智能鉴伪AI造假

随着图像、视频、音频等媒体伪造所造成的威胁不断增长,许多检测方法已经出现。早期的伪造检测方法主要关注单个模态,如检测图像的真假、音频的真假等。单模态鉴伪方法处理速度快,但场景泛化性能有限,无法同时检测多个模态的真伪。为了解决上述问题,多模态鉴伪方法应用而生。现有的多模态鉴伪方法仅在小样本数据集上进行训练,并且忽略了身份信息,难以得到泛化性能较好的模型。为了提升鉴伪模型的泛化能力,中电金信联合复旦大学提出了参照辅助的多模态鉴伪方法,相关论文已被多媒体领域顶级国际会议ACM MultiMedia 2024接收,并将在该大会上进行口头报告(Oral 接收率仅3.97%)。

核心技术介绍

R-MFDN方法创新性地利用丰富的身份信息,挖掘跨模态不一致性来进行伪造检测。该方法由三个模块组成,多模态特征提取模块、特征信息融合模块和伪造鉴别模块。多模态特征提取模块包含视频编码部分和音频编码部分。视频编码部分通过ResNet实现。对于输入的视频帧序列,模型从该序列等步长地采样4个分组,每个分组中包含连续的4帧。对于采样的16帧,模型使用ResNet提取对应的图像级特征。然后每个分组的特征通过时序Transformer模型得到一个分组级特征。最后通过对4个分组级特征进行平均池化得到视觉特征。音频编码部分使用音频频谱图Transformer提取音频的高级特征。然后,这些特征作为特征信息融合模块的输入。在特征信息融合模块中,视觉特征先经过自注意力层处理,然后和音频特征通过交叉注意力层进行特征融合。最后的融合特征输入到伪造鉴别模块中,进行类别判断。

为了监督R-MFDN模型的训练,我们使用三个损失函数对模型参数更新进行约束。第一个损失函数是分类结果的交叉熵损失函数。第二个损失函数则是视觉特征与音频特征的跨模态对比学习损失函数。模型通过对来自同源和不同源视频的两种模态特征进行匹配,从而使特征学习过程能够在特征空间中对齐不同模态的信息。具体而言,源于同一个视频的不同模态特征被视作正样本对,不同源的则被视作负样本对。正样本对的特征应该尽可能接近,负样本对则应该疏远。此外在匹配过程中,涉及伪造信息的匹配亦对被视为负样本对,以增强特征学习过程对伪造的敏感性。这不仅提升了模型的判别能力,还使其在现实世界的多模态深度伪造场景中实现更准确的检测。第三个损失函数是身份驱动的对比学习损失函数,旨在使相同身份的相同模态特征尽可能靠近,而不同身份的特征则尽量远离。尽管训练与测试数据中每个身份涉及多个视频和场景,表现形式各异,鉴伪模型仍能学习到身份敏感的特征,从而在AI换脸拟声等身份伪造场景中具备更强的鉴别能力。

此外, 由于多模态伪造视频鉴别领域目前没有大规模高质量的开源数据集,研究团队还构建了一个高质量的AI换脸拟声数据集——IDForge。该数据集包含针对54位名人讲话的249,138个视频片段,其中包括169,311个伪造视频片段,模拟了当下文本、音频和视频多模态的全方位伪造。文本伪造使用大语言模型和文本替换策略生成语义不同但风格相似的新句子,以模拟大语言模型被滥用传播虚假信息的情境。音频伪造使用了TorToiSe、RVC和音频替换策略生成与说话人声音相似的新音频片段,并通过随机替换相同性别的音频来制造伪造效果。视频伪造采用了社区和学界大量采用的ROOP、SimSwap和InfoSwap三种换脸方法,并使用高分辨率版本的Wav2Lip模型进行口型同步,以确保伪造视频的高质量和自然性。与现有数据集不同,IDForge还提供了一个额外的参考数据集,该数据集包含214,438个真实视频片段。这些片段来自另外926个完整的YouTube视频,作为每位说话人的身份先验信息。这一设计的出发点是,当观众面对可能存在伪造迹象的视频时,通常会凭借记忆中对该说话人的印象或对照已有的音视频,以判断视频的真实性。因此,研究团队额外提供了参考数据集部分,作为检测网络中可用的先验信息。先前的身份信息检测方法由于缺乏类似设计的数据集,受到了诸多限制。数据集目前已在Github上开源

标签:模态,视频,AI,音频,金信,特征,鉴伪,伪造
From: https://blog.51cto.com/u_15430715/12097842

相关文章

  • Google 提供基于AI的模糊测试框架
    人工智能驱动的OSS-Fuzz工具可以帮助发现漏洞,并与自动修补管道相结合。    模糊测试可以成为找出软件中零日漏洞的宝贵工具。为了鼓励开发人员和研究人员使用它,谷歌周三宣布,免费提供其模糊测试框架OSS-Fuzz。    根据谷歌的说法,通过使用该框架在大型语言......
  • async await执行顺序
    asyncawait执行顺序async/await 是用于编写异步代码的语法糖,它允许你以类似于同步代码的方式写异步操作。async 关键字声明的函数会返回一个Promise,而 await 关键字用于等待一个Promise完成。执行顺序如下:调用 async 函数。函数会继续执行,遇到 await 时,控制......
  • 使用Copilot AI解决openwrt 19.07 nas samba在Windows网络[网上邻居]中无法看到的问题
    1.问题缘由我的一台openwrt路由可以在Win11的网络中看到,另一台自己刷的openwrt19.07nas却在win11网络中看不到,但直接用IP可以访问其samba3.6共享的文件夹。为何这台不能被Windows发现呢?2.问题解决自己搜索了下,找不到解决方案,问了下Googlegemini,回答不能解决,有点答非所闻......
  • 排查Linux中free -h 显示的 available 小于 free 值
    一、服务器上使用free-h命令显示如下 正常情况下:total=free+used+buff/cacheavailable=free+可回收的buff/cache理论上 available至少应该等于free,free尚未使用内存,available:可用内存,可用内存=尚未使用内存+可回收的buff/cache但是上面显示的available大大小于free值。......
  • 安装阿里图文融合AI - AnyText心路历程(安装失败告终,心痛!)
    Windows环境下安装AnyText。大致的安装流程:参考:https://zhidao.baidu.com/question/636353961646106444.htmlwindows打开终端:参考:https://baijiahao.baidu.com/s?id=1792666163328932147&wfr=spider&for=pc安装Ubuntu:参考:https://baijiahao.baidu.com/s?id=1......
  • 笔魂AI绘画工具使用感受
    在数字化艺术的浪潮中,AI技术正逐渐成为推动创意产业发展的重要力量。作为一名数字艺术家,我近期有幸体验了一款名为“笔魂AI绘画”的工具,它以其独特的功能和便捷的操作界面给我带来了全新的创作体验。笔魂AI绘画工具的使用过程非常直观。初次打开软件时,其简洁明了的界面设计让人一目......
  • metaflow netflix开源的数据科学ML&AI 框架
    metaflownetflix开源的数据科学ML&AI框架,类似的也有kedro,metaflow相比kedro来说对于云原生周边支持的更加友好一张图了解metaflow能力如下图,很清晰的说明了metaflow的能力,而且都是基于代码声明的说明metaflow官方文档比较详细,使用上相比kedro基于项目代码结构的模式......
  • ORA-38500: USING CURRENT LOGFILE option not available without stand
    在dataguard启用实时恢复的时候,报如下错误:ORA-38500:USINGCURRENTLOGFILEoptionnotavailablewithoutstand实际操作:SQL>alterdatabaserecovermanagedstandbydatabaseusingcurrentlogfiledisconnectfromsession;alterdatabaserecovermanagedstandbydata......
  • 【专题】2024AI智慧生活白皮书:AI智能科技重塑居家体验报告合集PDF分享(附原数据表)
    原文链接:https://tecdat.cn/?p=37748AI已然成为家电家居市场的创新核心动力,可在个性化识别、预测维护等多方面提升产品价值。家享生活行业智能化展现多元场景,清洁智能崛起超厨房智能居第二,全屋智能潜力巨大。“套装/集成智能”等品类增长快,智能新客多由老客升级,消费有时序性,......
  • RAG技术全面解析:Langchain4j如何实现智能问答的跨越式进化?
    LLM的知识仅限于其训练数据。如希望使LLM了解特定领域的知识或专有数据,可:使用本节介绍的RAG使用你的数据对LLM进行微调结合使用RAG和微调1啥是RAG?RAG是一种在将提示词发送给LLM之前,从你的数据中找到并注入相关信息的方式。这样,LLM希望能获得相关的信息并利用......