CSIG青年科学家会议干货分享:视觉内容安全技术的前沿进展与应用
1. 前言
近期,第二十届中国图象图形学学会(CSIG)青年科学家会议于杭州正式开幕。中国图象图形学学会理事长王耀南院士,浙江大学副校长陈刚教授出席并致辞。大会主席浙江大学周昆教授主持开幕式。
会议由中国图象图形学学会主办,浙江大学计算机科学与技术学院、浙江大学计算机辅助设计与图形系统全国重点实验室、杭州全息智能技术研究院、中国图象图形学学会青年工作委员会承办。湖南大学王耀南院士、浙江大学陈刚副校长、浙江大学周昆教授、中国科学院自动化研究所王亮研究员共同担任大会主席。本次会议是中国图像图形学领域的重要会议,已经列入中国科协的重要会议指南。
2. 视觉内容安全技术的前沿进展与应用
本篇文章,我给大家分享下大会上一个干货,主题是《视觉内容安全技术的前沿进展与应用》,该主题由合合信息图像算法研发总监郭丰俊老师分享,他同时也是上海市图像图形学会的理事,专注于文字识别与图像处理领域。听完这场分享之后,对当前视觉安全领域的发展现在和最新研究进展有了一个非常清晰的认识,所以迫不急期待的地想分享给大家。
2.1 日渐增多的视觉安全需求
随着AI技术的发展和黑灰产利益的冲击,市面上出现了非常多的图像数据篡改案例。比较常见的有发票信息篡改、医疗票据金额篡改、身份证日期信息篡改、医疗检查报告日期信息篡改等。
有效的视觉安全技术,不仅能够识别和防范篡改行为,还能够:
- 通过身份识别安全性认证确保个人和企业的身份信息真实可靠,防止身份欺诈。比如实名认证的自动化和合法性验证。
- 通过确保交易和票据的真实性来保护企业的经济利益不受篡改行为的侵害,比如可以避免票据造假给保险公司带来的恶意骗保问题。
2.2 视觉内容安全技术分类
在视觉内容安全技术领域,尤其是被动检测方面,郭丰俊老师带领团队在积极推进图像篡改和人脸伪造检测技术,并且在篡改图像检测方面较早的推出了篡改检测平台,支持文字、证件以及人脸伪造等多种类型。
在国内,还有一些其他的厂商也做了一些包括大模型安全方案,包括证照伪造检测、AIGC检测、PS篡改检测等。国外方面,Intel、微软和亚马逊等团队也在人脸检测方面进行了投入,并取得了一定的成果。
2.3 通用篡改检测系统及人脸伪造检测系统
基于强大的视觉内容安全技术积累,合合信息对外发布了通用篡改检测系统,支持证照、证书、票据等的检测,适用于证券、银行、零售等行业。
此外,还根据用户需求,推出了人脸伪造检测系统,已在某央企标杆银行的生产流程中应用,主要提供AIGC图片检测和人脸PS检测等能力,目前系统运行良好。
2.4 文档图像篡改检测成果
近年来,学术界对文字图像伪造检测的关注逐渐增加,合合信息作为较早涉足此领域的先驱之一,应对相关需求展开了研究。在近两年的两项重要比赛中取得显著成绩:ICDR比赛中获得篡改文档检测比赛第一名,世界互联网大会的AI攻防挑战赛金融场景凭证篡改检测比赛中再次夺冠,展示了合合信息在文字图像伪造检测领域的领先技术与成果。
2.5 文本图像篡改检测技术的标准制定
在图像篡改检测领域,存在跨域问题、背景纯色下的篡改识别、图像质量降低、误检率和检出率等挑战。这些挑战对实际落地系统的知识成本、维护成本以及交付周期有显著影响。为解决这些挑战,合合信息于2024年10月,与中国信通院、中国图象图形学学会、中国科学技术大学
等在内的多个高校和机构合作编制了《文本图像篡改检测系统技术要求》,标准围绕伪造图像鉴别、生成式图像判别等议题,凝聚了行业共识,以促进该技术的稳定落地和广泛应用。
2.6 视觉内容安全技术趋势及挑战
当前,在视觉内容安全领域,需求主要集中在伪造图像检测、人脸伪造检测和声音篡改检测等方面。技术方面,可以基于VIT和频率特征的图像篡改检测方法,以及通过纹理抖动和学习图像特征差异来提高泛化能力的方法。这些技术旨在检测视觉痕迹微弱的篡改和提升对未知数据类型的适应能力。
但是,图像内容安全的进一步发展,同样也面临很多挑战。主要体现在如下几方面:
- 易受攻击:如缩放,传输过程可能导致性能下降
- 泛化能力待提高:在特定场景和数据集上表现优异,但面对未
知的伪造手段或多样化的应用场景时,常常无法保持较高的检
测精度。 - 伪造手段变化快,维护成本高
- 数据获取与标注成本高昂:要求高质量标注,涉及隐私保护,
进一步增加了获取难度
2.7 基于大模型技术的技术探索
随着视觉内容安全问题的挑战日益严峻,合合信息和业界同行们都在积极探索,利用大模型提升系统性能,突破挑战。
为什么考虑选用大模型的方案呢?主要因为如下几方面:
- 大模型可以利用多模态信息,整合图像、语言和动态信息,提高检测准确率。
- 可以把多场景、多类别信息统一到一个架构中,从而提升系统的易用性和交付效率。
- 借助大模型强大的泛化能力,尽可能的兼容未见过的新类别内容,提高识别率。
- 通过大模型,可以方便的把知识注入到系统里面去。能够更快捷的来迭代这个系统,以应对伪造手段的快速变化。
3. 总结
作为一个对人工智能领域有所关注的听众,听完郭丰俊老师的报告,我对视觉安全技术的重要性和它在现代社会中的应用有了非常深刻的认识。
报告中提到的伪造图像问题,尤其是在人脸、票据和证件方面的应用,让我意识到了这一问题对个人隐私和公共安全可能带来的威胁。
我也联系到实际生活中的很多应用场景存在漏洞风险,比如前段时间我提交商业保险报销所用的电子病历和电子发票,就非常容易造假,给保险公司带来资损,如果能够通过视觉内容安全方案进行甄别,很大程度上可以减少骗保的发生。
期待看到视觉内容安全领域技术在大模型的助力下,能够进一步发展,以更好地服务于社会,保护我们免受伪造内容的侵害。