首页 > 其他分享 >中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果

中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果

时间:2023-10-19 10:33:56浏览次数:50  
标签:模态 模式识别 模型 图像处理 文档 图像 篡改 视觉

中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果_数据


前言

随着人工智能技术的不断演进,多模态大模型已是当下比较热的研究方向,它可以同时理解和生成多种输入和输出模态,如文本、图像、语音等,能够更好地模拟人类的多感知能力,给文档图像的分析处理带来了新的机遇和挑战!

近期,中国模式识别与计算机视觉大会在厦门举办,是国内顶级的模式识别和计算机视觉领域学术盛会。大会汇聚了国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行,分享我国模式识别与计算机视觉领域的最新理论和技术成果。通过此次会议,进一步加强本领域的同行与东南沿海地区的学者和企业进行学术交流和技术碰撞,从而促进模式识别与计算机视觉领域的协同合作与融合创新。

合合信息是人工智能及大数据领域的领先企业。在本次大会中合合信息智能技术平台事业部副总经理郭丰俊博士分享了文档图像前沿技术中的成果及探索,主要包括多模态模型以及图像安全,让我们一起来了解一下吧。

一、多模态模型进展与探索

多模态大模型可以用于提高文档图像的处理和分析能力,使文档变得更易于管理、检索和理解。而文档图像是多模态天然的一个属性,它们能够为文档管理、信息提取和文档分析等任务提供有力支持。

1、GPT-4V (多模态)测试

随着 GPT-4V 到来,多模态能力发生了跃迁,不仅能理解文本,还能理解图像。经过初步的测试发现它对英文 OCR 较好,但是对中文 OCR 不理想。GPT-4V 有时会错误地将图像中的两串文字组合在一起,创造出一个虚构的术语。它还会遗漏文字或字符、忽略数学符号,以及无法识别相当明显的物体和地点设置。下图展示了 GPT-4V 的错误识别:

中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果_图像处理_02

2、LLM时代文档图像处理技术趋势

LLM 时代,文档图像处理技术在不断演进,郭丰俊博士从三个方面来介绍文档图像处理技术趋势:

  • 输入:在输入端主要使用多模态的方法,这些方法允许系统同时处理不同的数据模态,如文本、图像和语音,从而提高了系统对多种感知信息的综合理解和处理能力
  • 架构:使用通用的Transformer Encoder / Decoder 架构,它使多模态模型能够处理各种数据类型,实现综合的多模态理解和生成。
  • 数据:对于多模态的Transformer模型,需要大规模且高质量的数据来训练模型,以获得最佳性能。

3、LLM时代文档图像技术机会

GPT-4V 的到来,是否会对会对正在做 OCR、NLP 领域的研究者造成危机感呢?郭丰俊博士提出虽然新技术的诞生会引起更多的关注,但是 OCR 依然是一个很重要的技术。如今我们想要训练一个大模型,不管是参与人的模型还是像 GPT-4V,都需要大规模的数据,而 OCR 在提供数据方面是一个非常好的工具,OCR 不仅能够高效录入数据,并且还能够处理不同格式的的数据。

4、MLLM时代文档图像处理技术趋势

下面是一些在文档图像处理方面比较知名的系统。

  • BLIP2 – Saleforce:Q-Former连接图像编码器(ViT)和LLM解码器; 仅需训练Q-Former部分
  • Flamingo – DeepMind:在LLM中增加Gated Attention层引入视觉信息
  • LLaVA – Miscrosoft:将CLIP ViT-L和LLaMA采用全连接层连接; 使用GPT-4和Self-Instruct生成高质量的158k instruction following数据
  • MiniGPT – Vision CAIR Group, KAUST:ViT+ Q-Former + Vicuna
  • Nougat – Meta:Swin Transformer + Transformer Decoder 图像到序列范式; 820万页文档的数据集
  • Kosmos-2.5:Swin Transformer + Transformer Decoder 范式; 3.2亿的数据和1.3B的模型达到远超Nougat等Sota指标
  • Donut – NAVER:无需OCR, 用于文档理解的Transformer模型

5、知名文档图像大模型OCR性能分析

经过系统测评显示系统性能还需要进一步提高,郭丰俊博士提出可能是以下原因:

  • 视觉编码器的分辨率限制: OCR 系统中的视觉编码器通常用于处理文档图像,从中提取文本信息。如果视觉编码器的分辨率不足,可能导致文本识别的准确性下降。提高视觉编码器的分辨率和图像处理能力可能是提升性能的一种途径。
  • 训练数据限制: OCR 系统的性能通常受到训练数据的质量和多样性的影响。如果训练数据不足或不具代表性,系统可能难以应对各种文档类型、字体和排版风格。增加训练数据的数量和多样性可以改善性能。

中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果_图像处理_03

二、图像安全

随着生成式的人工智能快速发展,越来越多的系统都能够生成图像,图像的真伪以及安全也越发重要。AI 图像安全为 AIGC 健康发展、规模化应用保驾护航,解决负面社会问题。下图展示了 AI 图像安全在文档图像的篡改以及人脸真伪具体案例:

中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果_数据_04

1、篡改种类

图像篡改指的是对数字图像的未经授权或欺骗性修改,以改变图像的内容或意义。分为四种类型:复制移动、拼接、擦出、重打印。下面给出证件照原始图,对图像篡改的四种类型一一解释,以身份证背面图为例,具体如下:

中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果_模态_05

2、系统架构

合合信息在处理图像篡时基于分割模型的图像处理,Backbone使用ConvNeXt作为编码器,使用LightHamEANet两个网络并行作为解码器。充分利用了编码器-解码器结构,其中编码器负责提取特征,解码器负责还原图像并执行分割。并行使用两个不同的解码器可以提供更多的特征表示和捕获能力,从而增强了分割性能。

中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果_模态_06

在文档图像处理时,郭丰俊博士提到有两个挑战的方面:一个是大量数据的构建,构建大规模且高质量的数据集对于训练文档图像处理模型至关重要。这些数据集应该包括多种字体、多种场景、多种篡改形式、头像物体篡改,以覆盖各种应用场景;另一个是训练策略,需要不断进行优化调整。 在深度学习中,选择合适的训练策略对于模型性能至关重要。这包括超参数的调整、学习率的优化、数据增强方法的选择以及模型的选择。不断调整和优化这些策略可以帮助提高模型的性能,使其在文档图像处理任务中更加强大和可靠。

中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果_图像处理_07

3、文档图像处理开放平台

合合信息针对文档图像处理,提供了PS检测开放平台,供开发者进行免费测试。基于自研篡改检测系统,可以判断图片是否被篡改,支持包含身份证、护照、驾驶证、行驶证、教师资格证,港澳通行证、海外身份证等证照,及增值税发票、普通发票、小票、合同等文档。该产品具有独特的优势:

  • 准确率高:基于海量的图片样本训练模型,针对图片模糊、倾斜、翻转等情况进行专项优化,鲁棒性强,总体识别准确率行业靠前。
  • 服务稳定:提供高可靠性、弹性可伸缩、高并发承载的云端服务,扩展性好,算法的持续迭代优化对用户使用稳定性无影响。
  • 多样部署:提供公有云 API 以及私有化部署两种方式。

4、AIGC假图鉴别

在安全领域,合合信息紧跟时代步伐做了生成式AI的鉴别工作,主要包括身份验证与访问控制、移动设备的安全检测、数字图像真实鉴定。比如我们现在有些手机、电脑、门禁等的解锁或可以使用人脸就可以解密,还有一些 ToB 的业务, 比如银行的很多业务都需要面临生成式 AI 造假带来的压力。

它的系统架构师怎么实现的呢?郭丰俊博士以人脸鉴别场景为例,提出该鉴别体系的架构是通过通过多个空间注意力头来关注空间特征,并使用纹理增强模块放大浅层特征中的细微伪影,增强模型对真实人脸和伪造人脸的感知与判断准确度,其中纹理的细节变化是人脸鉴别的一个非常重要的依据。

中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果_模态_08

5、图像篡改检测标准制定

关于图像篡改检测标准,合合信息将与中国信通院、中国图象图形学学会、中国科学技术大学一起共建并推动图像篡改监测标准,为文档图像内容安全提供可靠保障,提高图像篡改检测的一致性,推动技术创新,助力新时代AI安全体系建立。通过推动这一标准的制定和实施将有助于构建更可靠的 AI 安全体系,不仅对文档图像内容的安全具有重要意义,还可以在广泛的应用领域中推动数字安全和隐私保护。

最后

多模态模型的发展呈现出巨大的潜力,这些模型在深度学习领域中变得越来越重要。合合信息深耕智能文字识别以及商业大数据领域,结合模式识别、图像处理、神经网络、深度学习、STR、NLP打造智能文字识别服务平台,结合隐私计算、知识图谱打造商业大数据技术与资产平台,产品覆盖B端、C端,深受全球用户的喜爱。未来期待可以看到合合信息更多关于多模态模型在金融、零售、证券等领域的创新和应用,用技术方案服务更多的人群。

标签:模态,模式识别,模型,图像处理,文档,图像,篡改,视觉
From: https://blog.51cto.com/u_15885506/7931511

相关文章

  • 大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求
    大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求一个面向多模式GPT-4级别能力构建的助手。它结合了自然语言处理和计算机视觉,为用户提供了强大的多模式交互和理解。LLaVA旨在更深入地理解和处理语言和视觉信息,从而实现更复杂的任务和对话。这个项目代表了下一......
  • 机器视觉在遥感图像分析中的应用及未来发展。
    机器视觉在遥感图像分析中具有广泛的应用,并且未来发展前景广阔。以下是一些关于该领域的应用和未来发展的关键信息:应用领域:土地利用规划: 机器视觉可用于自动化土地利用规划,通过分析遥感图像中的地物来帮助城市和农村规划师更好地了解土地用途和发展需求。资源管理: 遥感图......
  • 机器视觉在艺术鉴赏和文物修复中的应用与挑战
    机器视觉技术在艺术鉴赏和文物修复领域的应用,为文化遗产的保护和修复提供了新的可能性。这一技术不仅可以协助鉴定艺术品的真伪和年代,还可以帮助文物修复师更好地理解并修复古老的艺术品。本文将讨论机器视觉在艺术鉴赏和文物修复中的应用以及相关的挑战。艺术品真伪鉴定机器视......
  • PRCV 2023:语言模型与视觉生态如何协同?合合信息瞄准“多模态”技术
    PRCV2023:语言模型与视觉生态如何协同?合合信息瞄准“多模态”技术近期,2023年中国模式识别与计算机视觉大会(PRCV)在厦门成功举行。大会由中国计算机学会(CCF)、中国自动化学会(CAA)、中国图象图形学学会(CSIG)和中国人工智能学会(CAAI)联合主办,多媒体可信感知与高效计算教育部重点实验室、......
  • 基于模态分解联合小波阈值去噪(汇总)
    ​ 1.MATLAB:基于EMD联合小波阈值去噪算法代码见:基于EMD分解联合小波去噪(mbd.pub)基于EMD(经验模态分解)联合小波阈值去噪算法是一种常用于信号处理和图像处理领域的算法。它主要依赖于经验模态分解和小波阈值去噪两个步骤。经验模态分解(EMD)是一种将信号分解成多个固有模态函......
  • 信号的模态分解(汇总篇)
    ​ 1.MATLAB:EMD(经验模态分解)代码地址:EMD(经验模态分解)(mbd.pub)在机器学习和信号处理中,“EMD”可指代经验模态分解(EmpiricalModeDecomposition),它是一种非线性时频分析方法。经验模态分解是一种将信号分解为一系列固有模态函数(IntrinsicModeFunctions,简称IMF)的方法。IMF......
  • 机器视觉在气候变化和环境监测中的创新应用
    机器视觉在气候变化和环境监测中具有许多创新应用,可以用来更好地理解和应对环境挑战。以下是一些机器视觉在这一领域的应用:林火监测: 机器视觉系统可以分析卫星图像和野外相机捕捉的图像,以检测和监测森林火灾。这有助于及早发现火源并协助灭火行动。大气污染监测: 通过分析......
  • 《Python计算机视觉编程》高清高质量电子书PDF
    下载:https://pan.quark.cn/s/3c386f89afec......
  • AI 视觉的应用|ZegoAvatar ⾯部表情随动技术解析
    ​ 一、AI“卷”进实时互动2021年,元宇宙概念席卷全球,国内各大厂加速赛道布局,通过元宇宙为不同的应用场景的相关内容生态进行赋能。针对“身份”、“沉浸感”、“低延迟”、“随时随地”这四个元宇宙核心基础,ZEGO即构科技基于互动智能的业务逻辑,提出并落地了ZegoAvatar解决方......
  • 计算机视觉与模式识别学术速递[10.13]
    一、检测相关(6篇)1.1UniPose:DetectingAnyKeypointshttps://arxiv.org/abs/2310.08530这项工作提出了一个统一的框架,称为UniPose,以检测任何关节的关键点(例如,人和动物)、刚性和柔软对象,以进行细粒度视觉理解和操纵。关键点是任何对象(尤其是铰接对象)的结构感知、像素级和紧凑表示......