首页 > 其他分享 >文档图像矫正任务的前沿进展:引入Transformer框架、极坐标的思路

文档图像矫正任务的前沿进展:引入Transformer框架、极坐标的思路

时间:2025-01-22 10:55:28浏览次数:1  
标签:矫正 Transformer DocTr 文档 图像 Document 极坐标

在《文档数字化采集与智能处理:图像弯曲矫正技术概述》一文中,我们介绍了文档图像矫正技术的发展沿革与代表性方案。随着文档智能处理的需求逐步升级,文档图像去畸变技术也在不断探索新的可能性。

今天,我们将讨论近年来文档图像矫正任务的前沿进展,分享一些我们正在关注的方向,欢迎与我们共同探讨、交流进步。

Transformer 架构下的文档矫正探索

代表性工作

DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction [1]

  • 研究结果
  • 提出了一种新的框架 DocTr,用于解决文档图像的几何和照明失真问题。该框架包括一个几何矫正 Transformer 和一个照明矫正 Transformer,通过设置一组学习的查询嵌入,几何矫正 Transformer 捕获文档图像的全局上下文,并解码像素级位移解决方案以纠正几何失真。在几何矫正后,照明矫正 Transformer 进一步去除阴影伪影,提高视觉质量和 OCR 准确性。
  • 创新优势
  • 首次尝试将Transformer架构应用于文档图像矫正领域,提出了一个新的视角:把矫正过程看作是从“弯曲”状态到“平坦”状态的转换。
  • 通过自注意力机制捕捉全局上下文信息,同时结合位置编码来保留空间结构,实现了高质量的矫正结果。
  • 成功地将Transformer的优势延伸到了文档矫正这一特定任务上,展示了其处理长距离依赖关系的能力。
  • 对比传统CNN模型,在某些极端情况下表现出了更强的鲁棒性和适应性。
  • 项目地址:https://github.com/fh2019ustc/DocTr

Deep Unrestricted Document Image Rectification [2]

  • 研究结果
  • 提出了 DocTr++,一个用于文档图像矫正的新型统一框架,无需对输入的失真图像进行任何限制。
  • 引入了一种新的端到端框架,它不仅考虑了文档图像的二维几何变换,还结合了3D形状信息来进行更精确的矫正。该方法能够处理更加复杂的非平面文档表面,如书籍页面等。
  • 模型改进

与 DocTr 框架相比,模型改进主要体现在以下方面:

  • 架构升级,采用层次化编码器-解码器结构:DocTr++引入了层次化的编码器-解码器架构,用于多尺度表示提取和解析。这种结构能够更好地捕捉文档图像在不同尺度上的特征,从而更准确地理解和校正图像中的扭曲。
  • 像素映射关系重新定义,适应无限制文档图像校正:DocTr++重新定义了无限制扭曲文档图像与其无扭曲对应图像之间的像素映射关系。这意味着DocTr++可以处理各种输入情况,包括包含完整文档边界、部分文档边界以及无文档边界的扭曲图像。
  • 项目地址:https://github.com/fh2019ustc/DocTr-Plus

基于极坐标表示的文档图像矫正

代表性工作

Polar-Doc: One-Stage Document Dewarping with Multi-Scope Constraints under Polar Representation [3]

  • 研究结果
  • 探索极坐标表示在文档去畸变中的应用,提出了 Polar-Doc 模型。与大多数当前工作采用的两阶段流程不同,极坐标表示使得分割和去畸变网络能够在单个阶段内统一进行点回归框架。这种统一使得整个模型在端到端优化流程下更高效地学习,并且获得了紧凑的表示。
  • 提出了一种新颖的多范围 Polar-Doc-IOU 损失函数,作为极坐标下的基于网格的正则化,约束控制点之间的关系,提高学习效果,获得更好的去皱性能。
  • 创新优势
  • 首次在文档去畸变中探索极坐标表示,使得文档轮廓的表示更加灵活,IOU 损失的计算更加高效。
  • 提出的单阶段模型将分割和去畸变任务统一在一个联合回归框架中,以更少的参数实现先进的模型性能。

注意力机制增强控制点预测

代表性工作

DocReal: Robust Document Dewarping of Real-Life Images via Attention-Enhanced Control Point Prediction [4]

  • 研究结果
  • 设计了一个双子网络(Enet + AECP),其中Enet负责初步边缘检测和粗略矫正,而AECP则通过引入注意力机制来精确定位控制点,从而实现更精细的局部变形校正。
  • 通过合成具有 3D 变形和额外变形类型的 2D 图像来增强训练数据,提供了一个包含 200 张中文失真图像的更全面的基准测试,涵盖了更多真实生活场景。
  • 创新优势
  • 通过 Enet 和 AECP 模块的结合,有效去除了背景噪声并提高了在不同环境条件和文本类型下的可读性,包括在各种光照条件下保持较高的输出稳定性。
  • 提出的 3D 变形合成方法为训练数据提供了真实和多样化的变形,显著提高了模型的鲁棒性。

合合信息的图像矫正系统

合合信息推出了高性能文档图像矫正系统,能很好地矫正复杂的背景、更多类型的真实场景形变图像,为文档识别与解析提供更易于处理的输入图像。

系统链接为:https://www.textin.com/market/detail/crop_enhance_image

总结

从早期单纯使用几何方法到如今深度学习与几何先验、光照建模、多模态感知等多种思路的结合,文档图像弯曲矫正(去畸变)技术日益走向成熟。新一代方法不仅在弯曲矫正精度上不断提升,还更加关注在真实移动端场景下的部署效率与鲁棒性。

随着更多公开数据集的涌现与计算机视觉技术的快速迭代,文档矫正技术将逐步迈向更精确、更鲁棒、更易用的阶段,也为后续文档分析、信息提取等应用提供了重要支撑。

Reference

[1] Hao Feng, Yuechen Wang, Wengang Zhou, Jiajun Deng, Houqiang Li. "DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction." In Proceedings of the 29th ACM International Conference on Multimedia (MM ’21), October 20–24, 2021, Virtual Event, China.

[2] Hao Feng, Shaokai Liu, Jiajun Deng, Wengang Zhou, Houqiang Li. "Deep Unrestricted Document Image Rectification." arXiv preprint arXiv:2304.08796, 2023.

[3] Weiguang Zhang, Qiufeng Wang, Kaizhu Huang. "Polar-Doc: One-Stage Document Dewarping with Multi-Scope Constraints under Polar Representation." arXiv preprint arXiv:2312.07925, 2023.

[4] Fangchen Yu, Yina Xie, Lei Wu, Yafei Wen, Guozhi Wang, Shuai Ren, Xiaoxin Chen, Jianfeng Mao, Wenye Li. "DocReal: Robust Document Dewarping of Real-Life Images via Attention-Enhanced Control Point Prediction." In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2024.

 

标签:矫正,Transformer,DocTr,文档,图像,Document,极坐标
From: https://www.cnblogs.com/intsig/p/18685274

相关文章

  • 请问如何修改宝塔网站文档?
    要修改宝塔网站文档,您可以按照以下步骤进行操作:登录宝塔面板:打开浏览器,输入您的服务器IP地址或域名,然后输入宝塔面板的用户名和密码进行登录。找到网站管理:在宝塔面板的左侧菜单中,找到“网站”或“网站管理”选项,并点击进入。选择要修改文档的网站:在网站管理页面中,找到您想要......
  • Spring Boot框架大学生竞赛管理系统(源码+lw+部署文档+讲解等)
    大学生竞赛管理系统摘要随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。本文介绍了大学生竞赛管理系统的开发全过程。通过分析大学生竞赛管理系统管理的不足,创建了一个计算机管理大学生竞赛管理系统的方案。文章介绍了大学生竞赛管理系......
  • 基于SSM的在线药品销售商城【附源码+文档】
    ......
  • ✅毕业设计:基于python商品销售数据分析可视化系统 ARIMA 时序预测模型 淘宝商品数据分
    博主介绍:✌全网粉丝10W+,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业项目实战6年之久,选择我们就是选择放心、选择安心毕业✌>......
  • Svelte 最新中文文档翻译(1)—— 概述与入门指南
    前言Svelte,一个非常“有趣”、用起来“很爽”的前端框架。从Svelte诞生之初,就备受开发者的喜爱,根据统计,从2019年到2024年,连续6年一直是开发者最感兴趣的前端框架No.1:Svelte以其独特的编译时优化机制著称,具有轻量级、高性能、易上手等特性,非常适合构建轻量级Web项目......
  • Svelte 最新中文文档翻译(2)—— .svelte、.svelte.js 和 .svelte.ts 文件
    前言Svelte,一个非常“有趣”、用起来“很爽”的前端框架。从Svelte诞生之初,就备受开发者的喜爱,根据统计,从2019年到2024年,连续6年一直是开发者最感兴趣的前端框架No.1:Svelte以其独特的编译时优化机制著称,具有轻量级、高性能、易上手等特性,非常适合构建轻量级Web项目......
  • 一镜到底,通过Llama大模型架构图看透transformers原理
    一镜到底,通过Llama大模型架构图看透transformers原理LlamaNutsandBolts是Github上使用Go语言从零重写Llama3.18B-Instruct模型推理过程(80亿参数规模)的实战类开源项目,其作者是来自土耳其的AdilAlperDALKIRAN。如果你对于LLM(大语言模型)和Transformers的工作原理感兴趣,并......
  • 在浏览器中查看、编辑和导出PDF文档-Wijmo PDF 查看器
    在浏览器中查看、编辑和导出PDF文档2025年1月20日WijmoPDF查看器具有读/写支持的JavaScriptPDF查看器组件提供了一种多功能解决方案,可将文档管理集成到基于Web的工作流程中。具有PDF读写功能的PDF查看器组件可以极大地增强现代Web应用程序,从而实现直接......
  • 基于springboot的高校毕业生就业信息管理系统(源码+lw+部署文档+讲解等)
    背景及意义基于Java+SpringBoot的高校毕业生就业信息管理系统是一个功能强大的信息管理平台,旨在为高校的就业工作提供全面支持。该系统通过Java语言的强大功能和SpringBoot的便捷开发框架,将涵盖多个重要模块。其中包括毕业生信息管理,能详细记录毕业生的基本信息......
  • 基于springboot的高考志愿智能推荐系统(源码+lw+部署文档+讲解等)
    背景及意义基于Java+SpringBoot的高考志愿智能推荐系统旨在为高考生提供科学、个性化的志愿填报辅助服务。该系统利用Java的强大编程能力和SpringBoot的便捷开发特性,能够高效实现功能。首先,它会收集考生的各项信息,如高考成绩、学科兴趣、地域偏好等。通过复杂的......