【论文阅读笔记】【OCR-文本识别】 Scene Text Recognition with Permuted Autoregressive Sequence Models

时间：2023-11-09 22:22:53浏览次数：40

标签：Permuted OCR Autoregressive 语言建模文本 AR attn 识别

PARSeq
ECCV 2022

读论文思考的问题

论文试图解决什么问题？
- 一些文本识别模型会对 semantic 信息建模，从而辅助某些困难情况下的文本识别
- 传统的 auto-regressive 方式限制了语义信息的传输方向；双向的 auto-regressive 聚合增加了不必要的计算量和复杂度；聚合视觉模型和语言模型的方法并不好，语言模型通常不接收视觉信息的输入，而语言模型本身能力不强，可能会造成对正确文本的错误修正。
- 能否建立更好的语言模型，修正上述方法的缺点，集成 AR 和 non-AR 的推理方式的优点？
文章提出了什么样的解决方法？
- 将自然语言处理中的排列语言建模（PLM）的思想应用到文本识别中，通过设计与给定排列相关的 cross attn mask ，让模型学习到比较强的语言上下文信息建模的能力
- 利用 encoder-decoder 架构实现文本识别。positional encoding 序列首先跟gt的文本通过排列语言建模，进行交叉注意力计算；随后跟编码的图像信息进行第二次交叉注意力计算；最后用线性层进行分类输出
你觉得解决方法的关键之处在哪里？
- 创造性地将 xlnet 中的 PLM 技术应用到文本识别中，attention从多个角度、全面地学习了文本的上下文信息（不只有AR的单向）
- decoder 不仅用到了文本的信息，还跟图像信息做了 cross-attn，联合了context-free和context-aware方法。这使得预测的结果不会出现将正确词汇进行错误纠正的情况
这个解决方法的局限性在哪里？有没有更好的解决方法？
文章是通过设计什么样的实验来支撑其解决方法的有效性的？（你说有效就有效吗，我不信）你觉得设计的实验有什么问题或者是缺少了什么实验？

要点

排列语言建模只需要根据特定的排列顺序，合理地设计好 attn mask 即可
只选取了K个排列进行计算，而不是全部的排列
inference 解码时可以采用 AR 或 NAR 的方式，同时可以用 cloze mask 来做 iterative refinement

问题

第3页里，Mansimov 的论文究竟说了啥？
inference 的时候没有 gt, 那么第一个 cross attn会怎么做呢
two-stream attention 是啥

标签：Permuted,OCR,Autoregressive,语言,建模,文本,AR,attn,识别
From： https://www.cnblogs.com/yywwhh2000/p/17823024.html

js怎么实现对某个图片进行ocr识别的效果？确保有效
在JavaScript中实现OCR（光学字符识别）通常涉及到使用一些库，比如`Tesseract.js`，这是一个纯JavaScript编写的OCR库，它被编译自著名的OCR引擎Tesseract。以下是一个使用`Tesseract.js`的基本示例，用于识别图片中的文本： 1.首先，您需要在您的项目中包含`Tesseract.js`。如果您是......
大模型训练，为OCR应用提升性能
一、介绍PaddleOCR是一个基于深度学习的光学字符识别（OCR）工具，它可以帮助我们实现图像中文字的自动识别。随着深度学习技术的不断发展，PaddleOCR在文字识别领域的性能得到了广泛认可。本文将重点介绍PaddleOCR文字识别模型训练的关键步骤和注意事项。二、数据准备训练PaddleOCR文字识......
OCR 图文识别的二次开发教程
1、在HTML文件中添加一个用于图像上传的按钮和一个用于显示识别结果的区域。你可以使用元素来实现图像选择和上传的功能，通过给它一个唯一的id来对应JavaScript中的操作<!DOCTYPEhtml><html><head><title>OCR图文识别</title></head><body><h1>OCR图文识别......
C# 一款免费且离线的.NET使用的OCR，PaddleOCRSharp
本项目是一个基于百度飞桨[PaddleOCR](https://github.com/paddlepaddle/PaddleOCR)的C++代码修改并封装的.NET的工具类库。包含文本识别、文本检测、基于文本检测结果的统计分析的表格识别功能，同时针对小图识别不准的情况下，做了优化，提高识别准确率。包含总模型仅8.6M的超轻量级中......
【论文阅读笔记】【OCR-文本检测】 Few Could Be Better Than All: Feature Sampling
CVPR2022读论文思考的问题论文试图解决什么问题？一些基于DETR的方法在ICDAR15,MLT17等文字尺度变化范围较大的数据集上文本检测的效果不佳DETR运用的高层特征图难以捕捉小文字的特征，且会引入很多无关的背景噪声，增加了检测的困难程度即使使用DETR的改进模型......
基于 tesseract-wasm+ fastify 开发一个简单的中文ocr 服务
以前我简单介绍过tesseract-wasm,基于此wasm包我们可以直接基于nodejs调用tesseract的方法实现ocr处理，以下是一个简单的demo基于fastify开发了一个简单的api，同时包含了一个简单的web可以测试项目结构package.json {"name":"tesseract","versio......
【论文阅读笔记】【OCR-文本识别】 Towards Accurate Scene Text Recognition with Se
SRNCVPR2020读论文思考的问题论文试图解决什么问题？如何利用文本的上下文语义信息来辅助文本识别任务RNN能部分利用语义信息，但它的利用方式是串行的，极大地限制了语义信息的帮助，会造成错误累积以及效率缓慢等问题文章提出了什么样的解决方法？提出全局语义理解......
【论文阅读笔记】【OCR-文本识别】 Read Like Humans: Autonomous, Bidirectional and
ABINetCVPR2021(Oral)读论文思考的问题论文试图解决什么问题？如何对语言的上下文进行建模而不是对视觉特征的上下文信息进行建模如何在端到端的文本识别模型中更好、更高效地对文本的语言知识进行建模，提升对困难情况的字符识别效果文章提出了什么样的解决方法？......
【论文阅读笔记】【OCR-文本识别】 From Two to One: A New Scene Text Recognizer wi
VisionLANICCV2021读论文思考的问题论文试图解决什么问题？使用语言模型对识别的文本的上下文语义信息进行建模时，会有以下问题：引入额外的计算量；识别的视觉和语言特征很难做一个很好的融合、互补能否在不使用语言模型的情况下，直接赋予视觉模型一定的语言建模能力？......
【论文阅读】DeepAR Probabilistic forecasting with autoregressive recurrent netwo
原始题目：DeepAR:Probabilisticforecastingwithautoregressiverecurrentnetworks中文翻译：DeepAR:自回归递归网络的概率预测发表时间：2020年07月平台：InternationalJournalofForecasting文章链接：https://www.sciencedirect.com/science/article/pii/S0169207019301888......

【论文阅读笔记】【OCR-文本识别】 Scene Text Recognition with Permuted Autoregressive Sequence Models

读论文思考的问题

要点

问题

相关文章

赞助商

阅读排行