【论文阅读笔记】【OCR-文本识别】 Towards Accurate Scene Text Recognition with Semantic Reasoning Networks

时间：2023-10-26 10:46:43浏览次数：47

标签：文本 Semantic Text attention 语义建模信息上下文 OCR

SRN
CVPR2020

读论文思考的问题

论文试图解决什么问题？
- 如何利用文本的上下文语义信息来辅助文本识别任务
- RNN 能部分利用语义信息，但它的利用方式是串行的，极大地限制了语义信息的帮助，会造成错误累积以及效率缓慢等问题
文章提出了什么样的解决方法？
- 提出全局语义理解模块（GSRM），通过多方向并行传输信息的方式来对文本的上下文语义信息进行建模
- 提出SRN网络，包含GSRM, PVAM和VSFD模块，分别用于：上下文语义信息建模、并行文本视觉信息提取和视觉语义信息融合，实现高效和强健的文本识别
你觉得解决方法的关键之处在哪里？
- 利用 attention 机制将visual feature和positional encoding 做好了alignment，使得容易处理不规则的文本图片
- GSRM利用argmax的方式进行了伪字符选择，为语义建模提供了比较好的先验；transformer对上下文语义信息进行了深度建模。这两种做法使得模型能并行地对文本的全局信息进行语义理解，极大提高了效率
这个解决方法的局限性在哪里？有没有更好的解决方法？
- 不知道识别结果是否对文本的长度敏感？
- fusion模块用了 gated unit，似乎作用不明显，有没有更好的fusion方法？
文章是通过设计什么样的实验来支撑其解决方法的有效性的？（你说有效就有效吗，我不信）这些实验你觉得有效吗？

要点

attention 是一种很好的可用于 feature alignment 的技术
之前的方法是用前一个时间步的隐藏状态$H_{t-1}$作为attention的query，现在是直接用每个位置的encoding作为query，可以实现并行计算attention以及进行alignment

标签：文本,Semantic,Text,attention,语义,建模,信息,上下文,OCR
From： https://www.cnblogs.com/yywwhh2000/p/17788870.html

【论文阅读笔记】【OCR-文本识别】 Read Like Humans: Autonomous, Bidirectional and
ABINetCVPR2021(Oral)读论文思考的问题论文试图解决什么问题？如何对语言的上下文进行建模而不是对视觉特征的上下文信息进行建模如何在端到端的文本识别模型中更好、更高效地对文本的语言知识进行建模，提升对困难情况的字符识别效果文章提出了什么样的解决方法？......
【论文阅读笔记】【OCR-文本识别】 From Two to One: A New Scene Text Recognizer wi
VisionLANICCV2021读论文思考的问题论文试图解决什么问题？使用语言模型对识别的文本的上下文语义信息进行建模时，会有以下问题：引入额外的计算量；识别的视觉和语言特征很难做一个很好的融合、互补能否在不使用语言模型的情况下，直接赋予视觉模型一定的语言建模能力？......
RuntimeError: default_program(24): error: extra text after expected end of numbe
详细报错Traceback(mostrecentcalllast):File"eval_roberta_qa.py",line24,in<module>output=model(input_ids,attention_mask,token_type_ids)File"/home/rzhang/miniconda3/envs/vamc/lib/python3.7/site-packages/torch/nn/mo......
直播app系统源码，bootstrap5 text左对齐右对齐
直播app系统源码，bootstrap5text左对齐右对齐在bootstrap4中text左/右对齐 <h1class="text-right">右对齐</h1> <h1class="text-left">左对齐</h1> <h1class="text-center">居中</h1> 看了下官网在bootstrap5中就不起作用了换成t......
C#之System.Text.Json的用法
System.Text.Json是C#中的一个JSON序列化和反序列化库，它在.NETCore3.0及更高版本中提供了内置支持。以下是System.Text.Json的用法详解：JSON序列化JSON序列化是将.NET对象转换为JSON字符串的过程。usingSystem;usingSystem.Text.Json;publicclassPerson......
在fmx下动态生成的TText为什么不能调整大小及字体样式
//为什么会这样呢？类似于下面这样的代码不能生效。MyLbl:=Ttext.Create(self);MyLbl.Parent:=VscrbMenuBtn;//MyLbl.Font.Size:=20;MyLbl.TextSettings.Font.Size:=20;MyLbl.Size.PlatformDefault:=false;......
LLM在text2sql上的应用
一、前言：目前，大模型的一个热门应用方向text2sql它可以帮助用户快速生成想要查询的SQL语句。那对于用户来说，大部分简单的sql都是正确的，但对于一些复杂逻辑来说，需要用户在产出SQL的基础上进行简单修改，Text2SQL应用主要还是帮助用户去解决开发时间，减少开发成本。TexttoSQL：简称Te......
TextPro文本编辑软件及正则表达式
在文本处理方面，用TextPro文本编辑软件及其正则表达式，可以达到许多意想不到的奇妙效果。就拿替换来讲，有以下通配符：^代表行首$代表行尾\n换行\b向前删除一个字符\d向后删除一个字符.代表任意单个字符*代表前字符重复任意次.*代表任意字符......
偷偷搞定了Sublime Text 4，继续优雅的Coding
新换了电脑，结果SublimeText不能用了，内心万马奔腾。。。。在网上翻了一天，终于激活成功了SublimeText4，继续优雅的Coding！下面给大家分享下注册码，亲测可用，希望能帮助到大家。前言SublimeText是一个跨平台的编辑器，同时支持Windows、Linux、MacOSX等操作系统。SublimeText具有漂......
Open Domain Question Answering Using Early Fusion of Knowledge Bases and Text
目录概主要内容代码SunH.,DhingraB.,ZaheerM.,MazaitisK.,SalakhutdinovR.andCohenW.W.Opendomainquestionansweringusingearlyfusionofknowledgebasesandtext.EMNLP,2018.概KnowledgeBases+Text的推理.主要内容假设我们有一个不完全的知......

【论文阅读笔记】【OCR-文本识别】 Towards Accurate Scene Text Recognition with Semantic Reasoning Networks

读论文思考的问题

要点

相关文章

赞助商

阅读排行