【论文阅读笔记】【OCR-文本识别】 Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for S

时间：2023-10-26 10:45:57浏览次数：34

标签：上下文语言 Language 模型建模文本解决 OCR Like

ABINet
CVPR 2021(Oral)

读论文思考的问题

论文试图解决什么问题？
- 如何对语言的上下文进行建模而不是对视觉特征的上下文信息进行建模
- 如何在端到端的文本识别模型中更好、更高效地对文本的语言知识进行建模，提升对困难情况的字符识别效果
文章提出了什么样的解决方法？
- 提出了一个 autonomous, bidirectional 和 iterative 的网络来进行文本识别
- 语言模型针对输入的文本进行显式的上下文填空建模，习得单词的深度双向语义信息。通过这种上下文的语义信息将VM预测结果进行修正
  - 语言模型可以单独训练，无需视觉特征信息（自洽性）
  - 在语言模型输入处将梯度detach，禁止回传，强迫其直接显式地学习语言规则的建模
- 通过对多模态特征信息的fusion，实现更加高质量的预测以及不同预测的ensemble
- 通过迭代的方式不断地对语言模型的预测进行 refinement，并解决输入中出现噪声的问题
- 提出了一种半监督的 self-training 方式用于训练，更好地提升模型的能力
你觉得解决方法的关键之处在哪里？
- 语言模型部分，通过mask的形式并行地进行每个字符的掩码预测，更好地显式地建立了语言的双向上下文关系
这个解决方法的局限性在哪里？有没有更好的解决方法？
- 能否设计一种多粒度的语言建模模型，更好地进行ensemble？（字符、词片……）
文章是通过设计什么样的实验来支撑其解决方法的有效性的？（你说有效就有效吗，我不信）这些实验你觉得有效吗？
- 实验缺了一个加入 self-attn 的对比实验

要点

BCN 通过 masked cross attn，学得了从上下文字符推断本字符的能力

问题

如果 BCN 的 K 和 V 取不同的映射矩阵，会有区别吗？
论文里面的时间步是什么意思？不同时间步之间要防止信息泄露又是什么意思？

标签：上下文,语言,Language,模型,建模,文本,解决,OCR,Like
From： https://www.cnblogs.com/yywwhh2000/p/17788873.html

【论文阅读笔记】【OCR-文本识别】 From Two to One: A New Scene Text Recognizer wi
VisionLANICCV2021读论文思考的问题论文试图解决什么问题？使用语言模型对识别的文本的上下文语义信息进行建模时，会有以下问题：引入额外的计算量；识别的视觉和语言特征很难做一个很好的融合、互补能否在不使用语言模型的情况下，直接赋予视觉模型一定的语言建模能力？......
Proj CDeepFuzz Paper Reading: POLYCRUISE: A Cross-Language Dynamic Information F
Abstract本文：PolyCruiseMethod:跨编程语言的holisticdynamicinformationflowanalysis(DIFA)usealightlanguage-specificanalysis和language-agnosticonlinedataflowanalysis来计算symbolicdependencies实验：数据集：PolyBench，包含小中大三种等级的benchmarks效......
论文阅读：Unifying Large Language Model and Knowledge Graph：A RoadMap
1Introduction大模型和知识图谱结合的综述。简单介绍一下大模型和知识图谱的优缺点：如上所示。本文主要划分为三个模块，分别为：KG-enhancedLLMsLLM-augmentedKGsSynergizedLLM+KG2Background主要介绍了LLM和KG2.1LargeLanguageModel(LLMs)主要依靠transforme......
呜呜呜我要拿Go赢他~ Go language MacOs build development environment Hello! Go !
前言Go编程语言是一个开源项目，旨在提高程序员的工作效率。Go富有表现力、简洁、干净且高效。它的并发机制使编写能够充分利用多核和联网机器的程序变得容易，而其新颖的类型系统可以实现灵活和模块化的程序构建。Go可以快速编译为机器代码，同时还具有垃圾收集的便利性和运行时反射......
Internet-augmented language models through few-shot prompting for open-domain qu
Internet-augmentedlanguagemodelsthroughfew-shotpromptingforopen-domainquestionanswering 其实我没怎么正经读过论文，尤其是带实验的，我目前认真读过的（大部头）也就是一些LLM的综述。记录这个文档主要是防止自己读着读着玩手机去了/注意力不集中了跑路了/没记录困惑导......
代码的艺术-Writing Code Like a Pianist
前言如何评定一个系统的质量？什么样的系统或者软件可以称之为高质量？可以从三个角度来看，一是架构设计，例如技术选型、分布式系统中的数据一致性考虑等，二是项目管理，无论是敏捷开发还是瀑布式开发，都应当对技术负债进行清理，对代码进行重构等，最后离不开的是代码质量，代码质量的高低直接影......
【实操】Java+百度ocr，实现图片识别文字小工具
前言......
P9290 Luna likes Love 题解
原题：[洛谷P9310]([P9310EGOI2021]LunalikesLove/卢娜爱磕cp-洛谷|计算机科学教育新生态(luogu.com.cn))题目大意给定一个长度为\(\large2n(n\leq10^5)\)的序列，序列中\(\large1\simn\)的每一个数都恰好出现两次。可进行两种操作：交换两个相邻的数的位置。......
C语言 likely和unlikely
likely和unlikely作用在知道哪个发生概率更高的情况下，有if时使用likely和unlikely让代码运行更快。likely和unlikely是两个宏，当有if-else分支时告诉编译器，哪个条件更加有可能发生。likely代表if分支大概率会发生，unlikely代表if分支大概率不会发生。#definelikely(x)__builtin_......
（待完善）C/C++ Language Standard
C89/C90(ANSICorISOC)wasthefirststandardizedversionofthelanguage,releasedin1989and1990,respectivelyC99(ISO/IEC9899:1999)C11(ISO/IEC9899:2011)C18(ISO/IEC9899:2018)ThefirstversionofCwascalled"ASystemProgrammingLang......

【论文阅读笔记】【OCR-文本识别】 Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for S

读论文思考的问题

要点

问题

相关文章

赞助商

阅读排行