首页 > 其他分享 >【论文阅读笔记】【OCR-文本识别】 From Two to One: A New Scene Text Recognizer with Visual Language Modeling Networ

【论文阅读笔记】【OCR-文本识别】 From Two to One: A New Scene Text Recognizer with Visual Language Modeling Networ

时间:2023-10-26 10:45:08浏览次数:37  
标签:文本 Network 模型 mask Scene 建模 掩码 视觉 OCR

VisionLAN
ICCV 2021

读论文思考的问题

  1. 论文试图解决什么问题?

    • 使用语言模型对识别的文本的上下文语义信息进行建模时,会有以下问题:引入额外的计算量;识别的视觉和语言特征很难做一个很好的融合、互补

    • 能否在不使用语言模型的情况下,直接赋予视觉模型一定的语言建模能力?

  2. 文章提出了什么样的解决方法?

    • 用弱监督的方式,MLM 根据图片特征和字符的 idx 生成对应的字符掩码 mask,将原特征进行掩码

      • 对mask的监督来自于(将对应字符删去后的)文本预测的损失,正向mask和反向mask总共可以有2个监督

      • mask的作用是用于增强视觉理解模块VRM的掩码建模能力

    • 掩码后的图像特征输入基于transformer的视觉模型VRM中,通过”掩码视觉建模”的思想预测出正确的单词,VRM 学到了根据掩码后的视觉特征建模出原有的完整文本字符串的能力

    • 推导时,不使用MLM,单纯使用VRM进行推导

  3. 你觉得解决方法的关键之处在哪里?

    • 弱监督学习技术:在没有对应字符的mask的gt的情况下,利用(丢掉要掩盖的字符后)的文本损失来监督字符级别 mask 的预测,而模型也表现出了较好的学习能力

    • 掩码建模方法:将掩盖某字符后的视觉特征丢给视觉模型,根据目标的完整文本预测,使得视觉模型自己就具有一定的上下文语义理解能力,避免了额外语言模型的引入

  4. 这个解决方法的局限性在哪里?有没有更好的解决方法?

  5. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?(你说有效就有效吗,我不信)这些实验你觉得有效吗?

问题

  1. 如果 MLM 里面的两个支路没有共享模型参数会怎么样?模型参数共享真的有效吗?

  2. VSR 里面的 transformer 模块是否有用?

标签:文本,Network,模型,mask,Scene,建模,掩码,视觉,OCR
From: https://www.cnblogs.com/yywwhh2000/p/17788877.html

相关文章

  • Linux (KDE) 中使用Network Settings设置静态ip
    在Linux(KDE)中使用NetworkSettings设置s5静态IP详细教程。首先,打开KDE的设置面板。可以通过点击桌面上的设置图标,或者在开始菜单中搜索“Settings”并打开。在设置面板中,点击“Network”选项。接下来,你会看到一个“NetworkConnections”的窗口。在这个窗口中,你需......
  • How To Use Traceroute and MTR to Diagnose Network Issues
    copyfrom: https://www.digitalocean.com/community/tutorials/how-to-use-traceroute-and-mtr-to-diagnose-network-issuesIntroductionAnimportantpartofadministeringserversismonitoringnetworkconnectivity.Thereareafewtoolsthataresimpletouse,......
  • GraphPrompt: Unifying Pre-Training and Downstream Tasks for Graph Neural Network
    目录概符号说明GraphPrompt代码LiuZ.,YuX.,FangY.andZhangX.GraphPrompt:Unifyingpre-traininganddownstreamtasksforgraphneuralnetworks.WWW,2023.概统一的图预训练模型+Prompt微调.符号说明\(G=(V,E)\),图;\(\mathbf{X}\in\mathbb{R}^{|......
  • 2023ACMMM_Mutual Information-driven Triple Interaction Network for Efficient Ima
    一.Motivation之前网络存在的缺点:1.使用的有限的频域信息 2. 不充足的信息交互:(1)第一阶段的输出直接作为第二阶段的输入,忽略了中间特征从早期到后期的传播(2)在编码器解码器结构同尺度之间进行特征融合,忽略了阶段内和跨阶段的跨尺度信息交换3. 严重的特征......
  • GPT-GNN: Generative Pre-Training of Graph Neural Networks
    目录概符号说明GPT-GNN代码HuZ.,DongY.,WangK.,ChangK.andSunY.GPT-GNN:Generativepre-trainingofgraphneuralnetworks.KDD,2020.概比较早的一篇图预训练模型.符号说明\(G=(\mathcal{V},\mathcal{E},\mathcal{X})\),某个图,其中\(\mathcal{X}\)......
  • 2023ICLR_SFNet: Selective frequency network for image restoration
    1.在运行SFNet代码时,前后代码保持不变,运行两次结果发生变化,把下面这段代码注掉就可以保持前后两次运行结果一致,不确定是否是nn.BatchNorm2d计算均值和方差导致classdynamic_filter(nn.Module):def__init__(self,inchannels,mode,kernel_size=3,stride=1,group=8)......
  • 论文阅读:SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A L
    SceneEncoder:Scene-AwareSemanticSegmentationofPointClouds withALearnableSceneDescriptorSceneEncoder:用可学习的场景描述符对点云进行场景感知的语义分割摘要除了局部特征,全局信息在语义分割中起着至关重要的作用,而最近的工作通常不能明确地提取有意义的全局信息......
  • Matching Network算法概述
    什么是MatchingNetwork1.论文地址:MatchingNetworksforOneShotLearning2.简介:基于MetricLearning部分思想,使用外部记忆来增强网络,提高网络的学习能力。3.创新点借鉴了注意力和外部记忆方面的经验来搭建网络基于meta-learning用task来训练,而不是metric-learning输入......
  • Linux (7) NetworkManager重置resolve.conf
    《WindowsAzurePlatform系列文章目录》 在默认情况下,AzureLinuxVM会安装waagent,而waagent会依赖于NetworkManager服务。当我们修改了resolve.conf的时候,如果重启NetworkManager或者重启了LinuxVM,NetworkManager会重置resolve.conf。 目前有两个......
  • Networkx 常用
    networkstatisticsprint('*'*30)print('networkstatistics')print(nx.info(G))print(nx.is_connected(G))components=nx.connected_components(G)print('numofconnected_components:',nx.number_connected_components(G))tri......