首页 > 其他分享 >【论文阅读笔记】【OCR-文本识别】 SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【论文阅读笔记】【OCR-文本识别】 SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

时间:2023-12-12 16:56:08浏览次数:28  
标签:文本 OCR 模型 语义 Encoder 解码器 Enhanced semantic 识别

SEED
CVPR 2020

读论文思考的问题

  1. 论文试图解决什么问题?写作背景是什么?

    问题:

    • 如何利用全局的语义信息提高文本识别模型对低质量文本的鲁棒性和识别效果?

    背景:

    • 以往的基于 encoder-decoder 的文本识别方法通常基于局部的视觉特征解码出文本,忽略了对单词显式的全局语义信息的利用,导致模型难以识别模糊的、不完整的文本
  2. 文章提出了什么样的解决方法?

    • 利用一个 semantic module(两层的线性网络),从 encoder 提取的图像特征中预测一个 global semantic feature

    • 该特征受到预训练的语言模型(FastText)提取的 word embedding 的监督,并用于初始化识别模型的解码器

    • 该方法可以集成到多种识别模型中

  3. 你觉得解决方法的关键之处在哪里?

    • 利用预测的 global semantic feature 来初始化解码器,让解码器在解码前就有了对整个单词语义信息的概念

    • 预测的语义信息受到预训练自然语言模型的监督,保证了预测的信息的合理性

  4. 这个解决方法的局限性在哪里?有没有更好的解决方法?

    • 文中对 semantic feature 的利用似乎都只是用于初始化 LSTM 解码器的隐藏状态,提出的框架通用性不高(解码器换成 transformer 应该如何应对呢?)

    • 为了适应该框架,ASTER 的双向解码+ensemble 机制被抛弃了(虽然这个机制也没什么太明显的作用)

  5. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?这些实验你觉得有效吗?

标签:文本,OCR,模型,语义,Encoder,解码器,Enhanced,semantic,识别
From: https://www.cnblogs.com/yywwhh2000/p/17897289.html

相关文章

  • 每月免费调用1000次API调用:实现PDF转档、页面编辑、OCR
    每月1000次免费PDFAPI调用:使用ComPDFKitAPI充分发挥您PDF转换的全部潜力 您是否在寻找无需前期投资即可提升软件集成能力的途径?再也不用找了!我们先进的API为您的项目提供所需的强大功能和易用性。注册并开始免费调用API。 我们提供每月1000次的免费API调用!通过这每月10......
  • PPadleOCR 自己的数据训练
         在github里面下载PaddleOCR源码后,接下来开始一一安装:     1、安装Python,此处必须安装3.8--3.10的版本,3.11版本目前是不支持的,容易报错。     2、依次安装         python-mpipinstallpaddlepaddle -i https://pypi.......
  • tesseract.js 又一个基于webassembly 的tesseract ocr 包装
    tesseract.js是基于webassembly的jstesseract实现,可以在web以及node中运行,我以前简单介绍过一个基于webassembly的工具tesseract-wasm的实现相对简单(包括构建),当然技术上都是基于了emscripten进行的构建,tesseract.js包装了tesseract.js-core功能相比tesseract-wasm丰富......
  • LDAEXC: LncRNA-Disease Associations Prediction with Deep Autoencoder and XGBoost
    LDAEXC:LncRNA-DiseaseAssociationsPredictionwithDeepAutoencoderandXGBoostClassifier. 作者: LuCuihong; XieMinzhu作者背景: CollegeofInformationScienceandEngineering,HunanNormalUniversity,Changsha,China.; CollegeofInformation......
  • github开源ocr神器
    这篇文章给大家推荐一款免费,开源,可批量的离线OCR软件。1Umi-OCR简介免费:本项目所有代码开源,完全免费。方便:解压即用,离线运行,无需网络。批量:可批量导入处理图片,结果保存到本地txt/md/jsonl多种格式文件。也可以即时截屏识别。高效:采用PaddleOCR-jsonC++识别引擎。只要电......
  • 从ocr磁盘里获取asm spfile和voting file
    环境:OS:Centos7DB:12.2.0.1 当OracleASM实例查找初始化参数文件时,会从GPnPprofile文件中查找获取spfile文件[grid@rac01~]$cd$ORACLE_HOME/gpnp/rac01/profiles/peer[grid@rac01peer]$gpnptoolgetpval-asm_spfWarning:somecommandlineparameterswerede......
  • hive启动出现Either your MetaData is incorrect, or you need to enable "datanucleu
    hive启动出现:Requiredtablemissing:"`VERSION`"inCatalog""Schema"".DataNucleusrequiresthistabletoperformitspersistenceoperations.EitheryourMetaDataisincorrect,oryouneedtoenable"datanucleus.schema......
  • python - requests上传文件MultipartEncoder
    1.requests_toolbelt先安装requests_toolbeltpipinstallrequests_toolbelt上传实例importrequestsfromrequests_toolbeltimportMultipartEncoderupload_url='https://your/upload/url'payload={'file':('test.jpg',open(&#......
  • uniapp微信小程序微信同声传译和OCR支持功能
    1.首先小程序后台设置里面的第三方设置插件管理需要添加微信同声传译和OCR支持两个插件2.【微信同声传译】在manifest.json切换成源码视图然后在appid同级目录添加插件/*小程序特有相关*/"mp-weixin":{"appid":"wx9fd66d4d0e83c5f9","setting"......
  • 【论文阅读笔记】【OCR-End2End】 ESTextSpotter: Towards Better Scene Text Spottin
    ESTextSpotterICCV2023读论文思考的问题论文试图解决什么问题?场景文本端到端识别任务中,检测和识别两个任务的协同作用十分关键,然而以往的方法通常用一些十分隐式的方式来体现这种协同作用(sharedbackbone,sharedencoder,sharedquery…),不能完全释放这种两个任务相互......