首页 > 其他分享 >【论文阅读笔记】【OCR-文本识别】 CLIPTER: Looking at the Bigger Picture in Scene Text Recognition

【论文阅读笔记】【OCR-文本识别】 CLIPTER: Looking at the Bigger Picture in Scene Text Recognition

时间:2023-11-12 15:56:13浏览次数:40  
标签:Picture 文本 Text global CLIPTER feature 识别 实验 OCR

CLIPTER
ICCV 2023

读论文思考的问题

  1. 论文试图解决什么问题?

    • 现有的文本识别方法只关注于局部截取的文本区域,识别模型并没有利用全图的上下文信息,导致其可能对有挑战性的文本的识别效果较差

    • 能否以某种方式使识别器利用上global feature的信息?

  2. 文章提出了什么样的解决方法?

    • 提出CLIPTER模型,用一个 Visual-Language Aligned Model (e.g. CLIP) 来提取全图的特征,随后做pooling

    • 通过 cross-attn或 gated attn 技术来融合 local feature 和 global feature

    • 该方法可以作为一个实用的模块,接到现有的各类识别模型上面

  3. 你觉得解决方法的关键之处在哪里?

    • 感觉最关键的还是这个思想,用全局的特征来弥补局部特征的一些不足

    • 用 CLIP 来提取了相对较为适合的全局特征

  4. 这个解决方法的局限性在哪里?有没有更好的解决方法?

    • 感觉上提升不是很高,CLIP提取的这种语义信息能用上的场景不是很多
  5. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?(你说有效就有效吗,我不信)你觉得设计的实验有什么问题或者是缺少了什么实验?

    实验:

    1. 将CLIPTER加入到各种识别器的实验

    2. out-of-vocabulary 的 text 实例检测实验

    3. 低比例的训练样本的对比实验

    4. 模块带来的延迟实验

    5. 消融实验:

      • 不同的 Image Encoder

      • pooling 分辨率

      • 不同的 Integration Point

      • 不同的 fusion mechanism

要点

  1. 两种特征融合的时间点不是约束好的,具体可以采用 early fusion 和 late fusion 两种方式

  2. global img token 前面还加入了一个 special token [CLASS],作为全局信息的聚合

问题

  1. 有没有实验证明gated attention的优势?(效果好、收敛速度稳定) 有是有,但似乎效果不明显

标签:Picture,文本,Text,global,CLIPTER,feature,识别,实验,OCR
From: https://www.cnblogs.com/yywwhh2000/p/17827288.html

相关文章

  • org.springframework.context.ApplicationContextException: Failed to start bean 'd
    这个原因是高版本SpringBoot整合swagger造成的我的项目是2.7.8swagger版本是3.0.0就会出现上面的报错解决方式:1.配置WebMvcConfigurer.javaimportorg.springframework.context.annotation.Configuration;importorg.springframework.web.servlet.config.annotation.Res......
  • train_logReg_param.o:train_logReg_param.cc:(.text+0x3407): more undefined refere
     001、make编译报错:train_logReg_param.o:train_logReg_param.cc:(.text+0x3407):moreundefinedreferencesto`std::__throw_out_of_range_fmt(charconst*,...)'follow 002、解决方法(可能是gcc版本的问题)a、gcc当前版本:(py38)[[email protected]]#gcc......
  • ../include/types.hh:16:43: fatal error: boost/archive/text_oarchive.hpp: No such
     001、make编译报错如下:../include/types.hh:16:43:fatalerror:boost/archive/text_oarchive.hpp:Nosuchfileordirectory 002、 ......
  • 视频直播系统源码,EditText输入框的使用
    视频直播系统源码,EditText输入框的使用为了良好的交互和用户体验,我们在做功能时需要对输入框又一些状态上的监听才能更好的把一些信息反馈给用户。比如登录时的,错误提示,选中时的颜色改变等等,常用的一些方法如下: 1.内容编辑的监听:当我们需要实时对内容进行监听:比如内容为空/格......
  • Adding Conditional Control to Text-to-Image Diffusion Models
    https://mp.weixin.qq.com/s/iL6YitT7EGP6DnrBehb9MQ1.AddingConditionalControltoText-to-ImageDiffusionModels论文地址:https://arxiv.org/pdf/2302.05543.pdf开源地址:https://github.com/lllyasviel/ControlNet(该项目已有2.4万stars)作者单位:斯坦福大学这......
  • 【论文阅读笔记】【OCR-文本识别】 Scene Text Recognition with Permuted Autoregres
    PARSeqECCV2022读论文思考的问题论文试图解决什么问题?一些文本识别模型会对semantic信息建模,从而辅助某些困难情况下的文本识别传统的auto-regressive方式限制了语义信息的传输方向;双向的auto-regressive聚合增加了不必要的计算量和复杂度;聚合视觉模型和语言......
  • Sublime Text 配置指北
    分享笔者配置的sublimetext的方法。因为笔者是搞竞赛的,所以配置偏竞赛向。环境:NOILinux2.0.(Ubuntu20)下载&卸载在这个链接下载。然后打开并安装即可。卸载同理,打开安装包并点击红色垃圾桶即可。配置卸载配置文件(恢复默认):先关闭SublimeText。然后点开主目录,按下......
  • js怎么实现对某个图片进行ocr识别的效果?确保有效
    在JavaScript中实现OCR(光学字符识别)通常涉及到使用一些库,比如`Tesseract.js`,这是一个纯JavaScript编写的OCR库,它被编译自著名的OCR引擎Tesseract。 以下是一个使用`Tesseract.js`的基本示例,用于识别图片中的文本: 1.首先,您需要在您的项目中包含`Tesseract.js`。如果您是......
  • 大模型训练,为OCR应用提升性能
    一、介绍PaddleOCR是一个基于深度学习的光学字符识别(OCR)工具,它可以帮助我们实现图像中文字的自动识别。随着深度学习技术的不断发展,PaddleOCR在文字识别领域的性能得到了广泛认可。本文将重点介绍PaddleOCR文字识别模型训练的关键步骤和注意事项。二、数据准备训练PaddleOCR文字识......
  • Flutter TextField组件的使用
    FlutterTextField组件简单的说,这个组件其实就是个输入框。1.属性constTextField({Keykey,this.controller,//控制器this.focusNode,//焦点this.decoration=constInputDecoration(),//装饰TextInputTypekeyboardType,//键盘类型,即输入类型this.textInputAction,//......