首页 > 其他分享 >【论文阅读笔记】【OCR-End2End】 ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy in Tra

【论文阅读笔记】【OCR-End2End】 ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy in Tra

时间:2023-11-23 14:45:33浏览次数:31  
标签:detection Transformer Towards ESTextSpotter 有用吗 Synergy 实验 显式 query

ESTextSpotter
ICCV 2023

读论文思考的问题

  1. 论文试图解决什么问题?

    • 场景文本端到端识别任务中,检测和识别两个任务的协同作用十分关键,然而以往的方法通常用一些十分隐式的方式来体现这种协同作用(shared backbone, shared encoder, shared query…),不能完全释放这种两个任务相互帮助的特性

    • 如何更加显示地建立这种协同关系,使得检测和识别两个任务的表现都能更好?

  2. 文章提出了什么样的解决方法?

    • 提出了 ESTextSpotter 模型,将 DETR 中的 queries 设计成 task-aware 的,分别负责 detection 和 recognition 任务

    • 两种 query 之间通过类似于 masked self-attn 的方式进行显式的交互,随后送入 transformer decoder 中和图像特征进行 cross-attn 运算

    • detection query 负责输出文字的 bbox 和 polygon, recognition query 负责输出对应的 characters

  3. 你觉得解决方法的关键之处在哪里?

    • 将 object query 设计为 task-aware 的,用显式的方式进行了 attention 的交互,两种 query 之间分工明确(或许这种人工定义的规则在某些情况下更有助于区分两种任务?)
  4. 这个解决方法的局限性在哪里?有没有更好的解决方法?

    • 似乎这类基于 DETR 的模型都没有对文本的上下文语义关系进行显式的建模,但看着也不太需要,效果已经很好了
  5. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?你觉得设计的实验有什么问题或者是缺少了什么实验?

    实验:

    1. 和 SOTA 的对比

      • multi-oriented, arbitrarily-shaped, multilingual

      • detection, recognition

    2. 消融实验

      • ES, TAQI, VLC, REM, TADN

    缺少:

    1. language conversion 和 mask 的作用?

要点

  1. 模型还引入了 denoising training,用 noised box 来进行点采样,加速了模型的收敛。

问题

  1. TAQI 模块真的有用吗?有点用。

  2. VLC: 这个模块有用吗?感觉太隐式了。有用。如果不做 language conversion,只做 masked self-attn 会怎么样?那个mask有用吗?不清楚,缺乏相关实验。

  3. 如果把文字的损失加入到matching里面会怎么样?不清楚。

标签:detection,Transformer,Towards,ESTextSpotter,有用吗,Synergy,实验,显式,query
From: https://www.cnblogs.com/yywwhh2000/p/17851512.html

相关文章

  • 无依赖安装sentence-transformers
    安装pipinstall--no-cache-dirtorch==1.8.0+cpu-fhttps://download.pytorch.org/whl/torch_stable.htmlpipinstalltransformerstqdmnumpyscikit-learnscipynltksentencepiecepipinstall--no-depssentence-transformers可以使用pipdeptree查看依赖......
  • 论文阅读:Point Cloud Transformer
    PointCloudTransformer摘要不规则的领域和缺乏排序使得设计用于点云处理的深度神经网络具有挑战性。本文提出了一个名为PointCloudTransformer(PCT)的新型框架,用于点云学习。PCT以Transformer为基础,Transformer在自然语言处理中取得了巨大的成功,并在图像处理中显示出巨大的潜力......
  • 自然语言处理预训练—— 来自Transformers的双向编码器表示(BERT)
    我们已经介绍了几种用于自然语言理解的词嵌入模型。在预训练之后,输出可以被认为是一个矩阵,其中每一行都是一个表示预定义词表中词的向量。事实上,这些词嵌入模型都是与上下文无关的。让我们先来说明这个性质。 从上下文无关到上下文敏感ELMo(EmbeddingsfromLanguageModels)是......
  • 机器学习——Transformer
    10.6.2节中比较了卷积神经网络(CNN)、循环神经网络(RNN)和自注意力(self-attention)。值得注意的是,自注意力同时具有并行计算和最短的最大路径长度这两个优势。因此,使用自注意力来设计深度架构是很有吸引力的。对比之前仍然依赖循环神经网络实现输入表示的自注意力模型 (Cheng etal.,......
  • 最高加速9倍!字节跳动开源8比特混合精度Transformer引擎
    前言 近年来,Transformer已经成为了NLP和CV等领域的主流模型,但庞大的模型参数限制了它的高效训练和推理。于是字节跳动在2019年12月和2021年6月分别推出了高效推理和训练引擎LightSeq,大大加速了Transformer系列模型的训练和推理,也打通了Transformer从训练到推理......
  • transformer模型训练、推理过程分析
    复杂度分析推理过程图示DoubleQLORA示意图......
  • Cost Aggregation with Transformers for Sparse Correspondence-读书笔记
    CostAggregationwithTransformersforSparseCorrespondence:2022背景:该论文结合了SuperGlue和CATs,将里面所有手工制作的部分都代替了。将CATs引入该模型,用Transformer取代手工制作的成本聚合方法,用于具有自关注层全局接受域的可学习成本聚合。(PS:成本聚合:成本聚合是指在立......
  • TRL(Transformer Reinforcement Learning) PPO Trainer 学习笔记
    (1) PPOTrainerTRL支持PPOTrainer通过RL训练语言模型上的任何奖励信号。奖励信号可以来自手工制作的规则、指标或使用奖励模型的偏好数据。要获得完整的示例,请查看examples/notebooks/gpt2-sentiment.ipynb。Trainer很大程度上受到了原始OpenAIlearningtosummarizewo......
  • 《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》阅读
    论文标题《SwinTransformer:HierarchicalVisionTransformerusingShiftedWindows》Swin这个词貌似来自后面的ShiftedWindowsShiftedWindows:移动窗口Hierarchical:分层作者微软亚洲研究院出品初读摘要提出SwinTransformer可以作为CV的通用主干Tansfo......
  • 一套键鼠控制两个电脑synergy遇到的Bug
    1.客户端一直显示checktheIPaddressontheserver.yourTLSandfirewallsettings解决方法:使用synergy/barrier服务端和客户端连接不上的问题_synergy连接不成功-CSDN博客  ......