首页 > 其他分享 >【论文阅读笔记】【OCR-End2End】 TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision

【论文阅读笔记】【OCR-End2End】 TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision

时间:2024-01-14 17:22:53浏览次数:42  
标签:TextFormer 识别 based 训练 query End 文本

TextFormer
arXiv:2306.03377

读论文思考的问题

  1. 论文试图解决什么问题?写作背景是什么?

    问题:

    • 如何设计一种更好的 query-based 的方法来同时实现端到端的场景文本检测

    • 能否利用弱监督数据(只有文本)进一步增强端到端模型的文本识别能力?

    背景:

    • 目前的端到端场景文本检测识别模型在一些比较极端的情况下识别能力不强

    • 训练一个文本识别模型所需要的数据通常比检测模型要多,而目前的端到端模型一般采用全监督数据进行训练,文本数据不够(尤其是中文等多字符语言),很难达到足够的端到端训练效果

  2. 文章提出了什么样的解决方法?

    • 基于DETR设计了一种 query-based 的方法来进行场景文本的端到端识别,每个query能同时输出分类、mask和text,从而实现了多任务联合训练

    • 使用弱监督数据和全监督数据进行混合训练,在弱监督训练时不加入mask部分的匹配和损失,从而给识别器足够的数据进行训练

  3. 你觉得解决方法的关键之处在哪里?

    • 个人感觉没有什么新颖的地方
  4. 这个解决方法的局限性在哪里?有没有更好的解决方法?

    • 收集img信息的AGG模块采用的是在水平和垂直方向根据mask分别求平均的方式,这样很容易造成信息的损失
  5. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?这些实验你觉得有效吗?

问题

  1. 一直没看懂每个query是怎么通过点积转换成对应的三维特征的

标签:TextFormer,识别,based,训练,query,End,文本
From: https://www.cnblogs.com/yywwhh2000/p/17963928

相关文章

  • dependency-check部署
    Linux安装部署(Ubuntu)WEB-UI项目地址,作者已经很久没更新了:https://github.com/he1m4n6a/dcweb从github上拉取下来gitclonehttps://github.com/he1m4n6a/dcweb.git之后本地机器会出现“dcweb”的文件夹:然后使用python2安装requirements.txt中的包。其中Django的版本最好......
  • 【笔记-Blender】插件开发
    【笔记-Blender】插件开发前置工作打开设置“界面-开发选项”:这样可以通过对功能按钮的右键菜单直接复制或查看其源码,以及快速跳转到API手册。打开设置“界面-Python工具提示”:这样可以通过界面的悬停菜单直接查看该条目在代码中的表示方式。通过命令提示符打开Blender:这......
  • 聊一聊如何整合Microsoft.Extensions.DependencyInjection和Castle.Core(完结篇)
    聊一聊如何整合Microsoft.Extensions.DependencyInjection和Castle.Core(完结篇) 合集-聊一聊如何整合Microsoft默认的Ioc容器和Castle.Core(4) 1.聊一聊如何整合Microsoft.Extensions.DependencyInjection和Castle.Core(二)01-122.聊一聊如何结合Microsoft.Extension......
  • 聊一聊如何整合Microsoft.Extensions.DependencyInjection和Castle.Core(三)
    聊一聊如何整合Microsoft.Extensions.DependencyInjection和Castle.Core(三) 合集-聊一聊如何整合Microsoft默认的Ioc容器和Castle.Core(4) 1.聊一聊如何整合Microsoft.Extensions.DependencyInjection和Castle.Core(二)01-122.聊一聊如何结合Microsoft.Extensions.De......
  • 聊一聊如何整合Microsoft.Extensions.DependencyInjection和Castle.Core(二)
    聊一聊如何整合Microsoft.Extensions.DependencyInjection和Castle.Core(二) 合集-聊一聊如何整合Microsoft默认的Ioc容器和Castle.Core(4) 1.整合Microsoft.Extensions.DependencyInjection和Castle.Core(二)01-122.聊一聊如何结合Microsoft.Extensions.DependenyI......
  • 聊一聊如何结合Microsoft.Extensions.DependenyInjection和Castle.Core
    聊一聊如何结合Microsoft.Extensions.DependenyInjection和Castle.Core 合集-聊一聊如何整合Microsoft默认的Ioc容器和Castle.Core(4) 1.聊一聊如何整合Microsoft.Extensions.DependencyInjection和Castle.Core(二)01-122.聊一聊如何结合Microsoft.Extensions.Depend......
  • Center-based 3D Object Detection and Tracking
    zotero-key:A37ALEJ3zt-attachments:-"280"title:Center-based3DObjectDetectionandTrackingcitekey:yinCenterbased3DObject2021tags:-paperCenter-based3DObjectDetectionandTrackingZoteroAbstractThree-dimensionalobjectsare......
  • 【flink番外篇】9、Flink Table API 支持的操作示例(13)- Row-based(map、flatmap、aggre
    文章目录Flink系列文章一、maven依赖二、Row-based操作1、本示例的公共代码1、Map2、FlatMap3、Aggregate4、GroupWindowAggregate5、FlatAggregate本文介绍了通过TableAPI基于行的map、flatmap、aggregate、groupwindowaggregate和flataggregate操作,并以示例进行展示操......
  • 聊一聊如何整合Microsoft.Extensions.DependencyInjection和Castle.Core(完结篇)
    前言书接上回,上回我们了解了castle代理的一些缺点,本文将开始操作整合Microsoft.Extension.Dependency和Castle,以让默认的容器可以支持拦截器我们将以进阶的形式逐步完善我们的封装,以实现一个更方便易用、普适、高性能的基础设施库。基础版还是先上代码,这是基础版本我们......
  • An improved LSTM-based model for identifying high working intensity load segment
    一区topComputersandElectronicsinAgriculture题目:“基于改进lstm的拖拉机载荷谱高工作强度载荷段识别模型”(pdf)“AnimprovedLSTM-basedmodelforidentifyinghighworkingintensityloadsegmentsofthetractorloadspectrum”(pdf)分类问题针对的问题:......