【论文阅读笔记】【OCR-End2End】 Bridging the Gap Between End-to-End and Two-Step Text Spotting

时间：2024-07-08 16:22:54浏览次数：18

标签：bridge Bridging End Bridge Text Spotting 模块 recognizer

Bridge Text Spotting
CVPR 2024

读论文思考的问题

论文试图解决什么问题？

问题：
- 如何在保证模块化的前提下，更好地解决两阶段场景文本检测方法中的误差累积问题？
背景：
- 端到端的场景文本检测识别模型在新场景应用、更换检测器等情况下需要花费大量的时间训练
- 两阶段模型虽然有误差累积的问题，但却有很强的模块化特性。这使得我们能够分别对检测和识别模块进行单独训练
文章提出了什么样的解决方法？
- 利用成熟的 detector 以及 recognizer 组成一个 two-stage 的模型
- 训练时冻结两个模块的参数，引入 Bridge 模块进行两个模块的连接。Bridge 的参数用0来初始化，使得 recognizer 在开始时不会将 detector 输出的特征当做噪声
- 借鉴 nlp 中 adapter 的思想，实现对 detector 以及 recognizer 参数的高效学习
你觉得解决方法的关键之处在哪里？
- 利用0初始化的bridge模块实现了对检测和识别模块的较好的耦合
这个解决方法的局限性在哪里？有没有更好的解决方法？
- 对于recognizer而言，无论是特征还是图片输入，都是用矩形来进行 crop，这可能会导致某些弯曲文字对应的输入区域并不是最优的
文章是通过设计什么样的实验来支撑其解决方法的有效性的？你觉得设计的实验有什么问题或者是缺少了什么实验？

实验：
1. 在 total-text, ctw1500 和 icdar-2015 上的表现
2. 消融实验：bridge模块、adapter模块、参数是否用0来初始化、bridge 里面 transformer 的层数
3. 自己设计的 bridge 模式以及其他连接方式的 pipeline 的对比（通过逐步靠近的方式来做一些消融）

标签：bridge,Bridging,End,Bridge,Text,Spotting,模块,recognizer
From： https://www.cnblogs.com/yywwhh2000/p/18290119

WPF ComboBox数据绑定：初始化动态加载ItemsSource后首次赋值Text不显示问题解决
原来：<ComboBoxText="{BindingItem}"ItemsSource="{BindingItemLists}"></ComboBox>privatevoidParas_Init(){ItemLists=newObservableCollection<string>();ItemLists.Add("111......
Spring之 IoC、BeanFactory、ApplicationContext
IoC(InverseofControl)IoC，也就是控制反转。对于软件来说，即某一接口具体实现类的选择控制权从调用类中移除，转交给第三方决定，即由Spring容器借由Bean配置来进行控制。MartinFowler提出了DI(DependencyInjection,依赖注入)的概念用来代替IoC,即让调用类对某一接口实现类的......
An Attentive Inductive Bias for Sequential Recommendation beyond the Self-Attent
目录概符号说明BSARec(BeyondSelf-AttentionforSequentialRecommendation)代码ShinY.,ChoiJ.,WiH.andParkN.Anattentiveinductivebiasforsequentialrecommendationbeyondtheself-attention.AAAI,2024.概本文在attentionblock中引入高低频滤波.......
makefile for循环 /bin/sh: -c: line 3: syntax error: unexpected end of file
1.错误makefile示例，有syntaxerror:unexpectedendoffilefo=onethreefivetest:forjin$(fo);do\echo$$j;\end在写for循环的时候，注意格式for之前用tab键do前后有空格在命令行中输入maketest运行结果如下所示2.修改了makefile,没有error......
send_file(image_path, mimetype=‘image/jpg‘) 如何再传递一个字符串
欢迎关注我......
maven </dependencies>和</dependencyManagement> 有什么区别
在Maven的pom.xml文件中，和元素有不同的用途和作用域：：这个元素用来列出项目直接依赖的库和插件。每个元素定义了一个依赖项，包括groupId、artifactId、version等信息。当Maven构建项目时，它会解析中列出的所有依赖项，并将其包含在项目的构建过程中。元素位于pom.......
Using a text embedding model locally with semantic kernel
题意：在本地使用带有语义核（SemanticKernel）的文本嵌入模型问题背景：I'vebeenreadingStephenToub's blogpost aboutbuildingasimpleconsole-based.NETchatapplicationfromthegroundupwithsemantic-kernel.I'mfollowingtheexamplesbutinsteadofOpe......
云计算渲染时代：选择Blender或KeyShot进行高效渲染
在云渲染技术日益成熟的背景下，挑选一款贴合项目需求的3D渲染软件显得尤为关键。当前，Blender与KeyShot作为业界领先的全能渲染解决方案，广受推崇。它们虽皆能创造出令人信服的逼真视觉效果，但在特色功能上各有所长。本篇文章旨在深入剖析Blender与KeyShot的核心渲染能力，并指导用户如......
WPF DataContext
后台代码：publicclassStudent{publicintId{get;set;}publicstringName{get;set;}publicintAge{get;set;}} 前台代码：<Windowx:Class="BindingTest.MainWindow"xmlns="http://schem......
WPF Datagrid ContextMenu MenuItem Command CommandParameter MultiBinding
//xaml<Windowx:Class="WpfApp194.MainWindow"xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"xmlns:d="http://schemas......

【论文阅读笔记】【OCR-End2End】 Bridging the Gap Between End-to-End and Two-Step Text Spotting

读论文思考的问题

相关文章

赞助商

阅读排行