【论文阅读笔记】【OCR-文本检测】 Few Could Be Better Than All: Feature Sampling and Grouping for Scene Text Detect

时间：2023-11-07 14:24:32浏览次数：35

标签：采样 transformer DETR 特征检测 Could Scene Detection 文本

CVPR 2022

读论文思考的问题

论文试图解决什么问题？
- 一些基于 DETR 的方法在 ICDAR15, MLT17 等文字尺度变化范围较大的数据集上文本检测的效果不佳
- DETR 运用的高层特征图难以捕捉小文字的特征，且会引入很多无关的背景噪声，增加了检测的困难程度
- 即使使用 DETR 的改进模型也不能达到很好的检测效果
- 能否使用基于 DETR 的视觉模型，比较高效、良好地进行文本检测任务？
文章提出了什么样的解决方法？
- 根据特征图文本区域的概率进行topk的特征点采样，随后用一个transformer encoder 架构对特征点进行隐式的聚类，最终输出每个聚类结果对应的边界框或者贝塞尔曲线控制点
- 文本区域的概率图采用对特征进行卷积、下采样的方式生成，对于不同规模大小的特征都生成了对应的概率图
- 在每个概率图上分别采样概率最高的k个点，代表了文字前景的区域
- transformer 的 self-attn 机制可以做点的 grouping，将不同的点聚类为不同的instance
你觉得解决方法的关键之处在哪里？
- 通过对概率图进行 topk 点采样的方式，较好地筛选出了文字对应的图片前景的特征，去除了背景噪声
- 没有像DETR那种做法一样对文字的边界框做回归和refinement，而是采用了 transformer encoder 直接进行点的隐式聚类，可能可以较好解决小文本的识别问题
这个解决方法的局限性在哪里？有没有更好的解决方法？
- 预测的概率图很难处理文字重叠的情况，可能会失效
文章是通过设计什么样的实验来支撑其解决方法的有效性的？（你说有效就有效吗，我不信）你觉得设计的实验有什么问题或者是缺少了什么实验？

实验：
1. 多角度旋转、弯曲、多语言文本检测
2. 点采样：不同特征图上采样不同数量的点做了消融实验
3. 和其他的基于DETR的模型做了收敛速度、检测效果和FLOP的比较
4. vallina transformer 和 swin transformer 的比较
5. (*) 一般的旋转目标检测
问题：
1. 没有相应的对比实验，我很难看出 Gaussian Wasserstein Distance (GWD) 在其中起到的作用
2. 似乎没有实验体现出这个方法在小文本检测上的优势所在

问题

transformer encoder 的输入和输出似乎在语义层次上对应的东西是不同的？每个输入的 token 对应的是像素，输出的 token 则对应某个文本实例

标签：采样,transformer,DETR,特征,检测,Could,Scene,Detection,文本
From： https://www.cnblogs.com/yywwhh2000/p/17814871.html

SQL Server，Could not obtain exclusive lock on database 'model'
创建SQLServer数据库时出现错误“Couldnotobtainexclusivelockondatabase'model'”尝试以下方法：1.totryreconnectingtothedatabase.2.Restartingtheservice.3.killingthespidholdingthelock. 执行以下SQL语句来查询：select d.name,resource_type,resour......
Address already in use: make_sock: could not bind to address [::]:80
**********************************************************处理办法:#ps-aux|grephttpWarning:badsyntax,perhapsabogus'-'?See/usr/share/doc/procps-3.2.7/FAQroot 120790.00.061164 720pts/1 S+ 16:06 0:00grephttp#ps-aux|......
2023-11-06 Could not find any Electron packages in devDependencies ==》没有安装E
问题描述：electron项目安装好后，运行npmrunstart时报错。解决方案：npmielectron--save-dev推荐使用powershell终端来输入，如果你用的是vscode的终端会出现卡在加载中的情况，而前者则可以通过回车键来刷新加载状态安装完成时重新运行npmrunstart，你会看到欢迎界面： ......
异常Couldn’t connect to host, port: smtp.qq.com, 25
com.sun.mail.util.MailConnectException:Couldn’tconnecttohost,port:smtp.qq.com,25;timeout-1阿里云处于安全考虑，TCP25端口默认被封禁。可以向阿里云申请解封，也可以改为ssl加密465端口发送。465端口发送主要代码：Propertiesprops=newProperties();props.......
java.time.format.DateTimeParseException: Text ‘202310132358‘ could not be pars
你遇到的问题是由于在解析日期和时间时格式不正确。Java无法解析‘202310132358’这个字符串，因为它不符合Java日期时间格式。Java期望的日期时间格式通常是“yyyy-MM-ddHH:mm:ss”，其中：yyyy是四位数的年份MM是两位数的月份dd是两位数的日期HH是两位数的小时（24小时制）mm是两......
存在检测（Presence detection）技术介绍
存在检测技术是一种用于检测某个实体是否存在于某个特定区域的技术。在不同的领域和应用中、存在检测技术有着不同的表现形式和技术实现方法。本文将概述目前存在检测技术存在的问题，并比较几种常见的存在检测技术的优缺点。 1存在检测技术介绍无处不在的传感技术（例如FMCW......
几种常见的运动检测(Motion detection)方法
本文选自《Multiplemethodsformotiondetection》，原文参考文末链接。运动检测有许多不同的方案，但哪一个最适合您的需求?在这里，我将介绍一些使用最广泛的运动传感器技术，并探讨每种技术都可以发挥其优势的情况。 https://mp.weixin.qq.com/s/RsKubZTD97Mt44qd0sH1SA ......
Could not find codec parameters for stream 0 (Video: h264, none)
Couldnotfindcodecparametersforstream0(Video:h264,none)在使用视频处理工具或者播放器时，有时我们可能会遇到错误信息"Couldnotfindcodecparametersforstream0(Video:h264,none)"。这个错误提示说明在当前的环境中找不到视频流的编解码器参数，导致无法正确解......
[论文阅读] Mean-Shifted Contrastive Loss for Anomaly Detection
Mean-ShiftedContrastiveLossforAnomalyDetectionAbstract这篇文章探讨了异常检测领域的一个关键问题，即如何通过使用预训练特征来提高异常检测性能。研究者首先介绍了异常检测的背景和现有方法，指出了使用自监督学习和外部数据集预训练特征的潜力。然后，他们详细分析了标准对......
KEIL软件的Error: Flash Download failed - Could not load file '..\OBJ\Template.
Error:FlashDownloadfailed - Couldnotloadfile'..\OBJ\USART.axf' 解决方案：1重新覆盖安装keil2程序编译存在错误导致同时开多个KEIL，只有其中一个KEIL可以使用J-LINK，ST-LINK。 ......

【论文阅读笔记】【OCR-文本检测】 Few Could Be Better Than All: Feature Sampling and Grouping for Scene Text Detect

读论文思考的问题

问题

相关文章

赞助商

阅读排行