首页 > 其他分享 >【论文阅读笔记】(文本识别)

【论文阅读笔记】(文本识别)

时间:2023-10-19 11:56:01浏览次数:30  
标签:上下文 语言 模型 建模 笔记 识别 解决 文本

Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition

ABINet
CVPR 2021(Oral)

读论文思考的问题

  1. 论文试图解决什么问题?

    • 如何对语言的上下文进行建模而不是对视觉特征的上下文信息进行建模

    • 如何在端到端的文本识别模型中更好、更高效地对文本的语言知识进行建模,提升对困难情况的字符识别效果

  2. 文章提出了什么样的解决方法?

    • 提出了一个 autonomous, bidirectional 和 iterative 的网络来进行文本识别

    • 语言模型针对输入的文本进行显式的上下文填空建模,习得单词的深度双向语义信息。通过这种上下文的语义信息将VM预测结果进行修正

      • 语言模型可以单独训练,无需视觉特征信息(自洽性)

      • 在语言模型输入处将梯度detach,禁止回传,强迫其直接显式地学习语言规则的建模

    • 通过对多模态特征信息的fusion,实现更加高质量的预测以及不同预测的ensemble

    • 通过迭代的方式不断地对语言模型的预测进行 refinement,并解决输入中出现噪声的问题

    • 提出了一种半监督的 self-training 方式用于训练,更好地提升模型的能力

  3. 你觉得解决方法的关键之处在哪里?

    • 语言模型部分,通过mask的形式并行地进行每个字符的掩码预测,更好地显式地建立了语言的双向上下文关系
  4. 这个解决方法的局限性在哪里?有没有更好的解决方法?

    • 能否设计一种多粒度的语言建模模型,更好地进行ensemble?(字符、词片……)
  5. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?(你说有效就有效吗,我不信)这些实验你觉得有效吗?

    • 实验缺了一个加入 self-attn 的对比实验

要点

  1. BCN 通过 masked cross attn,学得了从上下文字符推断本字符的能力

问题

  1. 如果 BCN 的 K 和 V 取不同的映射矩阵,会有区别吗?

  2. 论文里面的时间步是什么意思?不同时间步之间要防止信息泄露又是什么意思?


标签:上下文,语言,模型,建模,笔记,识别,解决,文本
From: https://www.cnblogs.com/yywwhh2000/p/17774389.html

相关文章

  • markdown基本使用语法(适合做笔记)
    markdown基础语法编辑器推荐vscode支持大量的插件,包括makrdown语法展示效果的插件。当安装这个插件之后,能够将文档和显示效果分成两个页面,就可以一边编辑代码,一边查看显示效果了,更大的优点是,纯文本状态下,无需考虑显示效果,加载速度更高,如果使用typora的话,当笔记达到两万字左右就......
  • React学习笔记08- 组件的样式
    1.使用行内样式想给虚拟dom添加行内样式,需要使用表达式传入样式对象的方式来实现://注意这里的两个括号,第一个表示我们在要JSX里插入JS了,第二个是对象的括号<pstyle={{color:'red',fontSize:'14px'}}>Helloworld</p>行内样式需要写入一个样式对象,而这个样式对象的位置可......
  • RK3588开发笔记(二):基于方案商提供sdk搭建引入mpp和sdk的宿主机交叉编译Qt5.12.10环境
    前言  上一篇项目已经构建好了Qt,板子接入mipi屏幕也跑起来了,Qt也能正常运行了,现在需要接入定制开发的sdk,sdk中使用了硬解码等资源涉及到bsp的mpp,所以下一步就是引入mpp和sdk到Qt开发环境中,从而Qt中可以调用sdk接口进行进一步的应用结合开发了。 注意  本文公开了Q......
  • React学习笔记06-函数式组件
    函数式组件即在React中通过函数的方式来声明一个组件importReactfrom"react"functionApp(){return(<div>函数式组件<div>hhh</div></div>)}/*16.8之前//无状态16.8之后reacthooks*/exportdef......
  • React学习笔记07-组件嵌套
    一个项目肯定是由多个组件构成的,组件之前必然会存在相互嵌套的关系在react中如果想要将一个组件嵌入到另外一个组件中只需要在父组件的render函数的返回值中放入子组件即可请看下面代码importReact,{Component}from"react"classNavbarextendsComponent{rende......
  • 中国模式识别与计算机视觉大会|多模态模型及图像安全的探索及成果
    前言随着人工智能技术的不断演进,多模态大模型已是当下比较热的研究方向,它可以同时理解和生成多种输入和输出模态,如文本、图像、语音等,能够更好地模拟人类的多感知能力,给文档图像的分析处理带来了新的机遇和挑战!近期,中国模式识别与计算机视觉大会在厦门举办,是国内顶级的模式识别和计......
  • React学习笔记05-类组件
    ES6的加入让JavaScript直接支持使用class来定义一个类,react创建组件的方式就是使用的类的继承,ES6class是目前官方推荐的使用方式,它使用了ES6标准语法来构建,看以下代码importReactfrom'react'importReactDOMfrom'react-dom'classAppextendsReact.Component{rend......
  • 如何使用markdown语法展示纯文本效果,不考虑特殊字符带来的英雄
    作者希望能够像xml中的![CDATA[纯文本内容]]那样,里面包裹的内容就是纯文本的,因为有时候我不想因为一些特殊字符比如:#这种字符导致文字变大加粗网上查找了资料,不知道是这方面的内容少还是我输入的关键字有误,查到的资料寥寥无几,有效的是让你使用\(反斜杠)来转义内容,还有就是使用......
  • 笔记
    今天是2023/10/19,停课第四天,整理一下思路吧……P7113[NOIP2020]排水系统拓扑排序、数学拓扑很简单,关键是这个分数到底会多大。观察到题目中有限制m最大是10,最多经过10个中转点,出边小于等于5,这些限制很明显就是规定了p,q的范围。前者说明总水量最多是10,而每次分流都只是进......
  • 第三周阅读笔记|人月神话————画蛇添足
    画蛇添足——蛇本来没有脚,先画成蛇的人,却将蛇添了脚,结果不成为蛇。蛇本来没有脚却被人给它强行加上脚,比喻做事多此一举,反而坏事。我们在成功来临的时候,要保持和巩固现有的成果,不能多次一举,耍小聪明、炫耀自己,否则就会惨败。自作聪明、做多余的事,反而会弄巧成拙,把事情办糟。......