首页 > 其他分享 >[论文阅读] Radical Analysis Network for Zero-Shot Learning in Printed Chinese Character Recognition

[论文阅读] Radical Analysis Network for Zero-Shot Learning in Printed Chinese Character Recognition

时间:2024-12-12 22:32:44浏览次数:5  
标签:Shot Network Chinese RAN 汉字 训练 可视化 识别 注意力

Pre

title: Radical Analysis Network for Zero-Shot Learning in Printed Chinese Character Recognition
accepted: ICME 2018
paper: https://arxiv.org/abs/1711.01889
code: https://github.com/JianshuZhang/RAN (only IDS dictionary)
ref: RAN for Printed Chinese Character Recognition

关键词: radical
阅读理由: radical analysis, zero-shot learning, encoder-decoder, attention

Idea

使用基于注意力的 encoder-decoder 架构

Motivation&Solution

  1. 传统的汉字识别方法受限于汉字数量,而且无法泛化

Background

汉字很多(大于20000),但可以分解成500个左右的部件。传统的汉字识别方法最多处理4000个汉字,而且不能应用于新出现的汉字

图1 传统整字识别和RAN的区别

Method(Model)

Overview

图2 十种汉字部件间的常见特殊结构

按照 cjk-decomp 进行汉字的拆解,如图2,该方式定义的结构关系比IDC少了一些。

图3 RAN总体架构,第三列是注意力可视化,三种颜色框分别对应第四列的三种部件

模型属于全卷积结构,因为后续的解码器通过选择视觉特征中特定部分能够有选择地注意图片的特定像素。

提到模型构建中的两个问题:

  1. CNN对图片编码结果shape固定,但要求的输出caption是不定长的 ——> 使用GRU解码
  2. 经典的空间注意力机制有个问题,lack of coverage,也就是无法确保每个需要关注的部分都能被恰好注意一次,可能造成某些部件被处理多次,有些又得不到处理 ——> 往注意力计算里加入 coverage 向量,也就是每个时间步计算注意力时都考虑之前的注意力结果

Experiment

Settings

CNN用的VGG,损失为交叉熵,看起来就是根据输入字形图片预测对应的分解部件序列,优化器少见地用了adadelta,测试时启用 beam search,大小为10

宋体,26079个汉字,仅由361个部件和29个空间结构组成...(数据集划分)

Dataset

图8 字体风格可视化

印刷中文字体,灰度图,像素值缩放到[0,1]。同样30个字体,将3755个汉字划分成两部分,一部分测试集,另一部分作为训练集1,然后再加额外一些字体与3755个汉字构成训练集2。训练集2的字体数量从1到22递增,记为N。(但这样所谓的测试集的字体在训练时已经见过,不会有些水分?)

Results

图4 RAN用不同数量样本训练后识别未知汉字的准确率

预测需要完全匹配 ground-truth 才能算是成功,图4是实验结果,作者提到500个汉字就能够覆盖全部的部件和空间结构,但是训练集太小的话很难收敛

图5 识别10种常见结构时的注意力可视化

图6 识别一个未知汉字时的注意力可视化

图7 划分训练集合测试集来识别已知的汉字

图5展示RAN通过注意力可视化识别常见的结构,红色越亮注意力越大。图6描述一步步从图片生成对应描述序列。

表1 RAN与其他方法的精确度比较,VGG14是将Zhong的CNN架构换成VGG,其他不变。

图9 训练集2的字体数量与三种模型性能比较。

Conclusion

引入 部件分析网络(radical analysis network, RAN)做 0-shot 的汉字识别。将来可以探索RAN识别手写汉字或自然场景汉字的能力。

Critique

实验部分介绍得非常详细。挺有意思的,而且作为对比的 Zhong 似乎只是输在CNN架构上?换成VGG后只要训练数据增加,似乎跟RAN差距也不是很大。

Unknown

标签:Shot,Network,Chinese,RAN,汉字,训练,可视化,识别,注意力
From: https://www.cnblogs.com/Stareven233/p/17669645.html

相关文章

  • ProCom: A Few-shot Targeted Community Detection Algorithm翻译
    ProCom:AFew-shotTargetedCommunityDetectionAlgorithm翻译ProCom:一种少样本目标社区检测算法XixiWu;KaiyuXiongKDD2024复旦大学YunXiong通信作者社区检测方法标注数据较少,论文通过预训练提示学习的方法解决该问题。3方法在本节中,将介绍提议的ProCo......
  • 论文解读-Graph neural networks: A review of methods and applications
     论文介绍这篇论文是图神经网络领域的综述性质的文章,从各个论文里面凝聚和提取了很多精炼的信息和观点,值得一读。论文是2020年成稿投出去的,有点陈旧的。 GNN的介绍在introduction里面对比了GNN和CNN,表示出CNN的关键是局部连接,共享权重,和多层的使用。其中CNN操作的是常规......
  • github代码修改指南|乳腺超声肿块分割代码项目|Global Guidance Network for Breast L
    目录此项目相关信息显而易见的错误文件缺失很容易失误的地方此项目相关信息github链接:https://github.com/xorangecheng/GlobalGuidance-Net论文链接(2021MIA论文):https://www.sciencedirect.com/science/article/pii/S1361841521000359github提供的代码质量真的感人,我改了一下......
  • 从代码解析Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generate
    本文是对一篇ICML2024文章SpottingLLMsWithBinoculars:Zero-ShotDetectionofMachine-GeneratedText进行计算过程的讲解该文章主要提供了一种zero-shot的AIGC文本检测方法,在文章中所说,使用较少的计算量就起到了不错的效果主要计算过程如下图所示:perplexityperp......
  • Langchain Chain Agent - Zero-shot ReAct
    LangchainChainAgent-Zero-shotReActhttps://zhuanlan.zhihu.com/p/645216766 "ReAct"一词源于ReAct:SynergizingReasoningandActinginLanguageModels(react-lm.github.io),它由单词“Reason”和“Act”组合而成,这两个词代表了两类不同的LLM应用: 1.“Reas......
  • 【AI学习笔记3】神经元、神经网路与感知机 Neuron、Neural Network and Perceptron
    一、从生物神经元到人工神经网络    每个神经元细胞都向外伸出许多分支,其中用来接收输入的分支称作树突(dendrites),用来输出信号的分支称作轴突(axon),轴突连接到树突上形成一个突触(synapse)。每个神经元可以通过这种方式连接多个其他神经元,每个神经元也可以接受多个其他......
  • CLIP-LoRA: Low-Rank Few-Shot Adaptation of Vision-Language Models
    文章汇总当前的问题当前的视觉语言模型(VLMs)小样本的研究主要在提示学习和适配器上,这通常依赖于繁重的训练程序(提示学习)和/或精心选择的任务特定超参数(适配器),这可能会阻碍其适用性。作者在VLMs的小样本学习中引入了低秩自适应(LoRA),并与当前最先进的基于提示和基于适......
  • AEC论文解读 -- ACOUSTIC ECHO CANCELLATION WITH THE DUAL-SIGNAL TRANSFORMATION LS
    程序地址预训练模型一、技术解读1.1信号处理1.1.1数据集来源合成数据集:包含10,000个示例,涵盖单工、双工、近端噪声、远端噪声和非线性失真情况。真实录音数据集:包含不同环境中的录音,确保多样性。前500个示例用于工具评估,称为“双工测试集”。训练时仅使用远端信......
  • [论文阅读] Breaking the Representation Bottleneck of Chinese Characters{colon}Ne
    Pretitle:BreakingtheRepresentationBottleneckofChineseCharacters:NeuralMachineTranslationwithStrokeSequenceModelingaccepted:EMNLP2022paper:https://arxiv.org/abs/2211.12781code:https://github.com/zjwang21/StrokeNet关键词:NMT(neuralmachin......
  • 论文总结-经典论文-联邦学习/Communication-Efficient Learning of Deep Networks fro
    本文为《基于分布式数据的深度网络高效通信学习》的总结和原文翻译稿,原文由H.BrendanMcMahan等人(Google团队)发表于ComputingResearchRepository(CoRR)(2016)。该论文首次提出“联邦学习”(FederatedLearning)的概念,解决的问题为保护用户数据隐私和避免合规风险。具体而言,移......