首页 > 其他分享 >NLP 中文拼写检测纠正论文-01-介绍了SIGHAN 2015 包括任务描述,数据准备, 绩效指标和评估结果

NLP 中文拼写检测纠正论文-01-介绍了SIGHAN 2015 包括任务描述,数据准备, 绩效指标和评估结果

时间:2024-12-24 20:08:33浏览次数:4  
标签:NLP 中文 01 拼写 拼写错误 2015 SIGHAN 评估

拼写纠正系列

NLP 中文拼写检测实现思路

NLP 中文拼写检测纠正算法整理

NLP 英文拼写算法,如果提升 100W 倍的性能?

NLP 中文拼写检测纠正 Paper

java 实现中英文拼写检查和错误纠正?可我只会写 CRUD 啊!

一个提升英文单词拼写检测性能 1000 倍的算法?

单词拼写纠正-03-leetcode edit-distance 72.力扣编辑距离

NLP 开源项目

nlp-hanzi-similar 汉字相似度

word-checker 中英文拼写检测

pinyin 汉字转拼音

opencc4j 繁简体转换

sensitive-word 敏感词

论文地址

可以参考:https://paperswithcode.com/task/chinese-spell-checking

摘要

本文介绍了SIGHAN 2015 拼写中文拼写检查,包括任务描述,数据准备, 绩效指标和评估结果。

比赛揭示了当前处理中文拼写检查的最新NLP技术。

所有此次测试中使用的带有黄金标准和评估工具的数据集可公开获取,以备将来研究之用。

介绍

中文拼写检查器相对较难开发,部分原因是中文单词之间不存在单词定界符,并且中文单词只能包含单个字符或多个字符。

此外,还有超过13,000个汉字,而不是英文的26个字母,每个字母都有自己的上下文构成一个有意义的中文单词。

所有这些使中文拼写检查成为一项艰巨的任务。

一项实证分析表明,中文拼写错误通常是由多个字符单词之间的混淆引起的,这些单词在语音和视觉上相似,但在语义上却截然不同(Liu等,2011)。

自动拼写检查器应具有以下两项功能:

识别拼写错误,并建议错误用法的正确字符。

SIGHAN 2013年中国拼写检查竞赛是第一个提供数据集作为中国拼写检查员绩效评估基准的活动(Wu等人,2013)。

SIGHAN 2013中的数据来自中国母语人士撰写的论文。

根据第一次评估的经验,在CIPS-SIGHAN CLP-2014联合会议上举行了第二次评估,会议重点是汉语作为外语(CFL)的学习者撰写的论文(Yu等,2014)。 。

由于在CFL leaners书面论文中检测和纠正拼写错误方面面临的更大挑战,SIGHAN 2015 Bake-off再次具有中文拼写检查任务,为自动中文拼写检查器的开发和实施提供评估平台。

给定由几句话组成的段落,检查人员应识别所有可能的拼写错误,突出显示其位置并提出可能的更正

本文的其余部分安排如下。

第2部分概述了SIGHAN 2015年中文拼写检查的流程。

第三部分介绍了开发的数据集。

第4节提出了评估指标。

第5节比较了各个参赛者的结果。

最后,我们在结论中总结了本文,并在第6节中提供了未来的研究方向。

任务描述

这项任务的目的是评估中文拼写检查器的功能。

输入的段落包含几个有/没有拼写错误的句子。

检查器应返回错误字符的位置并建议正确的字符。

每个字符或标点符号占用1个点进行计数
位置。

输入实例具有唯一的通道编号pid。

如果句子中没有拼写错误,则检查器应返回“ pid,0”。

如果输入段落中至少包含一个拼写错误,则输出格式为 “pid [, location, correction]+” ,其中符号“ +”表示存在一个或多个预测元素的实例
“ [,位置,更正]”。

“位置”和“更正”分别表示不正确字符的位置及其正确版本。

例子如下。

  • Example 1
Input: (pid=A2-0047-1) 我真的洗碗我可以去看你
Output: A2-0047-1, 4, 希, 5, 望

这里实际是音近字。

xiwan

xiwang

所以中文纠错真的更难了--

  • Example 2
Input: (pid=B2-1670-2) 在日本,大學生打工的情況是相當普偏的。
Output: B2-1670-2, 17, 遍


这个是形近字

  • Example 3
Input: (pid=B2-1903-7) 我也是你的朋友,我會永遠在你身邊。
Output: B2-1903-7, 0

Ex中有2个错误的字符。

1,正确的字符“希”和“望”应分别在位置4和5中使用。

在Ex。 2,第17个字符“偏”是错误的,应为“遍”。

位置“ 0”表示Ex。中没有拼写错误。 3

资料准备

用于我们任务的学习者语料库是从在台湾管理的基于计算机的汉语作为外语考试(TOCFL)的论文部分中收集的。

拼写错误是由受过训练的中文母语者手动注释的,他们还会提供与每个错误对应的更正。

然后将论文分为以下三组

(1)训练集:该训练集包括970篇精选论文,总共3,143个拼写错误。

每篇文章以SGML格式表示,如图1所示。

title属性用于描述文章主题。

每个段落由几个句子组成,每个段落至少包含一个拼写错误,并且数据既指示错误的位置,又指示相应的更正。

这套文章中的所有文章都用于训练已开发的拼写检查器

(2)Dryrun SET

共有39篇文章提供给参与者,使他们熟悉最终的测试过程。

每个参与者可以提交使用不同模型生成的多个运行,并使用其检查器的不同参数设置。

除了确保可以正确评估提交的结果之外,参与者还可以在试运行阶段微调其开发的模型。

空运行的目的是仅验证提交的输出格式,官方评估中未考虑空运行结果

(3)测试集

这套包含1100条测试段落。

这些段落中有一半没有拼写错误,而另一半则至少包含一个拼写错误。

评估以公开测试的形式进行。

除了提供的数据集外,还允许注册的参与者团队使用任何语言和计算资源来检测和纠正拼写错误。

此外,由CFL学习者撰写的文章可能会产生语法错误,单词遗漏或多余,单词选择不正确或单词顺序问题。

所讨论的任务仅专注于拼写错误纠正。

<ESSAY title="學中文的第一天">
<TEXT>
<PASSAGE id="A2-0521-1"> 這位小姐說:你應
該一直走到十只路口,再右磚一直走經過一家銀
行就到了。</PASSAGE>
<PASSAGE id="A2-0521-2">應為今天是第一天,
老師先請學生自己給介紹。</PASSAGE>
</TEXT>
<MISTAKE id="A2-0521-1" location="15">
<WRONG>十只路口</WRONG>
<CORRECTION>十字路口</CORRECTION>
</MISTAKE>
<MISTAKE id="A2-0521-1" location="21">
<WRONG>右磚</WRONG>
<CORRECTION>右轉</CORRECTION>
</MISTAKE>
<MISTAKE id="A2-0521-2" location="1">
<WRONG>應為</WRONG>
<CORRECTION>因為</CORRECTION>
</MISTAKE>
</ESSAY>

结论与未来工作

本文概述了SIGHAN 2015年中文拼写检查的概况,包括任务设计,数据准备,评估指标,性能评估结果以及参与团队使用的方法。

无论实际表现如何,所有提交的内容都有助于寻找有效的中文拼写检查程序的知识,并且Bake-off程序中的各个报告提供了对中文处理的有用见解。

我们希望为此Bakeoff收集的数据集可以促进并加快有效的中文拼写检查程序的未来开发。

因此,所有具有黄金标准和评估工具的数据集均可在 http://ir.itc.ntnu.edu.tw/lre/sighan8csc.html 上公开获得。

未来的方向集中在中文语法错误纠正的发展上。

我们计划建立新的语言资源,以帮助改进现有的计算机辅助中文学习技术。

此外,将从CFL学习者那里获得的新数据集将进行调查,以进一步丰富该研究主题。

个人感受

这篇 paper 虽然没有说具体的实现方式,但是整体的评估思路是提供了的。

而且也说了大概的实现方式,基于 HMM 或者 CRF 的方式。

标签:NLP,中文,01,拼写,拼写错误,2015,SIGHAN,评估
From: https://www.cnblogs.com/houbbBlogs/p/18628636

相关文章

  • ECOM 2001 Description
    ECOM 2001 TermProjectDescriptionDue17/01/2025at 23:59 AWSTIntroductionThe aim of thisproject is toprepare, evaluate and analyse stockmarket data and torecommend an optimalportfo- lioconsistingof two stocks. Youhavebeenas......
  • [THUSC2015] 异或运算 题解
    学到新思路了:求解\(k\)大值时,可以将所有元素放一块一起跑。考虑到\(n,q\)奇小无匹,我们便可以制造一个\(O(qn\logV)\)的代码。那么对于我们不想在时间复杂度中出现的\(m\),我们直接把他扔进可持久化\(Trie\)中销赃。再根据刚才那个思路,将\([u,d]\)中所有点扔进可持......
  • 继承中成员变量和成员方法的访问特点-java se进阶篇 day01
    1.继承中成员变量的访问特点1.成员变量重名如图父类中有age变量,子类中也有age变量,这时打印age,出现的是10还是20呢?答:根据就近原则,出现的是202.使用父类成员变量--super如果就要使用父类中的age该怎么办?使用super关键字进行解决super关键字可以访问父类中的成员,从而解决......
  • 英语四六级备考必备:2015-2024年历年真题+解析全汇总
    前言英语四六级考试是每年大学生最重要的语言能力测试之一。如何在备考中取得高分,除了掌握核心词汇和语法外,真题练习绝对是备考的“王牌利器”。本文为大家整理了从2015年至2024年6月的英语四六级考试真题及解析合集。这份资源不仅涵盖了近十年的考试真题,还配有详细解析,帮助你了......
  • ZJOI2016 旅行者 题解
    ZJOI2016旅行者题解题目大意:给定一个\(n\timesm\)的网格图,相邻的四连通的点之间有给定边权的双向边,有\(Q\)个离线询问,问两个点之间的最短路。\(n\timesm\le2\times10^4,Q\le10^5\)。发现了吗?和上次省选组的三角剖分那道题很像,这种平面图上的最短路很有可能是分治......
  • tryhackme-Cyber Security 101-Search Skills(搜索技能)
    由于之前的的preSecurity学习,所以直接开始第一个搜索学习。任务1:Introduction(介绍)在Google上快速搜索“learncybersecurity”返回了大约6亿次点击,而搜索“learnhacking”返回了这个数字的两倍多!当你穿过这个房间时,这个数字可能会进一步增加。我们被信息所包围。面......
  • 301 字符串匹配例题 exkmp
    //301字符串匹配例题.cpp:此文件包含"main"函数。程序执行将在此处开始并结束。///*http://oj.daimayuan.top/course/22/problem/908给你两个字符串a,b,字符串均由小写字母组成,现在问你b在a中出现了几次。输入有多组数据,第一行为数据组数T,每组数据包含两行输入......
  • E91 换根DP P3647 [APIO2014] 连珠线
    视频链接:E91换根DPP3647[APIO2014]连珠线_哔哩哔哩_bilibili    P3647[APIO2014]连珠线-洛谷|计算机科学教育新生态(luogu.com.cn)//换根DPO(n)#include<iostream>#include<cstring>#include<algorithm>#include<vector>usingnamespacestd......
  • (2-3-01)目标检测与分割:基于PointNet的目标检测与分割+基于Voxel-based的目标检测与分割
    2.3 目标检测与分割LiDAR目标检测与分割是智能驾驶和机器人领域中的重要任务之一,它涉及从激光雷达(LiDAR)扫描数据中提取和识别目标物体。在本节的内容中,将详细讲解常见的LiDAR目标检测与分割算法。2.3.1 基于PointNet的目标检测与分割PointNet算法的发展推动了智能驾驶......
  • 德普微一级代理 DPDW01G SOT23-6 1节锂离子/锂聚合物电池保护IC
    主要特点内置高精度电压检测电路   过充电检测电压:4.28V±0.05V;   过充电解除电压:4.08V±0.05V;   过放电检测电压:2.4V±0.05V;   过放电解除电压 :3.0V±0.1V;   放电过电流检测电压:0.15V-0.02/+0.03V;   充电过电流检测电压:-0.15V±0......