首页 > 其他分享 >CCL 2024 Task7 双任务冠军

CCL 2024 Task7 双任务冠军

时间:2024-05-23 15:51:01浏览次数:19  
标签:细粒度 语法错误 作文 病句 Task7 2024 CCL 任务 流畅性

       随着教育的发展和网络的普及,作文评价的规模越来越大,人工评改作文的成本和效率成为一大难题。为了解决这一问题,许多研究者和机构开始探索利用计算机技术来实现作文的自动评改[1],通过分析作文的语言、内容、结构等方面的特点及存在的问题,给出客观、准确、及时的评分和反馈。其中,表述是否流畅是教师评改作文的一项重要内容。

  作文流畅性反映一篇作文的通顺程度和语言使用的规范性,以及作者的写作水平和表达能力,对提高作文评改质量、提升作者写作水平具有重要意义。目前,针对作文流畅性评价的研究工作通常从句子长度、词汇复杂度、句子结构等语言学特征角度进行评分或评级;或是作为语法纠错任务,对句子中出现的拼写错误或语法错误进行识别和纠正;或是视为病句判断任务,判断一条句子是否是病句;这些方法通常将作文流畅性评估作为一个单独的自然语言处理任务,缺乏多层次、多角度的系统性整合;在对语法错误类型的定义上,以往的工作研究了赘余、缺失、误用、乱序四个粗粒度类别,缺乏更细粒度的错误类型定义;同时,他们的方法不具备良好的可解释性,没有定义作文流畅性评价的细粒度分项,无法对中小学生错误修改给出针对性的指导和修改意见。此外,

  本次评测数据集来源于以汉语为母语的中小学生考试作文,区别于使用基于规则生成或汉语学习者的中介语数据中的错误,以及其他类型母语者的口语、书面语的语法错误,中小学生作文中出现的错误类型更丰富,涉及的语法知识更复杂。因此我们的任务研究中小学生考试作文中的语法错误识别与纠正问题,系统地定义了影响作文流畅性的细粒度错误类型,并给出了修正建议,这种细粒度错误类型的定义与识别能够帮助学生更清楚地了解自己的写作问题,而修正建议能帮助学生更好地修改自己的作文,同时帮助教师更便捷地了解学生写作水平,有助于教师更好地指导学生写作。

  基于此,本次评测任务从词法、句法、语义等多角度对作文流畅性进行详细分析,并给出修改建议,包括:

    1、中小学作文病句类型识别;

    2、中小学作文病句改写;

    3、中小学作文流畅性评级;

  任务一是有关病句类型识别,本质为分类任务,为此我们选用UTC模型进行微调,由于提供训练的数据量较少,为此我们提出语法错误替换方法(后续开源),来进行分阶段的训练。

  

       任务二是中小学作文病句改写,本质为文本生成任务,为此我们选用BART模型,并采用SynGEC融合语法结构,来进一步的提高模型的纠错能力,代码详见:https://github.com/HillZhang1999/NaSGEC,训练数据如下图所示:

 

      任务三是中小学作文流畅性评级,也是分类任务,采用NEZHA模型进行微调,并采用FGM、K折等方法来增加模型的鲁棒性,训练数据如下:

 

 

补充:NEZHA 模型相比于BERT模型,在一些方面的改进:完全函数式的相对位置编码、词的MASK、Span预测任务、混合精度训练和LAMB优化器

 

 

标签:细粒度,语法错误,作文,病句,Task7,2024,CCL,任务,流畅性
From: https://www.cnblogs.com/twnlp/p/18208637

相关文章

  • 【转载】2024年度山东省自然科学基金项目(第一批)申报常见问题解答
    地址:https://mp.weixin.qq.com/s?__biz=Mzg2NDU5NjA1OQ==&mid=2247579452&idx=2&sn=a038e35fb2958666ab255993008c8064&chksm=ce650e08f912871e77d05569567a15fdffcbedd6a1762a19433b4aabcdcbdf96272d52e28112&mpshare=1&scene=23&srcid=0523SHJ0......
  • 2024 CISCN WEB 部分wp
    前言第二天的revenge真是绷不住,出的很好,下次多出点revenge。ezjava简要介绍sqlitejdbc...真的没想到,写文件覆盖写了半天,结果是个CVE...,给的很多东西都是幌子原理是通过控制jdbc语句和sql语句的执行来达到加载恶意so/dll达成rce的目的,这两个条件就很苛刻了,所以算是个比较鸡肋......
  • 引燃算力新基建,天翼云亮相DCIC2024第13届数据中心产业发展大会!
    近日,由中国通信企业协会主办的“第13届数据中心产业发展大会暨AIDC智能算力生态合作展览会”在北京顺利举行。现场展示了天翼云“AIDC”“紫金”“云骁”“息壤”等技术和平台能力;中国电信天翼云2023年智算资源池上海节点建设工程获得大会“算力基础设施高质量发展企业案例奖”;天......
  • Testing Egineer note:2024_4_27-day01-part02
    肖sir__软件测试之计算机基础_1.2软件测试之计算机基础1.硬件:计算机的硬件是计算机的各种设备的总称,硬件分为五个部分:(1)运行器(cpu)(2)控制器(主板)(3)存储器(硬盘)机械硬盘和固态硬盘(4)输入设备(键盘,鼠标)(5)输出设备(显示器,音响)2、软件:当电脑启动时的应用程序,应用软件(腾讯,qq,有道......
  • Windows 电源管理BUG--2024年5月22日了解
    目录注意:笔记本电脑一定不能拔电后长时间休眠,特别是11系统!!Win11休眠后的电源管理有bug,会将你的电池彻底用到激活电压以下,很有可能导致电池锁定(只能通过特定设备激活解锁).你的电脑就会永远进入0%电池状态,电池只能通过更换或激活(没有那个设备)才能恢复充电功能.问......
  • 【专题】2024智慧医疗行业研究报告合集PDF分享(附原数据表)
    原文链接:https://tecdat.cn/?p=36230原文出处:拓端数据部落公众号医疗信息化正在以医疗服务需求不断升级的大背景下,融合大数据和人工智能等创新技术,不断扩展其范围和定义。从单一的院内信息化,逐步发展到区域间、不同机构间的数据互联互通与共享应用,涵盖的范围不再仅限于患者的病......
  • JOISC 2024 记录
    感觉我太滞后了Day1T1Fish3我们可以做的操作是单点加\(D\)和后缀加\(1\),考虑把这个操作放在差分数组上,则操作变成了:单点加\(1\)。\(i\)处加\(D\),\(i+1\)处\(-D\)。需要最小化第二种操作的使用次数,发现只有对于所有差分数组中的负数是不得不用第二种操作的,而对于......
  • 2024版Pycharm导入conda环境
    旧版与新版的区别大致就是旧版借用python.exe文件来导入虚拟环境,而现在的新版本需要借用Anaconda3文件中的condabin文件夹中的conda.bat文件来导入已创建的虚拟环境。(1)进入设置(2)选择interpreter  (3)选择conda环境 首先浏览到condabin的位置,选择conda;然后点击加载环境,而......
  • 2024-05-22:用go语言,你有一个包含 n 个整数的数组 nums。 每个数组的代价是指该数组中
    2024-05-22:用go语言,你有一个包含n个整数的数组nums。每个数组的代价是指该数组中的第一个元素的值。你的目标是将这个数组划分为三个连续且互不重叠的子数组。然后,计算这三个子数组的代价之和,要求返回这个和的最小值。输入:nums=[1,2,3,12]。输出:6。答案2024-05-22:cha......
  • APIO2024 游记
    5.21才写的,有些可能记不起来了。Day0白天抽机,下午很困,晚上去了西湖,景色很美。很晚吃的饭,很饿。Day1入住新酒店,且学校伙食明显好了很多。下午晚上筹集。Day2早上是gyr讲课,下午是两名国家队成员讲课。积性函数和wc差不多,很无聊,组合计数还行。Day3早上试机,十点开......