首页 > 其他分享 >一个使用公式化序列分类的EAL学术写作辅助环境

一个使用公式化序列分类的EAL学术写作辅助环境

时间:2023-04-19 17:55:07浏览次数:47  
标签:ARP 对照组 实验组 学生 公式化 写作 使用 序列 EAL

一个使用公式化序列分类的EAL学术写作辅助环境

(An assistive environment for EAL academic writing using formulaic sequences classification)

★★实验结果实验组、对照组和两维度分析:

对照组学生:使用短语库;

实验组学生:使用提出的应用程序(ARP)作为辅助工具。

 

 

一、摘要提取

研究背景:英语作为第二语言(EAL)的新手作者写一篇英语研究文章是一项具有挑战性的任务,需要在句子和意义层面上都有经验和训练。EAL作者在撰写研究文章时采用的一个策略是使用公式化序列(FSs)。然而,可用的FS语料库是通用的,大小非常有限。目前的工作提出了一个辅助环境,通过使用特定领域的FSs来提高学术写作。FSs是从已发表的文章中提取出来的,并使用机器学习技术根据修辞类别进行分类。然后,用户可以使用建议的原型从任何研究文章中搜索并添加他/她选择的新FSs。在实际环境中对该方法的有效性进行了评价。

研究目的:设计和开发一个使用机器学习的智能辅助学术写作系统,即监督学习方法。

实验结果结果表明,实验组学生使用ARP写作系统在提高学术写作方面有积极的影响。与使用传统短语库方法的新手作者相比,使用建议原型的新手作者报告了明显更高程度的感知有用性。

二、研究问题

(一)采用ARP写作系统方法的学生是否比采用传统语料库的学生学习表现得更好?

(二)采用ARP写作系统方法的学生技术接受度(有用性、易用性和对学习方法的满意度)是否形成正向的反馈?

三、研究设计

为了评估辅助修辞学短语写作系统(ARP)的有效性,在真实环境中对计算机科学研究生进行了实验。与传统的学术写作方法相比,通过使用提议的应用程序来衡量写作的提高。

(一)实验对象

本研究的参与者是来自某大学信息技术学院的研究生(共58人,27名女性,31名男性)。这些学生正在攻读计算机科学硕士学位,主修人工智能(18人)、软件工程(22人)和计算机网络(18人)。入选的学生在2017年秋季学期入学,并在2018年秋季结束前完成了课程。主管分配图2。辅助修辞短语写作系统的截图。

每道题10分。学生在人工智能方面的平均成绩为20.05,软件工程20.10,计算机网络18.88。根据写作考试成绩,三个专业的学生被分为对照组和实验组。两组中得分最高和最低的学生被混在一起,以形成同质性。对照组由27名学生组成,其余31名学生被选为实验组。每个小组都由三个专业的学生组成。

表1 修辞类别

类别

 解释

背景

一个被广泛接受的关于知识领域的陈述

结论

调查的结论;从观察和结果中推断出的陈述

实验

作者进行的实验和他们所使用的实验方法

目的

 研究者要解决的问题

假设

在调查后被证明是真或假的陈述

方法

用来解决问题的方法或过程

模型

用于研究的模型类型;它取决于主题

动机

为什么研究是必要的,为什么应该进行

问题

所提出的研究旨在解决的多个问题或多个问题

结果

研究成果和讨论结果

(二)实验过程

辅助修辞短语写作系统(ARP)

本研究的目的是设计和开发一个使用机器学习的智能辅助学术写作系统,即监督学习方法。该系统的总体架构分为两个主要阶段:训练阶段和测试阶段。建议的系统体系结构如图1所示。

 

 

图1 系统架构

 

该系统将研究文章的摘要和介绍部分作为自动和手动自然语言处理(NLP)模块的输入。自动特征提取模块使用TfIdfVectorizer提取特征向量,手动特征提取模块由领域专家手动提取特征向量。将自动提取和手动提取的特征向量转发给预测模块,分别对两个特征向量生成稀疏矩阵。随机森林(RF)和支持向量机(SVM)分类器预测预测模块中每个句子的类别标签。选择准确率最高的预测模型作为最终训练模型,用于测试阶段。

TfIdfVectorizer(向量)功能:将原文档转化成tfidf矩阵
英文文档有天然的空格分隔符,但是中文没有,在使用tfidfvectorizer时,如果是中文,注意要先分词(因为tfidf的计算原理是基于词语的),如果中文不事先分词的话,tfidfvectorizer会把每个句子作为一个特征。

 

表2 训练模型的F-measure得分

 

自动特征提取

 

手动特征提取

 

@100

 

@200

 

@300

 

@2987

 

RF

SVM

 

RF

SVM

 

RF

SVM

 

RF

SVM

背景

0.65

0.67

 

0.72

0.67

 

0.70

0.67

 

0.64

0.58

结论

0.15

0.11

 

0.23

0.23

 

0.24

0.17

 

0.53

0.56

实验

0.56

0.46

 

0.48

0.64

 

0.42

0.59

 

0.32

0.36

目的

0.32

0.26

 

0.32

0.19

 

0.25

0.30

 

0.44

0.42

假设

0.14

0.27

 

0.15

0.50

 

0.29

0.43

 

0.57

0.50

方法

0.26

0.30

 

0.41

0.32

 

0.35

0.29

 

0.66

0.70

模型

0.30

0.48

 

0.29

0.35

 

0.35

0.26

 

0.75

0.65

动机

0.24

0.15

 

0.18

0.19

 

0.26

0.19

 

0.40

0.42

问题

0.72

0.81

 

0.72

0.80

 

0.69

0.69

 

0.85

0.90

结果

0.13

0.22

 

0.44

0.34

 

0.40

0.38

 

0.43

0.48

 

图2 实验过程

 

给出了实验过程。为了帮助学生写研究工作的介绍,在实验开始时进行了一次训练。培训课程包括以下主题:

(1)如何开始和结束介绍,使读者参与并专注于拟议的工作?

(2)信息呈现的顺序,更重要的是修辞信息的类型。

 

四、研究结果 

(一)成绩分析

在使用ARP原型干预前进行预测,以确定研究生的基线知识,了解干预后互动学习环境在学生写作方面的改善水平。EG和CG的t检验结果见表3。实验组的总均值为29.66,标准差为2.09,对照组的总均值为29.93,标准差为2.55。采用独立样本t检验来检验两组间的显著性差异。

t检验的结果显示,前测期间的p值大于0.05。两组学生的技能水平和基线知识水平没有显著差异(t (58) =-0.445, p=0.658)。在干预前,两组拥有相同水平的写作技能的零假设被接受

 

表3 前测的t检验结果

组别

N

Mean

SD

 t

EG

31

29.66

2.09

-0.445

CG

27

29.93

2.55

 

 

干预结束后进行后测,所有学生在后测中都取得了满意的成绩,但实验组的成绩更高。对照组和实验组的测后计算见表4。后测分数的独立样本t检验结果显示,显著性值p < 0.05 (t(58) =14.269,p = 0.00)。这表明对照组和实验组的学术写作能力有很大的差异。零假设被拒绝,因为两组在干预后都拥有相同的写作技能水平。实验组的总均值为47.49,标准差为2.44,对照组的总均值为36.86,标准差为3.22。预测时的平均分让人很难判断谁的表现更好,但在原型干预后,实验组的分数远远高于对照组。由此可见,该原型有助于提高研究生的学术写作水平。

 

表4 后测的t检验结果

组别

N

Mean

SD

 t

EG

31

47.49

2.44

14.269

CG

27

36.86

3.22

 

 

(二)技术接受度

在后期测试后,实验组学生被要求提供反馈,以衡量他们对所提出的写作方法的技术接受度和满意度。

在收集学生对写作系统的“有用性”和“易用性”的反馈后,发现大部分学生给予了积极的反馈。“有用性”的平均评分为4.154,而“易用性”的平均评分为4.200。感知问卷中关于“对学习方法的满意度”的反馈也是积极的,平均评分为4.064。评分显示,学生们在提高他们的写作方面感到了该系统的好处。对“写作方法满意度”维度的分析表明,ARP写作系统不仅简单,而且使用起来很有趣。

 

四、结论与展望

(一)结论

本文提出了一种学术写作辅助环境,并对计算机专业研究生的写作大纲和论文进行了实验研究。

该系统通过从已发表的文章中提取和分类句子,为新手作者提供了特定领域的公式化序列。结果表明,所提出的辅助环境ARP写作系统提高了学生的写作质量和文章结构。通过使用所提出的机器学习应用程序(ARP)的实验证明,接触多个和特定领域的公式化序列增强了EAL学生的学术写作技能。与遵循传统短语库方法的学生相比,经历了领域特定FS的学生取得了更高的分数。

(二)展望

目前工作的一个局限性是,只有科学领域的研究文章被用于训练和测试机器学习模型。社会科学研究领域有不同的公式化序列集,需要不同的特征提取集。本建议的含义不仅限于写作技能的提高;该方法可以推广到研究文章之间基于修辞句的相似度计算

 

问题:研究问题不清晰,分类维度少,是因为其研究的领域(EAL学生)、所选人群和实验组使用的方法有创新性,因而论文发表到权威期刊上吗?

标签:ARP,对照组,实验组,学生,公式化,写作,使用,序列,EAL
From: https://www.cnblogs.com/xiaoxin-ing/p/17334163.html

相关文章

  • UnrealEngine - 网络同步之连接篇
    1连接过程-握手传统的C/S架构下,Client和Server通常会建立一条抽象的Connection,用来进行两端的通信。UE的官方文档中提供了Client连接到Server的示例,简单来说分为如下几步:打包构建好Client和Server进程启动Server进程,启动参数为./Binaries/Win64/<PROJE......
  • 第五周--验证栈序列
    题目描述给出两个序列pushed和poped两个序列,其取值从1到 n(n≤100000)。已知入栈序列是pushed,如果出栈序列有可能是poped,则输出 Yes,否则输出 No。为了防止骗分,每个测试点有多组数据。输入格式第一行一个整数 q,询问次数。接下来 q 个询问,对于每个询问:第一行......
  • Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析|附代码数据
    全文下载链接:http://tecdat.cn/?p=17748最近我们被客户要求撰写关于销售量时间序列建模预测的研究报告,包括一些图形和统计输出。在本文中,在数据科学学习之旅中,我经常处理日常工作中的时间序列数据集,并据此做出预测。LSTM神经网络架构和原理及其在Python中的预测应用我将通过以下......
  • R语言使用ARIMAX预测失业率经济时间序列数据|附代码数据
    全文链接:http://tecdat.cn/?p=22521最近我们被客户要求撰写关于ARIMAX的研究报告,包括一些图形和统计输出。在大数据的趋势下,我们经常需要做预测性分析来帮助我们做决定。其中一个重要的事情是根据我们过去和现在的数据来预测未来。这种方法我们通常被称为预测许多情况下都需要预测......
  • 开心档之MySQL 序列使用
     MySQL序列使用MySQL序列是一组整数:1,2,3,...,由于一张数据表只能有一个字段自增主键,如果你想实现其他字段也实现自动增加,就可以使用MySQL序列来实现。本章我们将介绍如何使用MySQL的序列。使用AUTO_INCREMENTMySQL中最简单使用序列的方法就是使用MySQLAUTO_......
  • R语言指数平滑预测法分析南京出租车打车软件空载率时间序列补贴政策可行性
    报告链接:http://tecdat.cn/?p=32161原文出处:拓端数据部落公众号本文通过建立空载率的数学模型,帮助客户来分析出租车的空载率,从而对出租车补贴政策能否提高高峰期的实载率,缓解打车难问题进行了说明。分析思路1.利用这么多天的数据,按照算法先算出每天的日平今年空载率,绘制成曲线......
  • 序列化
          内存中的数据对象只有转换为二进制流才可以进行数据持久化和网络传输。将数据对象转换为二进制流的过程成为对象的序列化(Serialization)。反之,将二进制流恢复为数据对象的过程称为反序列化(Deserialization)。序列化需要保留充分的信息以恢复数据对象,但是为了节约存......
  • ner任务中subword对tag序列的影响
    https://tianchi.aliyun.com/forum/post/336310由于标注数据通常是在word级别进行标注的,既然word还会被切分成subtokens,那么意味着我们还需要对标注数据进行subtokens的对齐。同时,由于预训练模型输入格式的要求,往往还需要加上一些特殊符号比如: [CLS] 和 [SEP]。tokenizer有一......
  • 【剑指 Offer】 31. 栈的压入、弹出序列
    【题目】输入两个整数序列,第一个序列表示栈的压入顺序,请判断第二个序列是否为该栈的弹出顺序。假设压入栈的所有数字均不相等。例如,序列{1,2,3,4,5}是某栈的压栈序列,序列{4,5,3,2,1}是该压栈序列对应的一个弹出序列,但{4,3,5,1,2}就不可能是该压栈序列的弹出序列。 示例1:......
  • 洛谷P7492 [传智杯 #3 决赛] 序列 题解 数列分块
    题目链接:https://www.luogu.com.cn/problem/P7492解题思路:分块。解题思路全部来自yzy1大佬的博客额外掌握技能:编译时加入-Wall参数。示例程序:#include<bits/stdc++.h>usingnamespacestd;constintmaxn=1e5+5;intn,m,blo,//n表示数列长度,m表......