访问【WRITE-BUG数字空间】_[内附完整源码和文档]
随着各种社交平台的兴起,网络上用户的生成内容越来越多,产生大量的文本信息,如新闻、微博、博客等,面对如此庞大且富有情绪表达的文本信息,完全可以考虑通过探索他们潜在的价值为人们服务。因此近年来情绪分析受到计算机语言学领域研究者们的密切关注,成为一项进本的热点研究任务。 本赛题目标为在庞大的数据集中精准的区分文本的情感极性,情感分为正中负三类。面对浩如烟海的新闻信息,精确识别蕴藏在其中的情感倾向。
一、任务描述
1.1 赛题背景
随着各种社交平台的兴起,网络上用户的生成内容越来越多,产生大量的文本信息,如新闻、微博、博客等,面对如此庞大且富有情绪表达的文本信息,完全可以考虑通过探索他们潜在的价值为人们服务。因此近年来情绪分析受到计算机语言学领域研究者们的密切关注,成为一项进本的热点研究任务。
本赛题目标为在庞大的数据集中精准的区分文本的情感极性,情感分为正中负三类。面对浩如烟海的新闻信息,精确识别蕴藏在其中的情感倾向。
1.2 任务要求
对官方提供的新闻数据进行情感极性分类,其中正面情绪对应0,中性情绪对应1以及负面情绪对应2。根据提供的训练数据,通过算法或模型判断出测试集中新闻的情感极性。
1.3 数据描述
数据包由两个csv文件组成:第一个是Train_Dataset,包含7360条新闻的id号,新闻标题和新闻内容。第二个是Train_Dataset_Label,包含了Dataset中新闻的id号,以其新闻的情感得分(用0,1,2表示)。
二、实施方案
该问题实质上为对信息的分类处理,所以核心内容是使用一个合适的分类器。其次,由于新闻是由文本构成的语言,一条新闻的情感通常可以由文本中词语的情感性决定。于是,另一个重要的内容是如何将数据进行预处理,即删除无用文字,并将新闻文本切分成一个个中文词语。
2.1 数据预处理
观察训练集中新闻的内容,发现新闻文本乱七八糟,有各种不属于中文词库的符号。所以预处理的第一步就是将不属于中文的文本删除(包括各种标点符号)。预处理的第二步是将修正后的文本进行词语的切分,从而将一整段话切分为一个个词语。
2.2 分类器选择
情感标签有三种赋值:积极、中立和消极。于是所有的二分类器就不可以使用,比如标准意义下的SVM支持向量机等。考虑到运行时间和效率,我们将选择朴素贝叶斯分类器作为首选(事实上,测试结果也表明朴素贝叶斯分类器是效率和正确率均较高的分类器)
标签:情绪,新闻,分类器,情感,互联网,文本,预处理 From: https://blog.51cto.com/u_16075443/6233980