首页 > 其他分享 >华为LAB实验室4-朴素贝叶斯

华为LAB实验室4-朴素贝叶斯

时间:2023-02-27 16:32:47浏览次数:47  
标签:特征向量 步骤 LAB 贝叶斯 华为 垃圾邮件 文本处理 邮件


各位好,我是乾颐堂大堂子。领取完整实战指南可以私信我,关键词:实战指南

通过 jieba 文字分词库对邮件数据集的垃圾邮件和进行文本处理,提取特征。然后调用 sklearn 机器学习库中的朴素贝叶斯算法训练模型,最后推理测试集中邮件是否为垃圾邮件。

华为LAB实验室4-朴素贝叶斯_LAB实验室

步骤 1 引入相关依赖的包

华为LAB实验室4-朴素贝叶斯_乾颐堂_02

步骤 2 构建文本处理函数

​删除其中的干扰字符,例如【】*。,等等,然后分词,剩下的词汇认为是有效词汇。

华为LAB实验室4-朴素贝叶斯_朴素贝叶斯_03

华为LAB实验室4-朴素贝叶斯_LAB实验室_04

步骤3构建文本读取函数

获取文件中所有词,进行文本处理

华为LAB实验室4-朴素贝叶斯_朴素贝叶斯_05

步骤4构建数据集

统计全部训练集中每个有效词汇的出现次数,截取出现次数最多的前500个根据预处理后的垃圾邮件和非垃圾邮件内容生成特征向量,统计得到的500个词语分别在该邮件中的出现概率

华为LAB实验室4-朴素贝叶斯_LAB实验室_06

华为LAB实验室4-朴素贝叶斯_乾颐堂_07

得到特征向量和已知邮件分类创建并训练朴素贝叶斯模型。

华为LAB实验室4-朴素贝叶斯_乾颐堂_08

步骤6模型测试

读取测试邮件,对邮件文本进行预处理,提取特征向量。使用训练好的模型,根据提取的特征向量对邮件进行分类

华为LAB实验室4-朴素贝叶斯_朴素贝叶斯_09

华为LAB实验室4-朴素贝叶斯_华为_10

华为LAB实验室4-朴素贝叶斯_乾颐堂_11

更多网工提升干货,请关注公众号:乾颐堂网络实验室

标签:特征向量,步骤,LAB,贝叶斯,华为,垃圾邮件,文本处理,邮件
From: https://blog.51cto.com/u_15966276/6088630

相关文章