该数据集包含了一组电子邮件样本,每个样本都标记为两类之一:正常邮件(ham)或垃圾邮件(spam)。数据集以CSV表格格式存储,其中包含以下字段:
-
-
label
: 分类标签,指示邮件是否为正常邮件(ham)或垃圾邮件(spam)。text
: 邮件正文文本。label_num
: 标签的数值编码,其中“ham”编码为0,“spam”编码为1。
-
此数据集可用于训练和评估垃圾邮件检测模型,特别是对于那些希望使用传统机器学习方法(如朴素贝叶斯分类器)的研究人员和开发者来说非常有用。通过该数据集,用户可以开发出高效的垃圾邮件过滤系统,减少用户的邮件负担,并提高信息安全性。
标签:编码,ham,spam,垃圾邮件,英文,数据,邮件 From: https://blog.csdn.net/void9main/article/details/142939743