Chapter4 朴素贝叶斯案例

时间：2023-04-25 16:45:20浏览次数：42

标签：real 词条 Chapter4 样本贝叶斯 ---- error class 朴素

朴素贝叶斯案例：过滤垃圾邮件

1. 案例的流程

    示例：使用朴素贝叶斯对电子邮件进行分类
    （1）收集数据：提供文本文件。
    （2）准备数据：将文本文件解析成词条向量。
    （3）分析数据：检查词条确保解析的正确性。
    （4）训练算法：使用我们之前建立的trainNB0()函数。  
    （5）测试算法：使用classifyNB()，并且构建一个新的测试函数来计算文档集的错误率。
    （6）使用算法：构建一个完整的程序对一组文档进行分类，将错分的文档输出到屏幕上。

2. 文件解析函数

# 该函数的作用是用于分割文本，以便于生成词汇列表
# 该函数位于bayes.py文件中

def textParse(bigString):
    import re
    # 这里通过正则表达式来分割样本
    # 该正则表达式的含义为：以非字母数字下划线为标志进行分割（长度为0个或无限个）
    listOfTokens = re.split(r'\W*',bigString)
    # 返回分割之后的样本，单词（词条）要求：长度大于2且均为小写
    return [ tok.lower() for tok in listOfTokens if len(tok) > 2]

3. 垃圾邮件测试函数

# 该函数的作用是用于分类垃圾邮件并测试错误率
# 该函数位于bayes.py文件中

def spamTest():
    docList = []                # 代表分割词条之后的样本列表
    classList = []              # 代表样本的类别列表
    fullText = []               # 代表存储所有的词条列表
    for i in range(1,26):       # 共有25个文件
        wordList = textParse(open('email/spam/%d.txt' % i).read())      # 导入电子邮件（垃圾），分割样本，生成词条列表
        docList.append(wordList)                                        # 添加样本列表
        fullText.extend(wordList)                                       # 添加样本里面的单词
        classList.append(1)                                             # 添加该样本所属的类别(1为垃圾邮件，0为非垃圾邮件)
        wordList = textParse(open('email/ham/%d.txt' % i).read())       # 导入电子邮件（正常）
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)                                # 生成单词列表，进而可以生成词条向量
    trainSet = list(range(50))
    testSet = []
    # 以下代码用于从训练集里随机构建测试集，并在训练集中删除相应的测试样本
    for i in range(10):
        # random.uniform 方法代表生成一个指定范围的随机浮点数，该范围区间左闭右开
        # 随机从训练集中选择一个样本作为测试样本
        randIndex = int(random.uniform(0,len(trainSet)))
        testSet.append(randIndex)
        del(trainSet[randIndex])
    trainMat = []                                                       # 创建训练矩阵，存储的都是训练样本的词条向量
    trainClasses = []                                                   # 代表训练样本的类别
    for docIndex in trainSet:
        trainMat.append(setOfWords2Vec(vocabList,docList[docIndex]))
        trainClasses.append(classList[docIndex])
    # 通过贝叶斯计算三个概率
    p0V,p1V,pSpam = trainNB0(array(trainMat),array(trainClasses))       # pSpam代表垃圾邮件的概率
    errorCount = 0                                                      # 代表错误分类的样本计数器
    for docIndex in testSet:
        wordVector = setOfWords2Vec(vocabList,docList[docIndex])        # 生成测试样本的词条向量
        forecastClass = classifyNB(array(wordVector),p0V,p1V,pSpam)
        realClass = classList[docIndex]
        if forecastClass != realClass:  # 如果预测的类别与实际类别不符合
            errorCount+=1
            print('the error class is: %s ---- the real class is %s' % (forecastClass,realClass))
    print('the error rate is:', float(errorCount) / len(testSet))       # 计算错误率

# 该函数的作用是用于测试
# 该函数位于personalTest.py文件中
import baye1

baye1.spamTest()
'''
the error class is: 1 ---- the real class is 0
the error class is: 1 ---- the real class is 0
the error rate is: 0.2

the error class is: 1 ---- the real class is 0
the error class is: 1 ---- the real class is 0
the error class is: 1 ---- the real class is 0
the error class is: 1 ---- the real class is 0
the error class is: 1 ---- the real class is 0
the error rate is: 0.5

'''

'''
    需要注意的是：由于本案例中训练样本和测试样本是随机的，因此每次执行时，错误率都会不同。
'''

标签：real,词条,Chapter4,样本,贝叶斯,----,error,class,朴素
From： https://www.cnblogs.com/gao79135/p/17353082.html

贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据
原文链接：http://tecdat.cn/?p=22702最近我们被客户要求撰写关于贝叶斯分位数回归的研究报告，包括一些图形和统计输出。贝叶斯回归分位数在最近的文献中受到广泛关注，本文实现了贝叶斯系数估计和回归分位数（RQ）中的变量选择，带有lasso和自适应lasso惩罚的贝叶斯摘要还包括总结结果、......
Chapter4 朴素贝叶斯
朴素贝叶斯1.简介朴素贝叶斯是一种基于概率论的分类方法。它主要借助条件概率和贝叶斯公式来对样本进行分类。2.优缺点朴素贝叶斯优点：在数据较少的情况下仍然有效，可以处理多类别问题。缺点：对于输入数据的准备方式较为敏感。适用数据类型：标称型数据。3......
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SV
全文下载链接：http://tecdat.cn/?p=26219最近我们被客户要求撰写关于银行机器学习的研究报告，包括一些图形和统计输出。该数据与银行机构的直接营销活动相关，营销活动基于电话。通常，需要与同一客户的多个联系人联系，以便访问产品（银行定期存款）是否会（“是”）或不会（“否”）订阅银行数据集我......
Chapter4 图例
Chapter4图例图例的作用就是对所绘制的图像，进行解释。importmatplotlib.pyplotaspltimportnumpyasnpx=np.linspace(-3,3,50)y1=2*x+1y2=x**2plt.figure()#设置x轴的取值范围plt.xlim((-1,2))#设置y轴的取值范围plt.ylim((-2,3))#描述x轴plt......
Java语言在Spark3.2.4集群中使用Spark MLlib库完成朴素贝叶斯分类器
一、贝叶斯定理贝叶斯定理是关于随机事件A和B的条件概率，生活中，我们可能很容易知道P（A|B），但是我需要求解P（B|A），学习了贝叶斯定理，就可以解决这类问题，计算公式如下： P（A）是A的先验概率P（B）是B的先验概率P（A|B）是A的后验概率（已经知道B发生过了）P（B|A）是B的后验概率（已经知道A发生过了）二......
决策论——贝叶斯决策的R实现（二）
决策是理性人普遍从事的一种活动，也是极为重要的制胜手段。它的核心是，对未来活动的多个目标及用途做出合理的选择，以寻求最满意的行动方案。决策具有以下特点：①面对新问题和新任务做出科学决定，属于创造性的管理活动；②必须对实际行为有直接的指导作用；③具有多因素、多目标、不要确定......
python机器学习案例系列教程——文档分类器，朴素贝叶斯分类器，费舍尔分类器
全栈工程师开发手册（作者：栾鹏）python数据挖掘系列教程github地址：https://github.com/626626cdllp/data-mining/tree/master/Bayes贝叶斯分类过程概述：首先有一批已知分类的数据集。对每个输入对象提取特征，根据输入对象的特征属性和输入对象的所属分类，计算分类与特征属性之间的概率......
基于贝叶斯判决的手写数字识别系统,带GUI界面
1.算法描述贝叶斯判别规则是把某特征矢量(x)落入某类集群的条件概率当成分类判别函数(概率判别函数)，x落入某集群的条件概率最大的类为X的类别，这种判决规则就是贝叶斯判别规则。贝叶斯判别规则是以错分概率或风险最小为准则的判别规则。判别函数，各个类别的判别区域确定后，可以用......
基于贝叶斯判决的手写数字识别系统,带GUI界面
1.算法描述贝叶斯判别规则是把某特征矢量(x)落入某类集群的条件概率当成分类判别函数(概率判别函数)，x落入某集群的条件概率最大的类为X的类别，这种判决规则就是贝叶斯判别规则。贝叶斯判别规则是以错分概率或风险最小为准则的判别规则。判别函数，各个......
频率学派和贝叶斯学派
贝叶斯定理贝叶斯推断是一种统计学方法，用来估计统计量的某种性质。贝叶斯推断与传统的频率学派不同，它是建立在主观判断的基础上的，也就是说，你可以不需要客观证据，先估计一个值，然后根据实际结果不断修正。由于其主观性太强，所以在一些传统行业内更偏向于传统的频率学派。贝叶斯定理......

Chapter4 朴素贝叶斯案例

朴素贝叶斯案例：过滤垃圾邮件

1. 案例的流程

2. 文件解析函数

3. 垃圾邮件测试函数

相关文章

赞助商

阅读排行