一、概述

1.1 数学公式

二、利用贝叶斯进行文本分析

2.1 文本向量化

对数据进行预处理，进行分词，并把文本向量化是贝叶斯算法的关键也是难点。

分词可以参考：https://www.cnblogs.com/qianslup/p/16907569.html

文本向量化可以参考：https://www.cnblogs.com/qianslup/p/16847967.html

2.2 数据源查看

2.2.1 核心数据源

这是一个评分（score）与评论（comment）

2.2.1 停用词库

2.3 代码展示

import pandas as pd
import jieba
jieba.setLogLevel(jieba.logging.INFO)
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB  # 贝叶斯
from sklearn.model_selection import train_test_split


df = pd.read_csv('../data/comment.csv')

stopwords=pd.read_csv("../data/stopwords.txt", index_col=False,sep="\t",quoting=3,names=['stopword'], encoding='utf-8')



# 对comment 分词
def cut_word(sentence):
    clean_word = []
    words = jieba.cut(sentence)
    for word in words:
        if word not in stopwords and len(word) > 1 and word != '\r\n':
            clean_word.append(word)
    new_sentence = ' '.join(clean_word)
    return new_sentence

# 对score 分等级
def set_grade(score):
    if score < -20:
        return '-2'
    elif score < 0:
        return '-1'
    elif score < 20:
        return '1'
    else:
        return '2'


df['clean_word'] = df['comment'].map(cut_word)
df['grade'] = df['score'].map(set_grade)
df.dropna

df.to_csv('../data/clean_word.csv')

X = df['comment']   # Series转List方便
y = df['grade']


X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.25,random_state=1)
# L1 曼哈顿距离, L2 是欧拉距离
tfidf = TfidfVectorizer(use_idf=True, smooth_idf=True,norm='l2')
X_train = tfidf.fit_transform(list(X_train))
mNB = MultinomialNB()
mNB.fit(X_train,y_train)
X_test = tfidf.transform(list(X_test))
print('Tf-idf未分词 socre',mNB.score(X_test,y_test))



X = df['clean_word']   # Series转List方便
y = df['grade']
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.25,random_state=1)
# L1 曼哈顿距离, L2 是欧拉距离
tfidf = TfidfVectorizer(use_idf=True, smooth_idf=True,norm='l2')
X_train = tfidf.fit_transform(list(X_train))
mNB = MultinomialNB()
mNB.fit(X_train,y_train)
X_test = tfidf.transform(list(X_test))
print('Tf-idf分词 socre',mNB.score(X_test, y_test))


X = df['clean_word']   # Series转List方便
y = df['grade']
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.25,random_state=1)
cv = CountVectorizer()
X_train = cv.fit_transform(list(X_train))
mNB = MultinomialNB()
mNB.fit(X_train,y_train)
X_test = cv.transform(list(X_test))
print('cv分词 socre',mNB.score(X_test, y_test))

标签：word,score,df,贝叶斯,train,test,mNB
From： https://www.cnblogs.com/qianslup/p/16908256.html

时序预测 | MATLAB实现贝叶斯优化CNN-LSTM时间序列预测(股票价格预测)
时序预测|MATLAB实现贝叶斯优化CNN-LSTM时间序列预测(股票价格预测)目录时序预测|MATLAB实现贝叶斯优化CNN-LSTM时间序列预测(股票价格预测)效果一览......
回归预测 | MATLAB实现Bayes-LSTM(贝叶斯优化长短期记忆神经网络)多输入单输出
回归预测|MATLAB实现Bayes-LSTM(贝叶斯优化长短期记忆神经网络)多输入单输出目录回归预测|MATLAB实现Bayes-LSTM(贝叶斯优化长短期记忆神经网络)多输入单输出......
拓端数据tecdat|WinBUGS代写对多元随机波动率模型：贝叶斯估计模型比较
在本文中，我们通过一个名为WinBUGS的免费贝叶斯软件，可以很容易地完成基于似然的多变量随机波动率（SV）模型的估计和比较。通过拟合每周汇率的双变量时间序列数据，......
朴素贝叶斯——实现垃圾邮件分类
一、贝叶斯定理贝叶斯定理由英国数学家贝叶斯(ThomasBayes1702-1761)发展，用来描述两个条件概率之间的关系，比如P(A|B)和P(B|A)。按照乘法法则，可以立刻导出：P(A∩B......
拓端tecdat|R语言代写Gibbs抽样的贝叶斯简单线性回归仿真分析
贝叶斯分析的许多介绍都使用了相对简单的教学实例（例如根据伯努利数据给出成功概率的推理）。虽然这可以很好地介绍贝叶斯原理，但是将这些原理扩展到回归并不是直接的。这篇文......
拓端tecdat|R语言辅导stan进行贝叶斯推理分析
R语言stan进行贝叶斯推理分析 R的Stan可以从许多统计软件包中运行Stan。到目前为止，我一直在从R运行Stan，首先按照快速入......
拓端tecdat|python贝叶斯随机过程：马尔可夫链Markov-Chain，MC和Metropolis-Hastings，MH采
介绍本文，我们说明了贝叶斯学习和计算统计一些结果。 frommathimportpi frompylabimport*马尔可夫链的不变测度考虑一个高斯AR(1)过程，，其中是标准高......
R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资|附代码数据
全文链接：http://tecdat.cn/?p=24141最近我们被客户要求撰写关于贝叶斯线性回归的研究报告，包括一些图形和统计输出。在本文中，贝叶斯模型提供了变量选择技术，确保变量选择的......
机器学习--贝叶斯分类算法及应用
1.朴素贝叶斯分类算法原理1.1概述贝叶斯分类算法是一大类分类算法的总称贝叶斯分类算法以样本可能属于某类的概率来作为分类依据朴素贝叶斯分类算法是贝叶斯分类算法中最......
朴素贝叶斯算法
一，朴素贝叶斯算法理论基础朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练集，首先基于特征条件独立假设学习输入输出的联合概率分布（朴素贝叶......

贝叶斯

一、概述

1.1 数学公式

二、利用贝叶斯进行文本分析

2.1 文本向量化

2.2 数据源查看

2.2.1 核心数据源

2.2.1 停用词库

2.3 代码展示

相关文章

赞助商

阅读排行