首页 > 其他分享 >中文标题相似度检测

中文标题相似度检测

时间:2023-02-16 22:33:43浏览次数:47  
标签:中文 Word2Vec 检测 标题 单词 dwc 算法 相似 余弦

前言

对中文标题使用余弦相似度算法编辑距离相似度分析进行相似度分析。

准备数据集part1

本次使用的数据集来源于前几年的硕士学位论文,可根据实际需要更换。结构如下所示:

学位论文题名
基于卷积神经网络的人脸识别研究
P2P流媒体视频点播系统设计和研究
校园网安全体系的设计与实现
无线传感器网络中基于多中继切换的CARQ方案性能分析
RFID和VLPR技术在酒钢智能门禁系统中的应用

...

基于MapReduce的Web链接结构分析算法研究
环形交叉口混合交通流元胞自动机模型研究
细菌觅食算法的优化及其在车间调度中的应用研究
基于多载体图像的通用隐写分析方法研究
基于加权网络的传染病免疫策略研究

文件名:data.csv

编码格式:UTF-8

import pandas as pd
data = pd.read_csv('data.csv')
data = data['学位论文题名']

准备数据集part2

分词是一种常用的文本预处理技术,它可以为后续的文本分析和处理提供便利。例如,对于文本分类任务,可以使用分词将文本转换为词的序列,然后训练分类器来对词的序列进行分类。

在进行分词时,通常会去掉一些无意义的词,称为停词。停词是指那些对文本分析没有太多意义的词,例如,冠词、连词、介词等。去除停词可以提高分词的准确性,并使文本分析的结果更加清晰明了。
停词文本集结构如下所示,停词库根据文件名在网上很容易找到:

$
0
1
2
3
4

...

顺
顺着
首先
!
,
:
;
?

文件名:cn_stopwords.txt

编码格式:UTF-8

with open('cn_stopwords.txt', 'r', encoding='utf-8') as f: 
    stop_words = [word.strip() for word in f.readlines()]
  • 执行分词和去停词
import jieba
res = []
for i in data:
    ii = i
    wordCut = list(jieba.cut(ii))
    for j in wordCut:
        if j in stop_words:
            wordCut.remove(j)
    res.append(wordCut)
  • 保存结果
import pickle
with open('word_cut.dat', mode='wb') as f:
    pickle.dump(res, f)

这里使用pickle保存,是因为如果使用pandas,保存的数据是带了双引号的(代表字符串),后续处理不便,因此采用序列化存储。

余弦相似度算法

余弦相似度算法是一种计算两个向量之间相似度的方法,常用于自然语言处理和推荐系统等领域。

余弦相似度算法的基本思想:计算两个向量的夹角余弦值,作为它们的相似度。两个向量的夹角余弦值越接近1,它们的相似度就越高;反之,如果两个向量的夹角余弦值接近0,它们的相似度就越低。

加载数据

with open('word_cut.dat', mode='rb') as f:
    dwc = pickle.load(f) # dwc 意为 Data of Word Cut

使用Word2Vec模型生成单词向量

在Word2Vec模型中,单词被表示为一个向量,并且这些向量是通过学习单词在上下文中的出现概率而生成的。skip-gram和CBOW是用于训练Word2Vec模型的两种不同的算法,它们都可以用来生成单词向量。

在使用Word2Vec模型进行自然语言处理任务时,可以使用余弦相似度算法来计算单词向量之间的相似度。例如,可以使用余弦相似度算法来寻找与给定单词最相似的其他单词,或者用来比较两个文本之间的相似度。

需要注意的是,Word2Vec模型和余弦相似度算法在不同的级别上操作。Word2Vec模型生成单词向量,而余弦相似度算法用于比较单词向量之间的相似度。因此,它们通常被结合使用来解决自然语言处理任务。

from gensim.models import Word2Vec
model = Word2Vec(dwc, sg=1, vector_size=100, window=5, min_count=1, negative=3, sample=0.001, hs=1,
                         workers=4)

Word2Vec模型有着众多参数,这里仅介绍用到的一部分,详情见官方文档

参数名 描述
sg {0, 1}, 可选 训练算法:1为skip-gram;否则为CBOW
vector_size int, 可选 单词向量的维数
windows int, 可选 句中当前单词和预测单词之间最大距离
min_count int, 可选 忽略总频率低于此值的所有单词
negative int, 可选 如果>0,将使用负采样,负的int指定应绘制多少个“噪声词”(通常在5-20之间)。如果设置为0,则不使用负采样
sample float, 可选 用于配置被随机采样的高频词,有效范围:(0,1e-5)
hs {0, 1}, 可选 如果为1,则分层softmax将用于模型训练。如果0,且负值为非零,则将使用负采样
workers int, 可选 使用这些工作线程来训练模型(相当于多核机器的更快训练)。

保存/加载训练结果

model.save('model.dat')             # 保存模型
model = Word2Vec.load('model.dat')  # 加载模型

计算相似度

limit = 0.99    # 相似度阈值
k = len(dwc)
st = [] # 意为Similar Title
for i in range(k):
    for j in range(i + 1, k):
        sim = model.wv.n_similarity(dwc[i], dwc[j])  # 计算两个标题间的相似度
        if sim > limit:     # 相似度高于阈值的加入结果
            temp = [dwc[i], dwc[j], sim]
            st.append(temp)
for i in st:
    print(i)

部分结果如下:

['卷积,神经网络,人脸识别,研究', '双目,测距,机器人,研究', 0.99172336]
['P2P,流媒体,视频点播,系统,设计,研究', '部队,数字化,营区,设计,实现', 0.9933342]
['P2P,流媒体,视频点播,系统,设计,研究', '属性,环,签密,NDN,敏感,信息,保护,方案', 0.99131924]
['P2P,流媒体,视频点播,系统,设计,研究', '社交,关系,流行病,传播,免疫,机制,研究', 0.9944775]
['P2P,流媒体,视频点播,系统,设计,研究', 'WSN,节能型,数据压缩,方法,研究', 0.99563485]

编辑距离相似度算法

算法介绍
编辑距离相似度算法是一种计算两个字符串之间相似度的方法,常用于自然语言处理和信息检索等领域。

编辑距离相似度算法的基本思想是,计算两个字符串之间的最小编辑次数,作为它们的相似度。两个字符串之间的最小编辑次数越少,它们的相似度就越高;反之,如果两个字符串之间的最小编辑次数越多,它们的相似度就越低。

import Levenshtein
limit2 = 5     # 相似度阈值
k = len(dwc)
st2 = dict()
for i in range(k):
    for j in range(i + 1, k):
        title1 = ''.join(dwc[i])
        title2 = ''.join(dwc[j])
        sim = Levenshtein.distance(title1, title2)
        if sim < limit2:    # 相似度低于阈值的加入结果
            key = title1 + ' ' + title2
            st2[key] = sim
sim_rk = sorted(st2.items(), key=lambda x: x[1])   # 根据相似度增序排序
for i in sim_rk:
    print(i)

结果如下:

('稀疏,表示,目标,跟踪,算法,研究 稀疏,表示,目标,跟踪,算法,研究', 0)
('稀疏,表示,目标,跟踪,算法,研究 稀疏,表示,目标,跟踪,方法,研究', 1)
('稀疏,表示,目标,跟踪,方法,研究 稀疏,表示,目标,跟踪,算法,研究', 1)
('自,适应,有限元,方法,三维,相场,模型模拟,研究 自,适应,有限元,方法,相场,模型模拟,研究', 3)
('多,特征,融合,粒子,滤波,跟踪,算法,研究 特征,适应,融合,粒子,滤波,跟踪,算法,研究', 4)
('模糊,软集,多,属性,决策,方法,研究 软集,理论,多,属性,决策,方法,研究', 4)

总结

在Python中,使用这两种算法能够简单实现文本分析。

标签:中文,Word2Vec,检测,标题,单词,dwc,算法,相似,余弦
From: https://www.cnblogs.com/zh-jp/p/17128539.html

相关文章

  • 「小说」还没想好标题
    Section1“lzx同学?请问……现在有空吗?”那是在一节不能再普通的程序设计课之后。正当我合上笔记本电脑,打了个哈欠,准备收拾东西走人时,一个温柔的声音从背后叫住了我。我......
  • 解决C#读写txt文件中文(汉字)乱码的问题
    不少朋友遇到用System.IO.StreamReader读取包含汉字的txt文件时,经常会读出乱码(StreamWriater写文本文件也有类似的问题),原因很简单,就是文件的编码(encoding)和StreamReader/W......
  • ChatGPT中文免费小程序(AI GPGT智能助手) - ChatGPT国内小程序版在线使用
    ChatGPT中文网是一个面向中国用户的聊天机器人网站,旨在为国内用户提供一个自然的环境、有趣、实用的聊天体验。它使用最新的自然语言处理技术来帮助用户更好地理解他们的聊......
  • React 使用input限制字符长度时,部分手机(ios)输入中文时出现英文拼音
    1.在使用input的onInput方法时,控制字符长度尽量使用inputmaxLength属性进行控制不能使用以下方式handleOnInput=()=>{letfilterText=(e.target.value||'').r......
  • mysql 支持中文
    1.创建表的时候添加createtableentries2(idintauto_increment,titletext,contenttext,posted_ondatetime,prim......
  • 对服务器进行心跳检测 python django
    (由于春节期间连不上服务器,但又不知道是不是服务器关机了,因此写一个心跳检测功能遇到问题时可以排查部分原因)具体来说分为客户端和服务端,客户端为校园服务器,服务端为我们自......
  • USB hub检测过程
    一、USB的电气特性参考链接:USB协议在电气结构上,USB设备与主机的连接也很有讲究:  主机端的D-和D+数据线各自被串联15KR电阻下拉到地,当没有USB设备插入的时候,这两条......
  • 检测Beacon c2网络特征
    Azure-Sentinel/Detections/CommonSecurityLog/Fortinet-NetworkBeaconPattern.yaml  RawBlame  id:3255ec41-6bd6-4f35-84b1-c032b18bbfcb......
  • python 数据写入yaml 文件中文和排序问题
    前言数据写入yaml文件时遇到的一些问题总结,主要是中文问题和字典的排序问题。环境准备python3.8版本PyYAML版本6.0使用示例将一段python的字典类型,转成yaml文件i......
  • 海康Ehome设备接入EasyCVR平台的设备状态定时检测优化
    EasyCVR视频融合平台基于云边端协同架构,能支持海量视频的轻量化接入与汇聚管理,借助大数据分析的决策判断,为摄像头、网络存储设备、智能终端、视频监控平台等提供一体化的视......