首页 > 其他分享 >通过结巴分词 sklearn判断语句和例句集合最相近的句子

通过结巴分词 sklearn判断语句和例句集合最相近的句子

时间:2023-11-27 18:55:05浏览次数:29  
标签:1.1 例句 text question QAX 分词 句子 sklearn

`
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
templates = [
"分析一下攻击队QAX的攻击行为",
"分析一下防守单位QAX的防守情况",
"分析一下目标资产1.1.1.1相关的攻击行为",
"攻击队QAX在防守单位QAX1上得了多少分",
"防守单位QAX1在x类威胁上累计扣分多少分",
"靶标系统有哪些",
"1.1.1.1是否是靶标系统",
"攻击IP1.1.1.1属于哪个攻击队",
]

结巴分词切割句子得到关键字列表

def tokenize(text):
return list(jieba.cut(text))

question = args.get("question", "")
logging.info(f"==输入的问题=: {question}")
# 使用TF-IDF向量化文本
vectorizer = TfidfVectorizer(tokenizer=tokenize)
vectors = vectorizer.fit_transform([question] + templates)
# 计算相似度
similarities = cosine_similarity(vectors[0], vectors[1:]).flatten()

  # 找到最相似的句子
  most_similar_index = similarities.argmax()
  key = templates[most_similar_index]
  return key

`

标签:1.1,例句,text,question,QAX,分词,句子,sklearn
From: https://www.cnblogs.com/gatling/p/17860129.html

相关文章

  • ElasticSearch-集成ik分词器
    目录背景介绍版本选择优势说明集成过程1.下载安装包2.解压安装包3.重启ElasticSearch服务3.1通过ps-ef|grepelastic查看正在启动的es进程号3.2使用kill-9xxx杀死进程3.3使用./elasticsearch启动es服务分词测试细粒度分词方式分词请求分词结果粗粒度分词方式分词请求分词......
  • 5. Sklearn岭回归
    1.线性回归\[w=(X^TX)^{-1}X^TY\]对于矩阵X,若某些列线性相关性较大(即训练样本中某些属性线性相关),就会导致\(X^TX\)的值接近0,在计算\((X^TX)^{-1}\)时就会出现不稳定性。结论:传统的基于最小二乘的线性回归法缺乏稳定性2.岭回归通常情况下会引入正则化(regularization)......
  • 4.Sklearn多项式回归
    1.多项式回归介绍在一元回归分析中,如果依变量y与自变量X的关系为非线性的,但是又找不到适当的函数曲线来拟合,则可以采用一元多项式回归多项式回归的最大优点就是可以通过增加X的高次项对实测点进行逼近,直至满意为止。事实上,多项式回归可以处理相当一类非线性问题,它在回归分析中......
  • 3.Sklearn-一元线性回归
    1.导入包importnumpyasnpimportmatplotlib.pyplotaspltfromsklearnimportlinear_model2.加载训练数据#建立datasets_X和datasets_Y用来存储数据中的房屋尺寸和房屋成交价格。datasets_X=[]datasets_Y=[]fr=open('prices.txt','r')lines=fr.readline......
  • 2.Sklearn库标准数据集及基本功能
    1.sklearn数据集波士顿房价数据集波士顿房价数据集包含506组数据,每条数据包含房屋以及房屋周围的详细信息。其中包括城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等。因此,波士顿房价数据集能够应用到回归问题上。使用sklearn.dataset......
  • sklearn-决策树
    目录决策树算法关键特征维度&判别条件决策树算法:选择决策条件纯度的概念信息增益增益率:基尼指数:纯度度量方法1)纯度函数%20%E7%BA%AF%E5%BA%A6%E5%87%BD%E6%95%B0)2)纯度度量函数%20%E7%BA%AF%E5%BA%A6%E5%BA%A6%E9%87%8F%E5%87%BD%E6%95%B0)编辑决策树算法关键了解了“if-else”......
  • docker 配置 ElasticSearch + Kibana + ik分词器
    docker配置ElasticSearch+Kibana+ik分词器下载镜像文件dockerpullelasticsearch:7.4.2#存储和检索数据dockerpullkibana:7.4.2#可视化检索数据创建实例配置外置挂在目录,echo这一行命令配置可以被任意主机访问mkdir-p/mydata/elasticsearch/configmkdir-p/......
  • Python中文分词、词频统计并制作词云图
    中文分词、词频统计并制作词云图是统计数据常用的功能,这里用到了三个模块快速实现这个功能。中文分词、词频统计importjiebafromcollectionsimportCounter#1.读取文本内容并进行分词withopen('demo.txt',mode='r',encoding='gbk')asf:report=f.read()words......
  • ElasticSearch 拼音分词和自动补全
    在搜索过程中,大部分情况下会有智能提示功能,也就是开头匹配的自动补全功能,这就需要用到ElasticSearch的Suggest查询功能。用户也可能输入拼音或者查询关键字的首字母简写,比如我想查询华为手机,我可以输入hwsj进行查询,这就需要用到拼音分词器。本篇博客将介绍如何安装拼音分词......
  • Java 实现结巴分词
    pom.xml引入结巴分词maven依赖<dependency> <groupId>com.huaban</groupId> <artifactId>jieba-analysis</artifactId> <version>1.0.2</version></dependency>测试@Testpublicvoidtest(){StringgoodsNa......