jieba分词+sk-learn计算样本问题最相似的问题

时间：2024-03-26 17:01:15浏览次数：25

标签：jieba similarity text 钓鱼 question sk 相似 learn

场景:
输入一段内容, 找到问题集中跟该内容最相似的问题

import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity


templates = [
    "出来钓鱼了喂",
    "王大腚爱钓鱼",
    "格小格爱爱钓鱼",
    "天元邓刚",
    "爱钓鱼的超哥",
    "王大苗钓鱼",
    "王小羽",
    "丽鱼杆",
]

# 结巴分词切割句子得到关键字列表
def tokenize(text):
    return list(jieba.cut(text))

# 计算相似度并找到最大相似度
vectorizer = TfidfVectorizer(tokenizer=tokenize)
vectors = vectorizer.fit_transform([question] + templates)
similarities = cosine_similarity(vectors[0], vectors[1:]).flatten()
# 最相似的问题集的索引
most_similar_index = similarities.argmax()
max_similarity = similarities[most_similar_index]
logging.info("原始问题{}:".format(question))
logging.info("{}: 最高匹配度: {}".format(question, max_similarity))
# 命中的最相似问题
target_question = templates[most_similar_index]

标签：jieba,similarity,text,钓鱼,question,sk,相似,learn
From： https://www.cnblogs.com/gatling/p/18097079

ArcGIS Desktop使用入门（二）常用工具条——地理配准
系列文章目录ArcGISDesktop使用入门（一）软件初认识ArcGISDesktop使用入门（二）常用工具条——标准工具ArcGISDesktop使用入门（二）常用工具条——编辑器ArcGISDesktop使用入门（二）常用工具条——数据驱动页面ArcGISDesktop使用入门（二）常用工具条——基础工具ArcGISDesktop......
【MATLAB源码-第15期】基于matlab的MSK的理论误码率与实际误码率BER对比仿真，采用差分
操作环境：MATLAB2022a1、算法描述在数字调制中，最小频移键控（Minimum-ShiftKeying，缩写：MSK）是一种连续相位调制的频移键控方式，在1950年代末和1960年代产生。[1]与偏移四相相移键控（OQPSK）类似，MSK同样将正交路基带信号相对于同相路基带信号延时符号间隔的一半，从而消除了已调信号......
【MATLAB源码-第16期】基于matlab的MSK定是同步仿真，采用gardner算法和锁相环。
操作环境：MATLAB2022a1、算法描述**锁相环（PLL）**是一种控制系统，用于将一个参考信号的相位与一个输入信号的相位同步。它在许多领域中都有应用，如通信、无线电、音频、视频和计算机系统。锁相环通常由以下几个关键组件组成：1.**相位比较器（PhaseComparator）：**这个组件比较输......
std::packaged_task
std::packaged_task包装一个可调用的对象，并且允许异步获取该可调用对象产生的结果，从包装可调用对象意义上来讲，std::packaged_task与std::function类似，只不过std::packaged_task将其包装的可调用对象的执行结果传递给一个std::future对象（该对象通常在另外一个线程中获取st......
淘宝item_sku-获取sku详细信息AIP接口（taobao.item_sku）布局技巧：3个技巧教你凸显商品sku
淘宝的taobao.item_sku API接口是用于获取淘宝商品中SKU（StockKeepingUnit，库存量单位）的详细信息的。SKU通常代表一个商品的不同属性组合，比如颜色、尺码等。对于商家和消费者来说，了解SKU的详细信息是非常重要的，因为它可以帮助他们更准确地了解商品的具体属性和库存情况。通......
As a reader --> Deep PackGen： A Deep Reinforcement Learning Framework for Adversa
......
最小生成树：Kruskal算法和Prim算法
首先区别一下图跟树：树不会包含环，图可以包含环。图的生成树其实就是在图中找一棵包含图中的所有节点的树。专业点说，生成树是含有图中所有顶点的无环连通子图。最小生成树就是再所有可能的生成树中，权重和最小的那棵生成树就叫最小生成树(注意：最小生成树有n-1条边)。Kruskal算法......
jieba 分词器包的导入
anaconda安装jieba（被折腾了很久）终于搞定_anaconda离线安装jieba-CSDN博客在命令窗口pip的时候老师说让更新后面并且更新失败 ......
【python】flask执行上下文context，请求上下文和应用上下文原理解析
✨✨欢迎大家来到景天科技苑✨✨......
【MATLAB源码-第13期】基于matlab的4ASK的误码率BER和误符号率SER理论和实际对比仿真
操作环境：MATLAB2022a1、算法描述"4ASK"是一种数字调制技术，代表4级振幅移移键控（4-LevelAmplitudeShiftKeying）调制。它是一种数字通信中常用的调制方式之一，用于将数字信号转换为模拟信号以便传输，或者将模拟信号转换为数字信号以便处理。在4ASK调制中，每个数字比特被映射......

jieba分词+sk-learn计算样本问题最相似的问题

相关文章

赞助商

阅读排行