python Levenshtein—计算字符串相似性

时间：2023-05-28 20:35:10浏览次数：55

标签：cutoff python s2 s1 Levenshtein 序列 score 相似性

参考：https://maxbachmann.github.io/Levenshtein/

Levenshtein 距离，也称编辑距离，是一种字符串度量，用于衡量两个序列之间的差异。通俗地说，两个字符串之间的 Levenshtein 距离是将一个字符串更改为另一个字符串所需的最小单字符编辑（插入、删除或替换）次数。python Levenshtein中包括以下module：

1. distance—计算将一个序列更改为另一个序列所需的最少插入、删除和替换次数

Levenshtein.distance(s1, s2, *, weights=(1, 1, 1), processor=None, score_cutoff=None)

参数解释：

s1,s2：表示要比较的两条序列
weights: 插入、删除或替换操作的权重。默认是(1, 1, 1)
score_cutoff: 设置s1和s2之间的最大距离。如果距离大于score_cutoff，则返回score_cutoff+1

返回两个序列整数类型的距离值

>>> import Levenshtein
>>> Levenshtein.distance("abdcderg","adcg")
4

2. ratio—计算 [0, 1] 范围内的归一化插入缺失相似度。

Levenshtein.ratio(s1, s2, *, processor=None, score_cutoff=None)

参数解释：

s1,s2：表示要比较的两条序列
score_cutoff: 分数阈值的可选参数，0 到 1.0 之间的浮点数。对于 norm_sim < score_cutoff ，则返回0

返回两个序列[0,1]范围的标准化相似性，其值等于1 - normalized_distance

>>> Levenshtein.ratio("abdcderg","adcg")
0.6666666666666667
>>> Levenshtein.ratio("abdcderg","adcg",score_cutoff=0.7)
0.0

3. hamming—计算两个长度相同的字符串之间的汉明距离

汉明距离是指两个序列不同的位置个数。它描述了将s1 转换为 s2 所需的最小替换量。

Levenshtein.hamming(s1, s2, *, processor=None, score_cutoff=None)

参数解释：

s1,s2：表示要比较的两条序列
score_cutoff: 设置s1和s2之间的最大距离。如果距离大于score_cutoff，则返回score_cutoff+1

>>> Levenshtein.hamming("abdcd","adged")
3
>>> Levenshtein.hamming("abdcderg","adcg") #这里比较奇怪的是，我使用两个不同长度的s1和s2，并不会报错，这与官网的说法不一致。
7

标签：cutoff,python,s2,s1,Levenshtein,序列,score,相似性
From： https://www.cnblogs.com/chaimy/p/17429041.html

安装不同版本的Python，并用不同指令运行想要运行的那个版本的python
1、安装所需版本的Python，注意与其他版本的Python放在不同的文件夹下；例如这里我分别安装了Python2.7和Python3.7在D盘的两个文件夹中。2、设置这两个Python的环境变量，分别定位到这两个版本python.exe所在的目录下 3、将两个目录下的python.exe分别修改为python2.exe和python3......
Python asyncio之协程学习总结
实践环境Python3.6.2什么是协程协程(Coroutine)一种电脑程序组件，该程序组件通过允许暂停和恢复任务，为非抢占式多任务生成子程序。协程也可以简单理解为协作的程序，通过协同多任务处理实现并发的函数的变种(一种可以支持中断的函数）。下面，我们通过日常生活场景为例，对什么是协程......
python内置库--secrets
1关于secretssecrets模块用于生成高度加密的随机数，安全性比较高，应用方面有生成安全的随机数、生成密码字符串等python官方也推荐最好用secrets替代random模块，random模块生成的是一种伪随机数，基于系统时钟和其它可预测原理生成，不是真正随机和安全的2相关函数和类class......
报错ImportError: cannot import name 'Iterable' from 'collections' in Python
参考https://stackoverflow.com/questions/72032032/importerror-cannot-import-name-iterable-from-collections-in-python答案为3.10版本的python把Iterable从collections去除了，原答案粘贴如下：文字版和截图 TheIterableabstractclasswasremovedfromcollectionsin......
使用Python实现分布式爬虫
使用Python实现分布式爬虫在Web爬虫中，分布式爬虫已经成为一种流行的技术，可以帮助我们快速地收集互联网上的数据。下面我们将介绍如何使用Python实现分布式爬虫。什么是分布式爬虫？分布式爬虫是指将爬虫任务分配给多个计算机节点执行，以提高爬取效率和稳定性的一种技术。分布式爬虫通......
python - 进程与线程 -2
1.线程一个进程可以包含多个线程，一条线程就是进程中一个单一顺序的控制流。一个进程中可以并发多个线程，每条线程执行不同的任务。1.1使用Thread创建线程importthreadingimporttimedeftask():foriinrange(3):time.sleep(1)print(f"线程名：{th......
Python+Requests零基础系统掌握接口自动化测试
Python+Requests零基础系统掌握接口自动化测试download：3wzxit666com设计高性能的售票系统在当今数字化时代，一个高性能的售票系统对于任何企业或机构来说都是至关重要的。无论该系统服务于电影院、剧院、运输公司还是其他类型的场所，它必须始终可靠、快速和易于使用。以下是几个要......
python -- 解决连接sqlserver出现的“ pymssql._pymssql.OperationalError: (20009, b
因为工作关系，近期需要用python连接sqlserver处理一些数据问题。由于笔记本上的软件是新安装的，所以有些配置避免不了重新设置，期间遇到一些小问题，记录一下。下面正式开始写一段代码，测试sqlserver数据库连接importpymssql#写法1#conn=pymssql.connect(host='localho......
python3-int
1、介绍builtins.py文件中定义了int类，用于处理python中整数数据。int也是python的基本数据类型之一。2、类和初始化classint(object):def__init__(self,x,base=10):3、初始化（1）字面量初始化支持十进制、二进制、八进制和十六进制#十进制#a=15#a1=-15#......
python3-bool
1、介绍builtins.py文件中定义了bool类，用于处理python中逻辑真和假。bool也是python的基本数据类型之一。2、类和初始化classbool(int):def__init__(self,x):pass3、初始化（1）字面量初始化可选值为True和False，注意大小写敏感a=Truea1=Falseprint......

python Levenshtein—计算字符串相似性

1. distance—计算将一个序列更改为另一个序列所需的最少插入、删除和替换次数

2. ratio—计算 [0, 1] 范围内的归一化插入缺失相似度。

3. hamming—计算两个长度相同的字符串之间的汉明距离

相关文章

赞助商

阅读排行