首页 > 编程语言 >difflib: Python 比较数据集

difflib: Python 比较数据集

时间:2024-05-08 15:26:05浏览次数:24  
标签:函数 get Python SequenceMatcher difflib matches close 数据

difflib 是一个专注于比较数据集(尤其是字符串)的 Python 模块。为了具体了解您可以使用此模块完成的几件事,让我们检查一下它的一些最常见的函数。

SequenceMatcher

SequenceMatcher 是一个比较两个字符串并根据它们的相似性返回数据的函数。通过使用 ratio(),我们将能够根据比率/百分比量化这种相似性

语法:

SequenceMatcher(None, string1, string2)

下面这个简单的例子展示了该函数的作用:

from difflib import SequenceMatcher

phrase1 = "Tandrew loves Trees."
phrase2 = "Tandrew loves to mount Trees."
similarity = SequenceMatcher(None, phrase1, phrase2)
print(similarity.ratio())
# Output: 0.8163265306122449

get_close_matches

接下来是 get_close_matches,该函数返回与作为参数传入的字符串最接近的匹配项。
语法:

get_close_matches(word, possibilities, result_limit, min_similarity)

下面解释一下这些可能有些混乱的参数:

  • word 是函数将要查看的目标单词。
  • possibilities 是一个数组,其中包含函数将要查找的匹配项并找到最接近的匹配项。
  • result_limit 是返回结果数量的限制(可选)。
  • min_similarity 是两个单词需要具有的最小相似度才能被函数视为返回值(可选)。

下面是它的一个使用示例:

from difflib import get_close_matches

word = 'Tandrew'
possibilities = ['Andrew', 'Teresa', 'Kairu', 'Janderson', 'Drew']

print(get_close_matches(word, possibilities))
# Output: ['Andrew']

除此之外还有几个是您可以查看的属于 Difflib 的其他一些方法和类:unified_diffDiffer和 diff_bytes

标签:函数,get,Python,SequenceMatcher,difflib,matches,close,数据
From: https://www.cnblogs.com/luckzack/p/18179899

相关文章

  • string:Python的文本常量与字符串模板
    前言在程序中,有很多高效率的字符串处理方式,如果开发者能够完全掌握这些高效的字符串处理,往往在开发者也能事半功倍。比如针对于字符串的处理,也是自然语言处理的基础知识。而python3中,处理字符串的库为:string。本篇将详细介绍各种字符串的高效处理方式。首字母大写对于英文单词......
  • time:Python的时间时钟处理
    前言time库运行访问多种类型的时钟,这些时钟用于不同的场景。本篇,将详细讲解time库的应用知识。获取各种时钟既然time库提供了多种类型的时钟。下面我们直接来获取这些时钟,对比其具体的用途。具体代码如下:importtimeprint(time.monotonic())print(time.monotonic_ns())pri......
  • Python基础之程序与用户交互
    程序与用户交互【一】什么是与用户交互交互就是输入和输出input输入数据,print输出数据【二】为什么要与用户交互将计算机拟人化,实现像人一样能和用户进行交流我们需要一个平台,也就是计算机来支持用户实现数据的输入和输出【三】如何与用户交互【1】输入(input)(1)Python3......
  • datetime:Python日期与时间值管理计算
    前言datetime库也用于时间日期的处理,主要用于完成日期和时间的解析,格式化和算术运算。本篇,将完整的介绍datetime库的应用知识。datetime.date与time库一样,datetime库也有获取当前日期的类,日历日期值用datetime.date表示。比如datetime.date.today()。具体代码如下:importdate......
  • calendar:Python日历的处理与生成
    前言calendar库让你可以输出日历,它还提供了其它与日历相关的实用函数。本篇,就将详细讲解calendar库的使用规则。prmonth()与TextCalendar()prmonth()是一个简单的函数,可以生成月的格式文本输出。具体用法如下所示:importcalendarc=calendar.TextCalendar(calendar.MONDAY)......
  • textwrap:Python格式化文本段落
    前言前文是针对普通的字符串数据进行处理。今天,我们要讲解的textwrap库,是对多文本进行处理的库。比如对于段落的缩进,填充,截取等,都可以通过textwrap库进行操作。特别是自己编写打印程序的时候,可以使用该库进行校正文档非常便捷,大大的加快了文本格式的处理。话不多说,我们来一步步......
  • os.path:Python操作和处理文件路径
    前言os.path是平台独立的文件名管理库,使用该库能够很方便来处理多个平台上的文件。即使程序不打算在平台之间移值,也应当使用os.path库来完成可靠的文件名解析。本篇博文将详细介绍os.path库的用法。解析路径的基本用法os.path中的第一组函数可以用来将表示文件名的字符串解析......
  • pymongo:Python下 MongoDB 的存储操作
    1.连接mongodb#########方法一##########importpymongo#MongoClient()返回一个mongodb的连接对象clientclient=pymongo.MongoClient(host="localhost",port=27017)#########方法二##########importpymongo#MongoClient的第一个参数host还可以直接传MongoDB......
  • struct:Python二进制数据结构
    在C/C++语言中,struct被称为结构体。而在Python中,struct是一个专门的库,用于处理字节串与原生Python数据结构类型之间的转换。本篇,将详细介绍二进制数据结构struct的使用方式。函数与Struct类struct库包含了一组处理结构值得模块级函数,以及一个Struct类。格式指示符将由字符串格......
  • NumPy:Python科学计算基础包
    NumPy是Python科学计算的基础包,几乎所有用Python工作的科学家都利用了的强大功能。此外,它也广泛应用在开源的项目中,如:Pandas、Seaborn、Matplotlib、scikit-learn等。Numpy全称NumericalPython。它提供了2种基本的对象:ndarray与ufunc。ndarray是存储单一数据的多维数组,它......