首页 > 其他分享 >利用杰卡德系数计算文本相似度

利用杰卡德系数计算文本相似度

时间:2022-10-17 11:14:44浏览次数:51  
标签:系数 卡德 Jaccard 相似 集合 文本

利用杰卡德系数计算文本相似度

发布于2022-06-01 08:26:33阅读 2140

1. 杰卡德相似系数

两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的杰卡德系数,用符号 J(A,B) 表示。

Jaccard相似指数用来度量两个集合之间的相似性。

2. 杰卡德距离

与杰卡德相似系数相反的概念是杰卡德距离(Jaccard Distance),可以用如下公式来表示:

杰卡德距离用两个两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。

Jaccard距离用来度量两个集合之间的差异性。

3. 使用场景

对字 / 词的顺序不敏感的文本,比如 “北京首都” 和“首都北京”,可以很好地兼容。

长文本,比如一篇论文,甚至一本书。如果两篇论文相似度较高,说明交集比较大,很多用词是重复的,存在抄袭嫌疑。

4. 不适用场景

重复字符较多的文本,比如 “空气很很很很很很很很很很好” 和“空气很好好好好好好好好好好”,这两个文本有很多字不一样,直观感受相似度不会太高,但计算出来的相似度却是 100%(交集 = 并集)。

对文字顺序很敏感的场景,比如 “一八三六年” 和“一六八三年”,杰卡德相似度是 100%,意思却完全不同。

标签:系数,卡德,Jaccard,相似,集合,文本
From: https://www.cnblogs.com/shudazhaofeng/p/16798450.html

相关文章

  • PO PR 读取文本的特殊性
    货铺QQ群号:834508274进群统一修改群名片,例如BJ_ABAP_森林木。群内禁止发广告及其他一切无关链接,小程序等,进群看公告,谢谢配合不修改昵称会被不定期踢除,谢谢配合下面开始干货:......
  • 文本编辑器VIM
    文本编辑器vimvim命令格式:vim选项参数常用选项:+#打开文件后,让光标处于第#行的行首,+默认行尾+/PATTERN让光标处于第一个被PATTERN匹配到的行行首-bfile二进制方......
  • Ant design——message防抖优化——富文本的使用——富文本数据的收集——上传图片保
    button按钮有个loading加载态度。加载状态为true则不可点击。通过这个属性来完成项目中的防抖优化const[seachBtn,setSeachBtn]=useState(false)message.error("用户名不......
  • ES中的一些基本概念以及和关系数据库对比
    以下总结点为自己思路总结,有不正确地方,请斧正。ES中的基本概念一……索引索引:存放在ES中同一个类型文档的集合叫做ES中的索引,类似于关系数据库中的TableES中的基......
  • c语言文本操作
    (视频参考:b站up主:c语言小白进阶之路  c语言文件操作)文件分类:文本文件和二进制文件文本文件:保存的时候,每一个字符对应一个字节二进制文件:按照二进制编码保存的文件......
  • C#使用StreamReader类和StreamWriter类读写文本文件
    StreamReader类和StreamWriter类可以实现读写文本文件,这两个类都在命名空间System.IO下。usingSystem;usingSystem.Collections.Generic;usingSystem.ComponentModel;usi......
  • 中文文本分类的一些理解
    这个embedding_SougouNews.npz,和.pkl的作用如下所示! 下图中的三段数值:嵌入向量,类别编号,句子长度;  ......
  • 2022-10-15 react+react-draft-wysiwyg之富文本编译器安装过程
    npminstall--savereact-draft-wysiwygnpminstall--savedraft-jsnpminstall--savedraftjs-to-htmlnpminstall--savehtml-to-draftjs需要引入以下文......
  • FireFox选取文本快捷键
    光标放在文本上,双击选取以标点符号为开头和结尾中间的文字或单词,三击选取整段文字。近义词思维和其它浏览器进行对比,例如QQ浏览器等。QQ浏览器双击的时候只能选取词语或......
  • 文件中文本提取
    由于最近在写一个全文检索的项目,需要添加对非结构化数据源的数据采集,所以就暂时整理一下对常见文件的文本数据提取。引入依赖//文件数据提取implementation'org.apach......