首页 > 其他分享 >Further Generalizations of the Jaccard Index

Further Generalizations of the Jaccard Index

时间:2024-05-23 21:51:11浏览次数:21  
标签:Index frac Jaccard cap Further mathcal Generalizations ldots

目录

Costa L. Further generalizations of the jaccard index. 2021.

本文介绍了 Jaccard Index (Jaccard Similarity), 和它的一些变种.

Jaccard Index

  • 对于两个普通的集合 \(A, B\), 它们的 Jaccard Index 为

    \[J(A, B) = \frac{ |A \cap B| }{ |A \cup B| } = \frac{ |A \cap B| }{ |A| + |B| - |A \cap B| }. \]

  • Jaccard Index 对于大部分的 \(A, B\) 的相对关系都能确定出来, 但是也有例外:

  • 上图 (a), (b) 两种情况的 Jaccard Index 都是 \(3 / 7\), 但是其实表达的是两种不同的状态, 为了进一步区分它, 我们引入 Interiority (也成 overlap, homogeneity):

    \[\mathcal{I}(A, B) = \frac{ |A \cap B| }{ \min \{ |A|, |B| \} }. \]

  • 容易证明

    \[0 \le \mathcal{I}(A, B) \le \mathcal{J}(A, B) \le 1. \]

  • 进一步地, 我们可以定义 Coincidence:

    \[\mathcal{C}(A, B) = \sqrt{ \mathcal{J}(A, B), \mathcal{I}(A, B) }. \]

推广到 multisets

  • multisets 值得是集合的每个元素还附带其出现次数, 如

    \[A = \{ (x_1, a_1), (x_2, a_2), \ldots, (x_N, a_N) \}, \\ B = \{ (x_1, b_1), (x_2, b_2), \ldots, (x_N, b_N) \}, \]

    其中 \((a, b)\) 代表各自的出现次数.

  • 接着, 我们可以定义二者的 Jaccard Index:

    \[\mathcal{J}_M (A, B) = \frac{ \sum_{i=1}^N \min (a_i, b_i) }{ \sum_{i=1}^N \max (a_i, b_i). } \]

    其实, 容易发现, \(a_i, b_i\) 不必是非负整数, 可以很容易推广到 \(\mathbb{R}_+\).

  • 对于 Interiority 和 Coincidence 可以类似地进行推广.

推广到 Multiple sets

  • Jacarrd Index:

    \[\mathcal{J} (A_1, \ldots, A_K) = \frac{ |\bigcap_{k=1}^K A_k| }{ |\bigcup_{k=1}^K A_k| }. \]

  • Interiority index:

    \[\mathcal{I}_{[K, i]} (A_1, \ldots, A_k) = \frac{ |\bigcap_{k=1}^K A_k| }{ |X_i| }, \]

    其中 \(X_i\) 表示第 \(i\) 小的 集合.

标签:Index,frac,Jaccard,cap,Further,mathcal,Generalizations,ldots
From: https://www.cnblogs.com/MTandHJ/p/18209440

相关文章

  • 全球2023年自然科学指数(Nature Index),各单位排名表
    地址:https://www.nature.com/nature-index/annual-tables/2023/institution/all/all/global自然科学指数(NatureIndex)大揭秘!近日,自然指数官网更新自然指数排名数据(统计时间节点为2022.11.1-2023.10.31),中国高校表现依旧强势。统计结果显示,重庆大学进入全球排名TOP200,位列全球......
  • python DataFrame之MultiIndex 的使用
    importpandasaspdimportpprintasp#嵌套列表arrays=[['a','a','b','b'],[1,2,1,2]]#创建MultiIndexindex=pd.MultiIndex.from_arrays(arrays,names=('letter','number'))#使用MultiInd......
  • LlamaIndex RAG 和ReAct结合使用
    LlamaIndexRAG和ReAct结合使用示例代码:importosos.environ['OpenAI_API_KEY']='sk-pxxxxhU7F5Zrc'os.environ['SERPAPI_API_KEY']='950fbdxxxx9b0fexxxx'#加载电商财报数据fromllama_index.coreimportSimpleDirectoryReaderA_doc......
  • 整合LlamaIndex与LangChain构建高级的查询处理系统
    构建大型语言模型应用程序可能会颇具挑战,尤其是当我们在不同的框架(如Langchain和LlamaIndex)之间进行选择时。LlamaIndex在智能搜索和数据检索方面的性能令人瞩目,而LangChain则作为一个更加通用的应用程序框架,提供了更好的与各种平台的兼容性。本篇文章将介绍如何将LlamaIndex和La......
  • [Javascript] Find Items from the end of the JavaScript Array using at, findLast
    Findingelementsstartingfromtheendofanarrayhasgottenaloteasierwiththeintroductionofthe at, findLast,and findLastIndex methods!With at younolongerneedtoremembertoaccesstheendofthearraylike array[array.length-1] trick.......
  • index.js from Terser Error: error:0308010C:digital envelope routines::unsupporte
    Vue报错error:0308010C:digitalenveloperoutines::unsupported出现这个错误是因为node.jsV17版本中最近发布的OpenSSL3.0,而OpenSSL3.0对允许算法和密钥大小增加了严格的限制,可能会对生态系统造成一些影响.方法1.打开终端(按健win+R弹出窗口,键盘输入cmd,然后敲回车)并......
  • Oracle Index Clustering Factor(集群因子)
    转自:https://www.cnblogs.com/Richardzhu/articles/2874972.html一、本文说明:   今天在做测试的时候发现字段上有索引,但是执行计划就是不走索引,经过在网上查找才发现原来是索引的集群因子过高导致的。本文属于转载。二、官网说明    Theindexclusteringfactormeas......
  • Oracle Hint "index_combine"对于like的局限性
     OracleHint"index_combine"对于like的局限性 数据库版本:11.2.0.4.0今天遇到1条问题SQL,优化遇到一点问题,SQL文本大概如下:其中,col2和col3存在索引的且选择性都很高,col1的业务特性是只有两个值选择性低没有也不适合建Btree索引。导致每次执行都是全表扫描,统计发现这条SQL......
  • ES索引数据迁移、分片数优化(reindex)
    目录ES索引数据迁移、分片数优化(reindex)业务背景步骤新建索引将原索引数据复制到新索引中校验结果删除原索引给新索引起别名创建新索引的metric脚本整合使用感受ES索引数据迁移、分片数优化(reindex)​ Elasticsearch是⼀个实时的分布式搜索引擎,为⽤户提供搜索服务。当我们创建好......
  • 检索增强生成(RAG)实践:基于LlamaIndex和Qwen1.5搭建智能问答系统
    检索增强生成(RAG)实践:基于LlamaIndex和Qwen1.5搭建智能问答系统什么是RAGLLM会产生误导性的“幻觉”,依赖的信息可能过时,处理特定知识时效率不高,缺乏专业领域的深度洞察,同时在推理能力上也有所欠缺。正是在这样的背景下,检索增强生成技术(Retrieval-AugmentedGeneration,RAG......