首页 > 其他分享 >Rank Correlation

Rank Correlation

时间:2023-06-18 19:22:24浏览次数:38  
标签:Kendall tau bm Rank text rank Correlation ldots

目录

Kumar R., Vassilvitskii S. Generalized distances between rankings. WWW, 2010.

有些时候, 我们会有比较两组 ranking 的相似度, 比如:

\[\bm{x} = [x_1, x_2, \ldots, x_i, \ldots, x_j, \ldots, x_n], \\ \bm{y} = [y_1, y_2, \ldots, y_i, \ldots, y_j, \ldots, y_n]. \\ \]

其中 \((x_i, y_i)\) 表示的实例 \(i\) 的两个不同的 score, 我们想知道这两组 scores 的一致性, 相似度.

Kendall rank correlation coefficient

Kendall rank correlation coefficient-wiki

scipy.stats.kendalltau

  • 称 \((i, j), i \not = j\) 为 concordant 的若

    \[x_i < x_j \leftrightarrow y_i < y_j \text{ or } x_i > x_j \leftrightarrow y_i > y_j, \]

    否则称 \((i, j)\) 为 discordant 的.

  • Kendall's \(\tau\) coefficient 是一个描述序的统计量. 它定义为:

    \[\tag{1} \tau = \frac{N_c - N_d}{N} = 1 - \frac{2 N_d}{N}, \]

    其中 \(N_c\) 为 concordant pairs 的数量, \(N_d\) 为 discordant pairs 的数量, \(N = n(n-1) / 2\).

  • 该统计量有如下的性质:

    1. \(\tau \in [-1, 1]\), 且 \(\tau=-1\) 表示 \(\bm{x}, \bm{y}\) 的序是反的 (最不相似的情况), \(\tau = 1\) 则是表示 \(\bm{x}, \bm{y}\) 完全一致的情况.
    2. 如果 \(X, Y\) 是独立的, 则 \(\tau=0\).
    3. (1) 式还可以表示为:

      \[\tau = \frac{2}{n(n-1)} \sum_{i < j} \text{sgn}(x_i - x_j)\text{sgn}(y_i - y_j). \]

Spearman’s footrule

scipy.stats.spearmanr

  • Spearman's footrule 衡量的是从 \(\bm{x}\) 到 \(\bm{y}\) 所需要最小编辑距离:

    \[F = \sum_i |i - \sigma(i; \bm{x}, \bm{y})|, \]

    其中 \(j=\sigma(i; \bm{x}; \bm{y})\) 返回 和 \(x_i\) 在 \(\bm{x}\) 相同序的 \(y_j\) 在 \(\bm{y}\) 中的位置 \(j\).

  • \(F\) 越大, 说明根据 \(\bm{x}, \bm{y}\) 得到的序越不一致.

标签:Kendall,tau,bm,Rank,text,rank,Correlation,ldots
From: https://www.cnblogs.com/MTandHJ/p/17489604.html

相关文章

  • PAT Advanced 1012. The Best Rank
    PATAdvanced1012.TheBestRank1.ProblemDescription:ToevaluatetheperformanceofourfirstyearCSmajoredstudents,weconsidertheirgradesofthreecoursesonly:C-CProgrammingLanguage,M-Mathematics(CalculusorLinearAlgrbra),andE-E......
  • Franka Emika产品介绍 | BFT一站式机器人采购平台
    原创|文BFT机器人01FrankaEmika品牌介绍近年来,随着人工智能技术的飞速发展,协作机器人成为机器人行业的新热点。协作机器人凭借其轻量,易于编程,高安全性,可以直接与人类协同工作的优势,改变了人类与机器的互动方式,成为工业转型升级的新动力。提到协作机器人,FrankaEmika是一座绕不......
  • 智能算法——PageRank
    一、PageRank的基本概念1、PageRank的概念  PageRank,即网页排名算法,又称为网页级别算法,是由佩奇和布林在1997年提出来的链接分析算法。PageRank是用来标识网页的等级、重要性的一种方法,是衡量一个网页的重要指标。PageRank算法在谷歌的搜索引擎中对网页质量的评价起到了重要的......
  • 推荐算法——基于图的推荐算法PersonalRank算法
    一、推荐的概述在推荐系统中,通常是要向用户推荐商品,如在购物网站中,需要根据用户的历史购买行为,向用户推荐一些实际的商品;如在视频网站中,推荐的则是不同的视频;如在社交网站中,推荐的可能是用户等等,无论是真实的商品,还是视频,再或者是用户,都可以假设成一种物品,如下图所示:(图片来自参考......
  • European software vendors ranking 2012 (zz)
    Europeansoftwarevendorsranking2012//z2013-07-1214:08:[email protected][T62,L646,R24,V1099]欧洲最大100家软件企业公司一百强100强软件公司世界欧洲美国最大营业额利润排名RankCompanyPublic ?CountryofHQlocationSoftwarereven......
  • Oracle聚合函数RANK和dense_rank的使用
    聚合函数RANK和dense_rank主要的功能是计算一组数值中的排序值。在9i版本之前,只有分析功能(analytic),即从一个查询结果中计算每一行的排序值,是基于order_by_clause子句中的value_exprs指定字段的。其语法为:RANK()OVER([query_partition_clause]ord......
  • mpi4py.MPI.COMM_WORLD.Get_size失败——mpiexec and python mpi4py gives rank 0 and
    参考:https://stackoverflow.com/questions/29264640/mpiexec-and-python-mpi4py-gives-rank-0-and-size-1  =========================================== 运行代码:importmpi4py.MPIasMPIcomm=MPI.COMM_WORLDcomm_rank=comm.Get_rank()comm_size=comm.G......
  • 《SoftRank: Optimising Non-Smooth Rank Metrics》论文阅读
    背景SoftRank是一种listwise的建模方法,listwise建模的难点在于损失函数的选取。在排序中常用NDCG作为评价指标,最直接的想法是NDCG作为损失函数,这样优化目标和评价指标是一致的,没有gap,但是NDCG是不可以微的(需要排序的IR评价指标都是不可微),没法用梯度下降法来优化。SoftRank采用了......
  • [HiBench] 安装HiBench,测试在Spark上跑PageRank与修改源码测试
    [HiBench]安装HiBench,测试在Spark上跑PageRank与修改源码测试背景:我想在HiBench上测试在Spark上跑PageRank性能,并想要修改PageRank的源码进行测试。本来,HiBench在README里写的已经挺清楚的了,直接照着做就行。奈何我用的服务器没有珂学上网,所以还是遇到了一点小麻烦。下载HiBe......
  • 窗口函数DENSE_RANK()/DENSE_RANK()/ROW_NUMBER() 区别
    SQL语句之DENSE_RANK函数:DENSE_RANK()是一个窗口函数,它为分区或结果集中的每一行分配排名,而排名值没有间隙。DENSE_RANK()。如果使用DENSE_RANK()进行排名会得到:1,1,2,3,4。RANK()。如果使用RANK()进行排名会得到:1,1,3,4,5。ROW_NUMBER()。如果使用ROW_NUMBER()进行排名会得到:1,2......