在进行数据相关分析的时候,往往面对的是复杂所庞大的数据集,这个时候,Python所完成的脚本能够帮助你方便且快捷地整理很多数据!
1.你所需要的第三方库
在本次实验中,你所需要的第三方库包括pandas以及scipy,如果你喜欢一并把图做出来,也可以加上numpy和matplotlib
2.加载数据
首先将文件路径导出来,用下方类似的语句就可以将其导入
rd = r'D:\DataRelated\DataRelated.xlsx'
用“read_excel”函数读取以上路径的excel文件
data = pd.read_excel(rd, sheet_name = '1')
其中的sheet_name要与你excel中的工作表名称保持一致
df = data.iloc[:,:517]
加载前518行数据(由于从0开始计数,所以代码中写517即可)
X = df['归一化2000esv'] Y = df['2000NDVI'] Z = df['耦合度2000']
将每一行数据归属为X,Y,Z代号
3.开始计算
调用函数
result1 = ss.pearsonr(X,Y) result2 = ss.pearsonr(Y,Z) result3 = ss.pearsonr(X,Z)
计算出来后的结果打印即可
print("ESV与NDVI的相关性系数为:") print(result1) print("耦合度系数与NDVI的相关性系数为:") print(result2) print("ESV与耦合度系数的相关性系数为:") print(result3)
4.结果分析
当结果出来之后,我们得学会分析,这就需要我们学到的数理统计知识
结果是(0.8717537758865831, 1.0386674194498099e-47)
,其返回的是两个数,第一个数是X和Y的相关关系数值,其值和前面numpy的计算结果相同,第二个是两者不相关的概率,也就是我们统计学中常说的p
值,但这个值是指不相关的概率,也就是值越小,代表越相关,我们这里的数值非常小,代表二者的线性相关程度比较大。当然如果相关关系数值为1,则p
值为0。scipy中没有计算相关矩阵的方法。