首页 > 其他分享 >人工智能知识分享第十天-机器学习_特征降维

人工智能知识分享第十天-机器学习_特征降维

时间:2025-01-07 23:34:18浏览次数:3  
标签:第十天 方差 人工智能 相关系数 降维 特征 corr import data

特征降维

特征降维简介

用于训练的数据集特征对模型的性能有着极其重要的作用。如果训练数据中包含一些不重要的特征,可能导致模型的泛化性能不佳。例如:

  1. 某些特征的取值较为接近,其包含的信息较少
  2. 我们希望特征独立存在,对预测产生影响,具有相关性的特征可能并不会给模型带来更多的信息,但是并不是说相关性完全无用。

降维 是指在某些限定条件下,降低特征个数, 我们接下来介绍集中特征降维的方法:

低方差过滤法,相关系数法,PCA(主成分分析)降维法。

低方差过滤法

我们知道:

  1. 特征方差小:某个特征大多样本的值比较相近
  2. 特征方差大:某个特征很多样本的值都有差别

低方差过滤法 指的是删除方差低于某些阈值的一些特征。

sklearn.feature_selection.VarianceThreshold(threshold=0.0)
Variance.fit_transform(X)
#X:numpy array格式的数据[n_samples,n_features]

在数据集中,删除方差低于 threshold 的特征将被删除,默认值是保留所有非零方差特征,即删除所有样本中具有相同值的特征。

示例代码:

from sklearn.feature_selection import VarianceThreshold
import pandas as pd



# 1. 读取数据集
data = pd.read_csv('data/垃圾邮件分类数据.csv')
print(data.shape) # (971, 25734)


# 3. 使用方差过滤法
transformer = VarianceThreshold(threshold=0.1)
data = transformer.fit_transform(data)
print(data.shape) # (971, 1044)

主成分分析(PCA)

在这里插入图片描述
PCA 通过对数据维数进行压缩,尽可能降低原数据的维数(复杂度),损失少量信息,在此过程中可能会舍弃原有数据、创造新的变量。

from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

# 1. 加载数据集
x, y = load_iris(return_X_y=True)
print(x[:5])

# [[5.1 3.5 1.4 0.2]
#  [4.9 3.  1.4 0.2]
#  [4.7 3.2 1.3 0.2]
#  [4.6 3.1 1.5 0.2]
#  [5.  3.6 1.4 0.2]]

# 2. 保留指定比例的信息
transformer = PCA(n_components=0.95)
x_pca = transformer.fit_transform(x)
print(x_pca[:5])
# [[-2.68412563  0.31939725]
#  [-2.71414169 -0.17700123]
#  [-2.88899057 -0.14494943]
#  [-2.74534286 -0.31829898]
#  [-2.72871654  0.32675451]]


# 3. 保留指定数量特征
transformer = PCA(n_components=2)
x_pca = transformer.fit_transform(x)
print(x_pca[:5])

# [[-2.68412563  0.31939725]
# [-2.71414169 -0.17700123]
# [-2.88899057 -0.14494943]
# [-2.74534286 -0.31829898]
# [-2.72871654  0.32675451]]

相关系数法在这里插入图片描述

相关系数的计算主要有: 皮尔逊相关系数、斯皮尔曼相关系数。特征之间的相关系数法可以反映变量之间相关关系密切程度。

皮尔逊相关系数的计算公式:在这里插入图片描述

斯皮尔曼相关系数计算公式:在这里插入图片描述
上面的公式中, d i d_i di​ 为样本中不同特征在数据中排序的序号差值,计算举例如下所示
在这里插入图片描述

import pandas as pd
from sklearn.feature_selection import VarianceThreshold
from scipy.stats import pearsonr
from scipy.stats import spearmanr
from sklearn.datasets import load_iris


# 1. 读取数据集(鸢尾花数据集)
data = load_iris()
data = pd.DataFrame(data.data, columns=data.feature_names)

# 2. 皮尔逊相关系数
corr = pearsonr(data['sepal length (cm)'], data['sepal width (cm)'])
print(corr, '皮尔逊相关系数:', corr[0], '不相关性概率:', corr[1])
# (-0.11756978413300204, 0.15189826071144918) 皮尔逊相关系数: -0.11756978413300204 不相关性概率: 0.15189826071144918

# 3. 斯皮尔曼相关系数
corr = spearmanr(data['sepal length (cm)'], data['sepal width (cm)'])
print(corr, '斯皮尔曼相关系数:', corr[0], '不相关性概率:', corr[1])
# SpearmanrResult(correlation=-0.166777658283235, pvalue=0.04136799424884587) 斯皮尔曼相关系数: -0.166777658283235 不相关性概率: 0.04136799424884587


坚持分享 共同进步

标签:第十天,方差,人工智能,相关系数,降维,特征,corr,import,data
From: https://blog.csdn.net/weixin_45423893/article/details/144995733

相关文章

  • 人工智能学习框架概述
    1.引言随着人工智能(AI)技术的快速发展,各种学习框架应运而生,为研究人员和开发者提供了便利。这些框架不仅简化了复杂的算法实现,还提供了用于构建、训练和评估模型的工具和环境。本文将对目前流行的人工智能学习框架进行介绍和比较,帮助大家选择合适的工具进行AI开发。2.人工......
  • 到底什么是机器学习?带你了解人工智能的硬核知识
    机器学习就是一种可以让机器根据历史经验自动改进自身的学习算法。——汤姆·米切尔(TomMitchell),《机器学习》,1998年什么是机器学习现在,在大家的眼里,有了“人工智能”,掌握了“机器学习”或者“神经网络”的电子系统,仿佛就有了自己学习进化、独立思考解决问题的可能性,甚至......
  • 【题库】人工智能训练师练习题
    单选题1、Windows系统不能进行数据爬虫。A.正确B.错误2、自然语言处理是一门融语言学、计算机科学、心理学于一体的科学。A.正确B.错误3、文本分类是指将文本按照内容的不同判别到一个或多个预先确定的文本类别之中的过程。A.正确B.错误4、中文分词只局限于中文应......
  • 整理了6个Python经典项目(python爬虫、python人工智能、python数据分析、python web、p
    包含编程籽料、学习路线图、爬虫代码、安装包等!【点击领取】前言职场中一贯有“金三银四”、“金九银十”的说法。尤其是3、4月刚过完年后,很多企业的员工会选择离职,大量空缺职位被放出,同时HR招聘压力增大,求职者往往可以借此机会,获得一个更好的报价。如果你是一名正在求职......
  • 如何利用SaaS工具和人工智能实现企业效率革命?
    不论是传统软件还是SaaS,其核心目标始终如一——帮助企业解决问题、提升效率。然而,随着技术的飞速发展,SaaS正在超越传统模式,尤其是在与AI(人工智能)的深度融合中展现出了强大的潜力。这种“智能化”的转型不仅让企业获得了更具针对性和效率的服务,还让解决问题的方式更加灵活和高效。......
  • 人工智能前沿探讨:从Transformer架构到机器意识与迁移学习的应用
    Transformer架构可能为理解人脑的运作提供新的视角Transformer架构与人脑的相似之处是一个颇受关注的话题。虽然人脑和Transformer架构之间有许多差异,但也有一些相似之处,值得我们探讨。相似之处:注意力机制:Transformer架构中的注意力机制是它的一个关键组成部分,这使得......
  • 人工智能的可解释性:从黑箱到透明
     ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨  ✨个人主页欢迎您的访问 ✨期待您的三连✨  ​​​人工智能(AI)的快速发展和广泛应用,带来了许多革新的成果,但也引发了对其透明性和可解释性的广泛关注。在很多实际应用中,A......
  • 足球分析胜负准确判断方法:AI 人工智能大数据的深度实践
    一、引言在足球赛事的热血浪潮里,球迷们对比赛胜负的好奇与日俱增,而如何精准预判赛果,更是吸引着专业人士不断钻研。如今,AI人工智能与大数据技术的蓬勃发展,为解锁这一难题开辟了全新路径。本文将带你探秘如何借助这些前沿科技,实现对足球比赛胜负的精确判断。二、数据预处理精......
  • 在老年人群中,人工智能如何管理多药联合用药以减少药物间潜在冲突
    随着全球人口老龄化的加剧,老年群体面临着多种慢性疾病的挑战,需要长期依赖药物治疗。然而,随着老年人群中多药联合用药的普遍化,药物相互作用和不当用药的风险也随之增加,给老年患者的健康管理带来了巨大压力。为此,人工智能(AI)在多药联合用药的管理中展现出巨大的潜力,尤其是在减少药......
  • 可解释性人工智能(Explainable Artificial Intelligence )综述学习笔记(4)-思维导图
    ExplainableArtificialIntelligence(XAI):Concepts,taxonomies,opportunitiesandchallengestowardresponsibleAI可解释性人工智能(ExplainableArtificialIntelligence,XAI):概念,分类,机遇和挑战,迈向负责任的人工智能可解释性人工智能ExplainableArtificialIntel......