首页 > 其他分享 >人工智能之机器学习(初步应用部分)数据集、特征工程

人工智能之机器学习(初步应用部分)数据集、特征工程

时间:2024-11-18 18:46:56浏览次数:3  
标签:iris 机器 人工智能 data 矩阵 初步 import 数据 sklearn

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录


前言

提示:这里可以添加本文要记录的大概内容:

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。


scikit-learn工具介绍

首先是使用python编译器的转变,今天学习中使用的是VSCode
这里使用到的新的虚拟库命名为sklearn。

数据集(重点介绍和了解)

sklearn玩具数据集介绍

数据量小,数据在sklearn库的本地,只要安装了sklearn,不用上网就可以获取。
首先我们要明白"玩具数据的意义“:“玩具数据集”通常是指那些设计用于教学、测试算法或演示目的的小型、简单的数据集。这些数据集往往具有清晰的结构和标签,使得它们非常适合用来快速理解和实验不同的机器学习模型,而不需要处理真实世界数据集中常见的复杂性和噪声。
采用的函数为(load)
在这里插入图片描述

sklearn现实世界数据集介绍

数据量大,数据只能通过网络获取(fetch)
在这里插入图片描述

sklearn加载玩具数据集

from sklearn.datasets import load_iris#这个函数是加载玩具数据
iris = load_iris()#使用load_iris()函数来加载lris数据集
#print(iris.data)#数据(特征数据)
print(iris.data.shape)#数据维度
print(iris.feature_names)#特征名称
print(iris.target)#标签(目标) 数组
print(iris.target.shape)
print(iris.target_names)#列表 包含目标标签的名称

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这里不放完iris.data数据打印全部的结果,这里的就是有关特征数据。
每一行有一个样本,包含4个特征值。
数据形状采用(iris.data.shape) 打印出来150个样本,每个样本有4个特征
lirs.feature_names 表示每个样本的4个特征的名称
[‘sepal length (cm)’, ‘sepal width (cm)’, ‘petal length (cm)’, ‘petal width (cm)’]
iris.feature_names 特征名称:
sepal length (cm):花萼长度(厘米)
sepal width (cm):花萼宽度(厘米)
petal length (cm):花瓣长度(厘米)
petal width (cm):花瓣宽度(厘米)

目的标签:每个样本的类别标签,共有 3 个类别,分别用 0、1 和 2 表示。

0、1 和 2 是 Iris 数据集中目标标签的整数编码,用于表示不同的类别。

0:表示样本属于 Iris-setosa 类别。
1:表示样本属于 Iris-versicolor 类别。
2:表示样本属于 Iris-virginica 类别。

数据集总结

对于数据集从我的学习过程中感受到的是sklearn.learn中有相关的小型数据(玩具数据)
通过调用例如鸢尾花、例如调用红酒数据from klearn.datasets import load_iris、from sklearn.datasets import =load_wine
总结而言就是先把相关库导入进来,然后进行数据的初始化举例红酒:wine=load_wine

重要属性

1、data 特征
2、feature_names 特征描述
3、target 目标
4、target_names 目标描述
5、DESCR数据集的描述
6、filename 下到本地保存后的文件名

掌握薄弱点

1、在初次学习中遇到对于csv文件的保存,打开计事本,写出如下数据,数据之间使用英文下的逗号, 保存文件后把后缀名改为csv
2、函数集划分需要背住的方式,from sklearn.model_selection import train_test_split

特征工程

所谓特征工程就是把对特征进行相关的处理
使用的库采用pandas进行清洗和数据处理和sklearn来进行特征工程。

步骤

1、特征提取,如果不是dataframe类似的数据,要进行特征提取,如字典提取,文本特征提取。
2、无量纲化

归一化minmaxscaler

在这里插入图片描述
作为数学原理需要知道处理方式,作为实际意义
需要提到的是作为数学原理中,分母采用Xmax-Xmin,每种特征中的最小值和最大值,分子采用X(当前值,

标签:iris,机器,人工智能,data,矩阵,初步,import,数据,sklearn
From: https://blog.csdn.net/guanyuyouxiu_/article/details/143692768

相关文章

  • 人工智能之图像预处理、数据库、GUI布局的综合应用(数据库部分、GUI布局设计)
    文章目录前言一、数据库创建数据表查询:修改、删除GUI布局成果展示进行图像处理和车牌识别:查询记录:总结前言之前进行opencv项目的编写,我们成功写出了智能车牌识别系统(初学版)以下对数据库和GUI布局设计部分进行补充,对于知识点和基本补充部分可以翻看我之前的笔记,......
  • 人工智能之机器学习线代基础——线性相关和线性无关
    线性相关(LinearlyDependent)和线性无关(LinearlyIndependent)是线性代数中描述向量组关系的概念,用于判断向量组是否可以通过线性组合生成其他向量,以及它们是否包含冗余信息。      ......
  • 人工智能之机器学习线代基础——行列式、矩阵的 逆(inverse)、伴随矩阵
    行列式(Determinant)是线性代数中的一个重要概念,用于描述方阵的一些性质。行列式是一个标量,计算方法和矩阵的大小有关。 不使用代数余子式的定义     不使用代数余子式的定义的三阶计算案例     矩阵的逆(inverse) 伴随矩阵  ......
  • 人工智能之机器学习线代基础——齐次和非齐次
    齐次(Homogeneous)和非齐次(Non-Homogeneous)是描述线性方程组或线性系统的一种分类。它们的主要区别在于方程组的常数项是否为零。    这里的x1是未知数之一。我们没有直接求x1​的具体值,而是通过表达式间接表示它。这是因为线性方程组中有自由变量(x2 和x3),所以我......
  • 使用 Easegress 实现 Telegram 翻译机器人
    介绍Easegress是MegaEase开发的新一代流量型网关产品,它完全架构于云原生技术之上,避免了传统反向代理在高可用、流量编排、监控、服务发现等方面的不足,具有云原生、高可用、动态流量编排、可观测、可扩展等特点。最近,Easegress发布了2.0版本,再次大幅增强了流量编排功......
  • ABB机器人维修时如何零点校准
    任何预防性维护计划的主要目的:1、确保系统的最大利用率。2、能够减少系统停机时间。机器人和油漆系统的设计使其能够以最小的维护率在恶劣条件下运行。但是,仍必须定期进行常规检查和预防性维护。对于工作状况良好的设备,其预防性维护量不应超过建议……任何预防性维护计划......
  • ai智能语音电话机器人能不能代替人工完成获客任务
    ai智能语音电话机器人是一款适用于电话营销场景的智能语音交互系统。我们在呼叫中心系统的基础上加入了自然语言处理、语音识别、语义理解等多项人工智能技术,通过机器人智能外呼代替人工拨打电话,达到意向客户筛选、目标客户锁定、不同客户精准分类的目的,在有效降低人力成本......
  • 【大数据分析&机器学习】分布式机器学习
    【作者主页】FrancekChen【专栏介绍】⌈⌈⌈智能大数据分析⌋......
  • 人工智能机器人的情感设计
    人工智能机器人的情感设计方法,主要思想:1.情感欲望与条件人生就是情感欲望的产生和满足,人的所有言行都是在满足情感欲望。但是情感欲望需要在特定的条件下,才能满足。例如小时候大家都有踢足球的情感欲望,但是上课时不能踢足球,只有放学后才能踢足球。一旦情感欲望所需的条件满......
  • 机器学习:智能技术的未来
    在数字化时代,机器学习已经成为推动技术进步的关键力量。它不仅仅是一个学术领域,更是一种能够改变我们生活和工作方式的强大工具。本文将带你走进机器学习的奇妙世界,探讨它的基本概念、应用场景以及未来发展趋势。什么是机器学习?机器学习是人工智能的一个分支,它使计算机系统能......