首页 > 编程语言 >Python 机器学习入门:数据集、数据类型和统计学

Python 机器学习入门:数据集、数据类型和统计学

时间:2023-11-07 21:55:57浏览次数:39  
标签:入门 示例 Python 数据类型 99 103 86 87 85

机器学习是通过研究数据和统计信息使计算机学习的过程。机器学习是迈向人工智能(AI)的一步。机器学习是一个分析数据并学会预测结果的程序。

数据集

在计算机的思维中,数据集是任何数据的集合。它可以是从数组到完整数据库的任何东西。

数组的示例:

[99,86,87,88,111,86,103,87,94,78,77,85,86]

数据库的示例:

Carname  Color  Age  Speed  AutoPass
BMW  red  5  99  Y
Volvo  black  7  86  Y
VW  gray  8  87  N
VW  white  7  88  Y
Ford  white  2  111  Y
VW  white  17  86  Y
Tesla  red  2  103  Y
BMW  black  9  87  Y
Volvo  gray  4  94  N
Ford  white  11  78  N
Toyota  gray  12  77  N
VW  white  9  85  N
Toyota  blue  6  86  Y

通过查看数组,我们可以猜测平均值可能在80到90之间,我们还能够确定最高值和最低值,但我们还能做什么?

通过查看数据库,我们可以看到最受欢迎的颜色是白色,而最老的车辆为17岁,但如果我们能够通过查看其他值来预测车辆是否具有AutoPass呢?

这就是机器学习的用途!分析数据并预测结果!

在机器学习中,通常需要处理非常大的数据集。在本教程中,我们将尽量让您尽可能容易地理解机器学习的不同概念,并使用易于理解的小型数据集。

数据类型

要分析数据,重要的是要知道我们正在处理的数据类型。

我们可以将数据类型分为三个主要类别:

  • 数值
  • 分类
  • 顺序

数值数据是数字,并且可以分为两个数值类别:

  1. 离散数据 - 限制为整数的数字。示例:汽车经过的数量。
  2. 连续数据 - 有无限值的数字。示例:物品的价格或大小。

分类数据是不能相互比较的值。示例:颜色值或任何是/否值。

顺序数据类似于分类数据,但可以相互比较。示例:学校成绩,其中A好于B等等。

通过了解数据源的数据类型,您将能够知道在分析数据时使用哪种技术。

您将在接下来的章节中了解更多有关统计学和数据分析的内容。

机器学习 - 均值、中位数、众数

在观察一组数字时,我们可以学到什么?

在机器学习(以及数学)中,通常有三个值引起我们的兴趣:

  • 均值 - 平均值
  • 中位数 - 中间值
  • 众数 - 出现最频繁的值

示例:我们已经记录了13辆车的速度:

speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]

这些速度的平均值、中间值和最常见的速度值是多少呢?

均值

均值是平均值。

要计算均值,找到所有值的总和,并将总和除以值的数量:

(99+86+87+88+111+86+103+87+94+78+77+85+86) / 13 = 89.77

NumPy模块有一个用于此目的的方法。了解有关NumPy模块的信息,请查看我们的NumPy教程。

示例:使用NumPy的mean()方法找到平均速度:

import numpy

speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]

x = numpy.mean(speed)

print(x)

中位数

中位数是排列所有值后位于中间的值:

77, 78, 85, 86, 86, 86, 87, 87, 88, 94, 99, 103, 111

在找到中位数之前,需要确保对数字进行排序。

NumPy模块有一个用于此目的的方法:

示例:使用NumPy的median()方法找到中间值:

import numpy

speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]

x = numpy.median(speed)

print(x)

如果中间有两个数字,将这些数字的总和除以2。

77, 78, 85, 86, 86, 86, 87, 87, 94, 98, 99, 103

(86 + 87) / 2 = 86.5

示例:使用NumPy模块:

import numpy

speed = [99,86,87,88,86,103,87,94,78,77,85,86]

x = numpy.median(speed)

print(x)

众数

众数是出现最频繁的值:

99, 86, 87, 88, 111, 86, 103, 87, 94, 78, 77, 85, 86 = 86

SciPy模块有一个用于此目的的方法。了解有关SciPy模块的信息,请查看我们的SciPy教程。

示例:使用SciPy的mode()方法找到出现最频繁的数字:

from scipy import stats

speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]

x = stats.mode(speed)

print(x)

最后

为了方便其他设备和平台的小伙伴观看往期文章:公众号搜索Let us Coding,或者扫描下方二维码,关注公众号,即可获取最新文章。

看完如果觉得有帮助,欢迎点赞、收藏关注

image

标签:入门,示例,Python,数据类型,99,103,86,87,85
From: https://www.cnblogs.com/xiaowange/p/17816132.html

相关文章

  • jQuery快速入门2
    jQuery快速入门操作标签样式类addClass();//添加指定的CSS类名。removeClass();//移除指定的CSS类名。hasClass();//判断样式存不存在toggleClass();//切换CSS类名,如果有就移除,如果没有就添加。示例:开关灯和模态框CSScss("color","red")//DOM操作:tag.style.color="r......
  • Python51days
      ython_BootStrap1.导入bootstrapBootStrap已经写好的css样式,我们如果想要使用Boostrap:下载boostrap模板在页面上引入bootsrap文件编写HTML时,按照Boostrap的规定来编写+自定制。bootsrap网址:https://www.bootcss.com/ 效果已经自行提供你只需要引入后写入class......
  • 关于C++中STL的简单入门(updating)
    前言:本篇文章将对STL(标准模板库)进行一个简单的介绍,以方便在算法竞赛中节省时间并方便使用。C++STL(标准模板库)是一套功能强大的C++模板类,提供了通用的模板类和函数,这些模板类和函数可以实现多种流行和常用的算法和数据结构,如向量、链表、队列、栈。C++标准模板库的核心包括以......
  • JavaScript--变量和数据类型
    使用var声明变量vartest=20;test="张三";变量可以存放不同类型的值var定义域分布在全局并且可以重复定义letlet关键字所在的代码块内有效JavaScript中分为:原始类型和引用类型5种原始类型number:数字,整数或者小数string:字符、字符串boolean:布尔null:空undefined:......
  • python
    列表1.列表定义的语法:[元素1,元素二,元素三,...]#元素可以重复2.列表中的元素可以是任意类型,也可以是列表,从而形成列表嵌套。3.列表具有索引,从左往右数从o索引开始,从右往左数从-1索引开始。4.对于嵌套的列表:list=[[1,2,3,],1,2,3,4,5]#如果去取第一个列表中的第二个元素需要声明:list[......
  • 代码随想训练营第二十八天(Python)| 93.复原IP地址 、 78.子集、 90.子集II
    93.复原IP地址1、方法一classSolution:defrestoreIpAddresses(self,s:str)->List[str]:res=[]self.tracebacking(s,0,[],res)returnresdeftracebacking(self,s,start,path,res):ifstart==len(s)andlen(pa......
  • ArcGIS API for JavaScript入门
    arcgis官网:https://arcgis.fenxianglu.cn/docs/load.html一、集成到应用----@arcgis/core方式1、引入ArcGISAPIforJavaScriptyarnadd@arcgis/core或者指定安装版本yarnadd@arcgis/[email protected]如果提示:'yarn'不是内部或外部命令,也不是可运行的程序或批处理文件......
  • 如何深度学习Python?
    安装必要软件:首先需要安装Anaconda或Miniconda等科研计算环境,并创建虚拟环境以便管理不同项目所需库和版本。可以按照如下步骤进行操作:下载并安装Anaconda或Miniconda。打开命令行工具(Windows系统中为cmd),输入condacreate--nameenv_namepython=3.x创建一个新的Pyt......
  • python连接redis集群写入数据
    环境;Python:3.6.5 需要安装redis-py-cluster模块 #!/usr/bin/envpython#coding=utf-8fromredisclusterimportRedisClusterstartup_nodes=[{"host":"192.168.1.109","port":7001},{"host":"192.168.1.10......
  • Python学习1
    PyCharm快捷键:ctrl+alt+s:打开软件设置ctrl+d∶复制当前行代码shift+alt+上/下:将当前行代码上调或者下调crtl+shift+f10∶运行当前代码文shift+f6:重命名文件ctrl+f:搜索数据类型:  注释分类:注释是代码中的解释型语句,对代码内容进行注解,注释不是代码,不......