首页 > 其他分享 >数据分析三剑客-numpy模块

数据分析三剑客-numpy模块

时间:2022-11-22 09:24:31浏览次数:63  
标签:数据分析 arr 16 54 34 数组 array numpy 三剑客

什么是数据分析

  • 是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律

    • 使得数据的价值最大化

      • 分析用户的消费行为

        • 制定促销活动的方案

        • 制定促销时间和粒度

        • 计算用户的活跃度

        • 分析产品的回购力度

      • 分析广告点击率

        • 决定投放时间

        • 制定广告定向人群方案

        • 决定相关平台的投放

      • ......

  • 数据分析是用适当的方法对收集来的大量数据进行分析,帮助人们做出判断,以便采取适当的行动

    • 保险公司从大量赔付申请数据中判断哪些为骗保的可能

    • 支付宝通过从大量的用户消费记录和行为自动调整花呗的额度

    • 短视频平台通过用户的点击和观看行为数据针对性的给用户推送喜欢的视频

为什么学习数据分析

  • 有岗位的需求

    • 数据竞赛平台

  • 是Python数据科学的基础

  • 是机器学习课程的基础

数据分析实现流程

  • 提出问题

  • 准备数据

  • 分析数据

  • 获得结论

  • 成果可视化

课程内容介绍

  • 基础模块使用学习

  • 项目实现

  • 金融量化

开发环境介绍

  • anaconda(安装一直下一步)

    • 官网:https://www.anaconda.com/

    • 是一个集成环境:集成好了数据分析和机器学习中所需要的全部环境

      • 注意:

        • 安装目录不可以有中文和特殊符号

  • jupyter

    • jupyter就是anaconda提供的一个基于浏览器的可视化开发工具(.ipynb)

  • jupyter的基本使用

    • 启动:在终端中录入(在指定目录中):jupyter notebook的指令,按下回车

    • 新建:

    •  

       

      • python3:anaconda中的一个源文件

      • cell有两种模式:

      •  

         

         

        • code:编写代码

        • markdown:编写笔记

    • 快捷键:

      • 添加cell:a或者b

      • 删除:x

      • 修改cell的模式:

        • m:修改成markdown模式

        • y:修改成code模式

      • 执行cell:

        • shift+enter

      • tab:自动补全

      • 代开帮助文档:shift+tab

数据分析三剑客

  • numpy

  • pandas(重点)

  • matplotlib

numpy模块

  • Numpy是python中做科学计算的基础库。重于数值计算,也是大部分python科学计算库的基础,多用于在大型、多维数组上执行的数值运算。

numpy的创建

  • 使用np.array()创建

  • 使用plt创建

  • 使用np的routines函数创建

 

  • 使用array()创建一个一维数组(打印不需要print)

import numpy as np
arr = np.array([1,2,3])
arr # 打印
array([1, 2, 3])

 

  • 使用array()创建一个多维数组

arr = np.array([[1,2,3],[4,5,6]])
arr
array([[1, 2, 3],
       [4, 5, 6]])

 

  • 数组和列表的区别是什么?

    • 数组中存储的数据元素类型必须是统一类型(根据原始数据类型看优先级)

    • 优先级:

      • 字符串 > 浮点型 > 整数

arr = np.array([1,2.2,3])
arr
array([1. , 2.2, 3. ])

 

  • 将外部的一张图片读取加载到numpy数组中,然后尝试改变数组元素的数值查看对原始图片的影响

import matplotlib.pyplot as plt
img_arr = plt.imread('./1.jpg')#返回的数组,数组中装载的就是图片内容
plt.imshow(img_arr)#将numpy数组进行可视化展示

<matplotlib.image.AxesImage at 0x117fb1b38>

 

 

 

 

img_arr = img_arr - 100 #将每一个数组元素都减去100
plt.imshow(img_arr)
<matplotlib.image.AxesImage at 0x1181a6b38>

 

 

 

 

  • zero()

  • ones()

  • linespace()

  • arange()

  • random系列

np.ones(shape=(3,4)) # 创建三行四列的二维数组
array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

np.linspace(0,100,num=20) #一维的等差数列数组
array([10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48]) np.random.randint(0,100,size=(5,3)) # 返回随机数组5行3列 array([[19, 0, 17], [72, 29, 13], [69, 59, 68], [63, 54, 87], [70, 64, 0]])

 

numpy的常用属性

  • shape

  • ndim

  • size

  • dtype

arr = np.random.randint(0,100,size=(5,6)) # 创建数组
arr
array([[56, 43, 26, 11, 97, 13],
       [81, 40, 12, 58, 48, 39],
       [59, 11, 66, 44, 79, 92],
       [58, 32, 85, 54, 24, 62],
       [29, 41, 16, 69, 85, 69]])
 

arr.shape #返回的是数组的形状
(5, 6)
arr.ndim #返回的是数组的维度 2

arr.size #返回数组元素的个数 30

arr.dtype #返回的是数组元素的类型 dtype('int64') type(arr) #数组的数据类型 numpy.ndarray

 

numpy的数据类型

  • array(dtype=?):可以设定数据类型

  • arr.dtype = '?':可以修改数据类型

 

 

 

arr = np.array([1,2,3])
arr.dtype
dtype('int64')
 

#创建一个数组,指定数组元素类型为int32(不指定就会默认每个数组占64位浪费空间)
arr = np.array([1,2,3],dtype='int32')
arr.dtype
dtype('int32')
 

arr.dtype = 'uint8' #修改数组的元素类型
arr.dtype
dtype('uint8')

 

numpy的索引和切片操作(重点)

  • 索引操作和列表同理

arr = np.random.randint(1,100,size=(5,6))
arr
array([[13, 45, 85, 90, 43,  3],
       [ 2, 28, 52,  3, 16, 25],
       [95, 32, 52,  2, 49, 43],
       [67, 21, 62, 13, 70, 63],
       [68, 95, 59, 35, 96, 30]])
 

arr[1]  #取出了numpy数组中的下标为1的行数据
array([37, 57, 26, 92, 91, 34])
 

arr[[1,3,4]] #取出多行
array([[37, 57, 26, 92, 91, 34],
       [ 5, 16, 47, 66, 51, 12],
       [54, 63, 20, 11, 94, 88]])
 

 

  • 切片操作

    • 切出前两列数据

    • 切出前两行数据

    • 切出前两行的前两列的数据

    • 数组数据翻转

    • 练习:将一张图片上下左右进行翻转操作

    • 练习:将图片进行指定区域的裁剪

#切出arr数组的前两行的数据
arr[0:2] #arr[行切片]
array([[69, 80,  7, 90, 31, 44],
       [37, 57, 26, 92, 91, 34]])
 

#切出arr数组中的前两列
arr[:,0:2] #arr[行切片,列切片]
array([[69, 80],
       [37, 57],
       [13, 16],
       [ 5, 16],
       [54, 63]])
 

#切出前两行的前两列的数据
arr[0:2,0:2]
array([[69, 80],
       [37, 57]])
 

arr
array([[69, 80,  7, 90, 31, 44],
       [37, 57, 26, 92, 91, 34],
       [13, 16, 93, 54, 87, 34],
       [ 5, 16, 47, 66, 51, 12],
       [54, 63, 20, 11, 94, 88]])
 

#将数组的行倒置
arr[::-1]
array([[54, 63, 20, 11, 94, 88],
       [ 5, 16, 47, 66, 51, 12],
       [13, 16, 93, 54, 87, 34],
       [37, 57, 26, 92, 91, 34],
       [69, 80,  7, 90, 31, 44]])
 

#将数组的列倒置
arr[:,::-1]
array([[44, 31, 90,  7, 80, 69],
       [34, 91, 92, 26, 57, 37],
       [34, 87, 54, 93, 16, 13],
       [12, 51, 66, 47, 16,  5],
       [88, 94, 11, 20, 63, 54]])
 

#所有元素倒置
arr[::-1,::-1]
array([[88, 94, 11, 20, 63, 54],
       [12, 51, 66, 47, 16,  5],
       [34, 87, 54, 93, 16, 13],
       [34, 91, 92, 26, 57, 37],
       [44, 31, 90,  7, 80, 69]])
 

#将一张图片进行左右翻转(需要将列倒置)
img_arr = plt.imread('./1.jpg')
plt.imshow(img_arr)
<matplotlib.image.AxesImage at 0x1182c3b00>

 

img_arr.shape # 形状三维
(300, 450, 3)
 

plt.imshow(img_arr[:,::-1,:]) #img_arr[行,列,颜色]
<matplotlib.image.AxesImage at 0x11835cb70>

 

 

 

#图片上下翻转
plt.imshow(img_arr[::-1,:,:])
<matplotlib.image.AxesImage at 0x118437ef0>

 

 

 

#图片裁剪的功能
plt.imshow(img_arr[66:200,78:300,:])
<matplotlib.image.AxesImage at 0x1187fee48>

 

 

 

变形reshape

arr#是一个5行6列的二维数组
array([[69, 80,  7, 90, 31, 44],
       [37, 57, 26, 92, 91, 34],
       [13, 16, 93, 54, 87, 34],
       [ 5, 16, 47, 66, 51, 12],
       [54, 63, 20, 11, 94, 88]])
 

#将二维的数组变形成1维
arr_1 = arr.reshape((30,))
#将一维变形成多维
arr_1.reshape((6,5))
array([[69, 80,  7, 90, 31],
       [44, 37, 57, 26, 92],
       [91, 34, 13, 16, 93],
       [54, 87, 34,  5, 16],
       [47, 66, 51, 12, 54],
       [63, 20, 11, 94, 88]])

 

级联操作

- 将多个numpy同一维度数组进行横向或者纵向的拼接
  • axis轴向的理解

    • 0:列

    • 1:行

  • 问题:

    • 级联的两个数组维度一样,但是行列个数不一样会如何?

np.concatenate((arr,arr),axis=1) # 将两个arr数组拼接
array([[69, 80,  7, 90, 31, 44, 69, 80,  7, 90, 31, 44],
       [37, 57, 26, 92, 91, 34, 37, 57, 26, 92, 91, 34],
       [13, 16, 93, 54, 87, 34, 13, 16, 93, 54, 87, 34],
       [ 5, 16, 47, 66, 51, 12,  5, 16, 47, 66, 51, 12],
       [54, 63, 20, 11, 94, 88, 54, 63, 20, 11, 94, 88]])
 

arr_3 = np.concatenate((img_arr,img_arr,img_arr),axis=0) #图片横向拼接
plt.imshow(arr_3) # 大数组进行显示
<matplotlib.image.AxesImage at 0x118f459b0>

 

 

 

常用的聚合操作

  • sum,max,min,mean

arr
array([[69, 80,  7, 90, 31, 44],
       [37, 57, 26, 92, 91, 34],
       [13, 16, 93, 54, 87, 34],
       [ 5, 16, 47, 66, 51, 12],
       [54, 63, 20, 11, 94, 88]])
 

arr.sum(axis=1) # 求所有数组每一列之和
array([321, 337, 297, 197, 330])
 

arr.max(axis=1)
array([90, 92, 93, 66, 94])

 

常用的数学函数

  • NumPy 提供了标准的三角函数:sin()、cos()、tan()

  • numpy.around(a,decimals) 函数返回指定数字的四舍五入值。

    • 参数说明:

      • a: 数组

      • decimals: 舍入的小数位数。 默认值为0。 如果为负,整数将四舍五入到小数点左侧的位置

np.sin(2.5)
0.5984721441039564
 

np.around(3.84,2)
3.84

 

常用的统计函数

  • numpy.amin() 和 numpy.amax(),用于计算数组中的元素沿指定轴的最小、最大值。

  • numpy.ptp():计算数组中元素最大值与最小值的差(最大值 - 最小值)。

  • numpy.median() 函数用于计算数组 a 中元素的中位数(中值)

  • 标准差std():标准差是一组数据平均值分散程度的一种度量。

    • 公式:std = sqrt(mean((x - x.mean())**2))

    • 如果数组是 [1,2,3,4],则其平均值为 2.5。 因此,差的平方是 [2.25,0.25,0.25,2.25],并且其平均值的平方根除以 4,即 sqrt(5/4) ,结果为 1.1180339887498949。

  • 方差var():统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数,即 mean((x - x.mean())** 2)。换句话说,标准差是方差的平方根。

arr[1].std()
26.66718749491384
 

arr[1].var()
711.138888888889

 

矩阵相关

  • NumPy 中包含了一个矩阵库 numpy.matlib,该模块中的函数返回的是一个矩阵,而不是 ndarray 对象。一个 的矩阵是一个由行(row)列(column)元素排列成的矩形阵列。

  • numpy.matlib.identity() 函数返回给定大小的单位矩阵。单位矩阵是个方阵,从左上角到右下角的对角线(称为主对角线)上的元素均为 1,除此以外全都为 0。

#eye返回一个标准的单位矩阵
np.eye(6)
array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.]])

 

  • 转置矩阵(行列反转)

    • .T

arr.T
array([[69, 37, 13,  5, 54],
       [80, 57, 16, 16, 63],
       [ 7, 26, 93, 47, 20],
       [90, 92, 54, 66, 11],
       [31, 91, 87, 51, 94],
       [44, 34, 34, 12, 88]])

 

矩阵相乘

  • numpy.dot(a, b, out=None)

    • a : ndarray 数组

    • b : ndarray 数组

 

 

  • 第一个矩阵第一行的每个数字(2和1),各自乘以第二个矩阵第一列对应位置的数字(1和1),然后将乘积相加( 2 x 1 + 1 x 1),得到结果矩阵左上角的那个值3。也就是说,结果矩阵第m行与第n列交叉位置的那个值,等于第一个矩阵第m行与第二个矩阵第n列,对应位置的每个值的乘积之和。

  • 线性代数基于矩阵的推导:

a1 = np.array([[2,1],[4,3]])
a2 = np.array([[1,2],[1,0]])
np.dot(a1,a2) # 矩阵乘
array([[3, 4],
       [7, 8]])

 

 

标签:数据分析,arr,16,54,34,数组,array,numpy,三剑客
From: https://www.cnblogs.com/erhuoyuan/p/16914093.html

相关文章

  • PYTHON_numpy
    C数组中数据类型一致;python列表可不一致,但numpy数组array中数据类型需一致如传进来的包含不同类型,则自动统一为同一类型,优先级:str>float>int1. array():importnum......
  • numpy
    numpy中axis=1表示列,axis=0表示行线性代数库linalgdot数组的点积vdot向量的点积(是一个数)inner数组内积(类似交叉相乘)matmul......
  • NumPy切片或直接赋值生成数组视图
    1先创建一个ndarry数组aimportnumpyasnpa=np.arange(start=1,stop=10,step=2)print(a)[13579]2将a切片赋值于一个数组bb=a[0:1]print(b)[1]3......
  • 低门槛上手快!火山引擎 VeDI 这样满足数据分析新需求
     更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群近日,市场研究机构IDC发布《2022年V2全球大数据支出指南》。数据显示,2......
  • Python数据分析与应用 ---- 航空公司客户价值分析
    Python数据分析与应用----航空公司客户价值分析 Python数据分析与应用----航空公司客户价值分析_骑着蜗牛ひ追导弹'的博客-CSDN博客_航空客户数据分析......
  • Python数据分析
    一、Python数据分析之Numpy0.数组的引入假设我们想将列表中的每个元素增加1,但列表不支持这样的操作:a=[1,2,3,4]a+1#报错#但可以这样操作[x+1forxina]数......
  • Python绘制精美可视化数据分析图表(一)-Matplotlib
    前言数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程.这一过程也是质量管理体系的支持过程.在实......
  • 现成的bi数据分析方案有哪些?
    现成的bi数据分析方案可以直接下载使用,降低自建分析模型成本和风险,更快落地企业bi,实现系统化、智能化的数据可视化分析。这对不具备建模条件的企业来说,是实实在在地减负了。......
  • Numpy数组的保存与读取
    Numpy数组的保存与读取1.数组以二进制格式保存np.save和np.load是读写磁盘数组数据的两个主要函数。默认情况下,数组以未压缩的原始二进制格式保存在扩展名为npy的文件中......
  • 简约而不简单|值得收藏的Numpy小抄表(含主要语法、代码)
    Numpy是一个用python实现的科学计算的扩展程序库,包括:1、一个强大的N维数组对象Array;2、比较成熟的(广播)函数库;3、用于整合C/C++和Fortran代码的工具包;4、实用的线性代数、傅......