首页 > 其他分享 >数据分析划重点

数据分析划重点

时间:2024-06-30 23:28:48浏览次数:3  
标签:数据分析 函数 Python 重点 数组 dtype NumPy pandas

一、NumPy数据计算

1、numpy数组 

NumPy提供了一个多维数组类型ndarray,它可以用来表示向量、矩阵和张量。这些数组可以有不同的数据类型,如整数、浮点数、复数等。
具有如下属性:
(1)内存最优(除了其他方面,以内存块的最佳布局传送数据到C或FORTRAN)。

(2)允许快速线性代数计算,不需要使用for循环迭代就能进行逐元素的操作。

(3)它是SciPy和Scikit-learn等重要库的数据结构,作为它们函数的输入。

2、重要性

  1. 高性能的数值计算
    • NumPy使用C语言编写,底层进行了大量的优化,因此执行速度非常快。
    • 它提供了多维数组对象(ndarray),这些对象在内存中是连续存储的,因此可以大大减少CPU的缓存未命中,从而提高计算效率。
  2. 数组操作方便
    • NumPy提供了大量的函数和方法,用于对数组进行各种操作,如切片、索引、排序、统计、线性代数运算等。
    • 这些操作通常都是元素级别的,可以同时对数组中的所有元素进行操作,而无需使用循环,从而大大提高了效率。
  3. 广播机制
    • NumPy的广播机制允许在不同大小的数组之间进行算术操作,而无需显式地复制或扩展这些数组。
    • 这使得在处理不同维度的数据时非常方便,减少了编程的复杂性。
  4. 内存效率
    • NumPy的数组在内存中是连续存储的,因此可以更有效地利用内存空间。
    • 与Python的内置列表相比,NumPy数组使用的内存更少,因为它们不存储任何额外的对象信息(如对象的类型、引用计数等)。
  5. 与其他库的兼容性
    • NumPy是许多其他Python科学计算库的基础,如Pandas、SciPy、Matplotlib等。
    • 这些库都依赖于NumPy的数组对象来存储和处理数据,因此熟悉NumPy对于使用这些库来说是非常有帮助的。
  6. 科学计算的支持
    • NumPy提供了大量的科学计算函数,如线性代数、随机数生成、傅里叶变换等。
    • 这些函数为数据分析提供了强大的支持,使得用户能够轻松地进行各种复杂的计算。
  7. 易于扩展
    • NumPy本身是一个开源项目,其源代码是公开的,用户可以根据自己的需求进行扩展。
    • 此外,NumPy还提供了许多用于创建自定义数组子类的工具,使得用户能够更灵活地处理数据。

3、数组创建

1.利用array函数生成数组

        基本使用格式如下:
        numpy.array( object,  dtype, copy, order, subok, ndmid)

  • object: 传入要转换为数组的数据。
  • dtype:数组元素的数据类型。
  • copy: (可选, 默认为 True)
  • order: (可选, 默认为 'K')。
  • subok:(可选, 默认为 False)。
  • ndmid(可选):生成数组的最小维度。

2.利用NumPy函数生成数组

(1)arange函数:arange([start] stop, [stpe,] dtype=None)

(2)linspace函数:linspace(start, stop, num, endpoint=True, retstep=False, dtype=None)

(3)logspace函数:创建等比数列

(4)其他函数:zeros, eye, diag, ones等
        zeros(shap,dtype=float)   创建全为0的数组
        eye(N, M=None, k=0, dtype=float)    创建对角线为1,其余为0的数组
        ones(shape, dtype=None, order='c')    创建全为1的数组
        full(shape, fill_value, dtype=None, order='c')

4、生成随机数组

        1.np.random.random()方法用于创建一个元素值为0~1的随机数数组,接收一个列表或者元组作为参数。

        2.rand函数可以生成服从均匀分布的随机数。

        3.randn函数可以生成服从正态分布的随机数。

        4.randint 函数可以生成有上下限范围的随机数,其格式如下:
           numpy. random. randint(low, high=None, size=None, dtype='1')

二、pandas数据处理

1、什么是pandas

pandas是Python的一个数据分析包,最初由AQR Capital Management于2008 年 4月开发,并于2009年底开源面市,由专注于Python数据包开发的PyData 开发团队继续开发和维护,属于 PyData项目的一部分。
pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。pandas 的名称来自面板数据(panel data)和 Python 数据分析(data analysis)。 panel data是经济学中关于多维据集的一个术语,在pandas中也提供了panel 的数据类型。

2、pandas的主要功能

1.数据导入和导出:Pandas可以轻松地导入和导出数据,支持多种格式,如CSV、Excel、SQL数据库和HDF5格式。

2.数据清洗和准备:Pandas提供了缺失数据处理、数据重复值检测、异常值处理等功能,以便于进行数据清洗。同时,它还支持数据类型转换和数据集的合并、重塑和旋转。

3.数据分析:Pandas提供了丰富的数据分析工具,可以进行数据描述统计、相关性分析、分组和聚合等操作。

4.数据可视化:Pandas内置了与Matplotlib和Seaborn等绘图库的接口,可以方便地绘制数据的图表,如线图、柱状图、饼图等。

3、Series和DataFrame

Series:一维标签数组,能够保存任何数据类型(整数、字符串、浮点数、Python对象等)。Series中的轴标签被统称为索引。它是Pandas中许多操作的基础构建块。
它由两个相互关联的数组组成,其中主数组用来存放数据,主数组的每个元素都有一个与之关联的标签,这些标签存储在另外一个称为index的数组中。

Series([数据1,数据2,…],index[索引 1,索引2,…])

DataFrame:二维标签数据结构,可以看作是一个表格,包含列(可以是不同的数据类型)。DataFrame有行索引和列索引,可以被看作是一个Series的容器。

三、题目

1、Python中的模块和包 

 在Python中,模块(module)是一个包含Python定义和语句的文件。模块可以定义函数、类和变量,也可以包含可执行的代码。包(package)是一种组织Python模块的方式,它是一个包含多个模块的目录。包中的模块通常被组织成层次化的结构,以便于管理和使用。

导入模块例子:

        导入模块:import math_utils

        导入包中的模块:from utils import math_utils

   utils为包,其中包含一个名为math_utils.py的模块

2、属于NumPy提供的基本对象是array。

3、改变数组的操作有:切片,索引,转置,堆叠。

4、字典对象的.clear()方法可以一次性清空字典中所有条目。

5、已知x= list(range(20)),那么语句print(x[100:200])的输出结果为: 空列表[ ]。

6、Python标准库math中用来计算平方根的函数是math.sprt()。

7、什么是 pandas?Pandas的主要功能是什么?解释Series和DataFrame

        答:在 二、pandas数据处理

标签:数据分析,函数,Python,重点,数组,dtype,NumPy,pandas
From: https://blog.csdn.net/2301_81125272/article/details/140084666

相关文章

  • 数据分析必备:一步步教你如何用matplotlib做数据可视化(13)
    1、Matplotlib文本Matplotlib具有广泛的文本支持,包括对数学表达式的支持,对光栅和矢量输出的TrueType支持,具有任意旋转的换行符分隔文本以及unicode支持。Matplotlib包含自己的matplotlib.font_manager,它实现了一个跨平台,符合W3C标准的字体查找算法。用户可以对文本属性(......
  • 【深度学习】图形模型基础(1):使用潜在变量模型进行数据分析的box循环
    1.绪论探索数据背后的隐藏规律,这不仅是数据分析的艺术,更是概率模型展现其威力的舞台。在这一过程中,潜在变量模型尤为关键,它成为了数据驱动问题解决的核心引擎。潜在变量模型的基本理念在于,那些看似复杂、杂乱无章的数据表象之下,往往隐藏着一种更为简洁、有序的结构和规律,只......
  • MySQL面试重点-2
    16.MySQL数据引擎:引擎分类:showengines命令查看数据库支持的存储引擎。描述一下InnoDB和MyISAM的区别?**InnoDB存储限制64TB,而MyISAM存储限制256TB;InnoDB支持事物,而MyISAM不支持;InnoDB支持外键,而MyISAM不支持;InnoDB支持行级锁(默认)+表级锁,而MyISAM支持表级锁;InnoDB支持MVCC......
  • 数据分析神器Pandas快速入门3类型转换
    序列类型转换3.1自动转换在pandas1.0中,引入了一种新的转换方法.convert_dtypes。它会尝试将Series换为支持pd.NA类型。以city_mpg系列为例,它将把类型从int64转换为Int64:>>>city_mpg.convert_dtypes()01919223310417......
  • AI数据分析012:动态展示全球第一股英伟达10年股价走势
    文章目录一、介绍二、输入内容三、输出内容一、介绍英伟达在过去十年的股价走势展示了其在市场上的强劲表现和显著增长。自1999年上市以来,英伟达的股价经历了多次显著的涨幅,并在2024年达到了历史新高。从2023年6月的数据来看,英伟达的股价为386.54美元/股,市值为9......
  • AI数据分析013:根据时间序列数据生成动态条形图
    文章目录一、介绍二、输入内容三、输出内容一、介绍动态条形竞赛图(BarChartRace)是一种通过动画展示分类数据随时间变化的可视化工具。它通过动态条形图的形式,展示不同类别在不同时间点的数据排名和变化情况。这种图表非常适合用来展示时间序列数据的变化,能够直......
  • AI数据分析004:统计《庆余年2》中的小人物有哪些?
    文章目录一、介绍二、输入内容三、输出内容一、介绍《庆余年2》除了主角表演经常,每个配角小人物也很出彩。那到底有哪些小人物呢?二、输入内容在deepseek中输入提示词:你是一个Python编程专家,要写一个Python脚本,具体步骤如下:读取文档:"D:\qyn\庆余年第二季剧......
  • AI数据分析011:Excel表格智能判断数据起点来计算增长率
    文章目录一、介绍二、输入内容三、输出内容一、介绍计算Excel表格中2023年1月到2024年4月的总增长率和复合增长率。如果数据都有的情况下,公式很简单:总增长率=(O2-B2)/B2复合增长率=POWER((O2/B2),1/13)-1但是,2023年1月、2月、3月的数据,有些有,有些没有,是0......
  • 空间单细胞|基于图像的数据分析(3)
    引言在这篇指南中,我们介绍了Seurat的一个新扩展功能,用以分析新型的空间解析数据,将重点介绍由不同成像技术生成的三个公开数据集。VizgenMERSCOPE(用于小鼠大脑研究)NanostringCosMx空间分子成像仪(用于FFPE人类肺组织)AkoyaCODEX(用于人类淋巴结研究)人肺:NanostringCosMxSpa......
  • 这个大纲涵盖了从基础到高级的 Log Parser 使用技巧和实践,帮助用户全面掌握这一强大的
    LogParser是一个功能强大的工具,用于处理和分析各种日志文件和数据源。以下是一个初级使用教程的大纲,帮助你快速入门和理解其基本功能和用法:1. 介绍和安装什么是LogParser?LogParser是一种强大的命令行工具,用于从多种日志文件、事件日志、CSV文件以及其他结构化数据......