关于Python中的series详解与应用

标签：20 Python series 分隔符详解 Series print series1 data

引言

近期在学习Python的过程中学到了Pandas库，它是数据处理操作中一款非常强大且流行的工具。而Pandas的两个核心数据结构是Series和DataFrame(下一篇文章便会进行有关学习)。本篇将详细介绍Series，主要包括它的定义、创建方法、常用操作、应用场景以及与其他数据结构的比较，仅为自己后续巩固及与大家分享。

什么是Series

Series是Pandas库中的类似于一维数组的数据结构，能够存储任何数据类型（整数、浮点数、字符串、对象等）。它类似于Python的列表或字典，但提供了更多的功能和操作方法。每个Series都有一组索引（index），用于标识数据的标签，是理解高阶数据结构DataFrame的基础。

创建Series

在Python中可以通过多种方式创建Series，常见的方法包括使用列表、字典或Numpy数组。

import pandas as pd
import numpy as np

# 方法1:使用列表创建Series
data = [1, 2, 3, 4, 5]
series1 = pd.Series(data)
print(series1)
print("*" * 20, "分隔符", "*" * 20)

# 方法2:使用字典创建Series
data = {'a': 1, 'b': 2, 'c': 3}
series2 = pd.Series(data)
print(series2)
print("*" * 20, "分隔符", "*" * 20)

# 方法3:使用Numpy数组创建Series
data = np.array([1, 2, 3, 4, 5])
series3 = pd.Series(data)
print(series3)

上述代码运行结果

0    1
1    2
2    3
3    4
4    5
dtype: int64
******************** 分隔符 ********************
a    1
b    2
c    3
dtype: int64
******************** 分隔符 ********************
0    1
1    2
2    3
3    4
4    5
dtype: int32

Series的常用操作

访问和修改数据

可以通过使用索引或标签访问Series中的数据。

# 通过位置访问数据
print(series1[0])  # 输出: 1

# 通过标签访问数据
print(series2['a'])  # 输出: 1

# 修改数据
series1[0] = 10
print(series1)

切片操作

Series支持类似于Python列表的切片操作

data = [1, 2, 3, 4, 5]

index_labels = ['a', 'b', 'c', 'd', 'e']

s = pd.Series(data, index=index_labels)

# 切片操作
print('原始Series:',s)
print("*" * 20, "分隔符", "*" * 20)
print(s['a':'c'])  # 包括终止位置
print("*" * 20, "分隔符", "*" * 20)
print(s[1:4])  # 不包括终止位置

运算操作

Series支持许多基本的数学运算，如加法、减法、乘法和除法。

import pandas as pd
data1 = [1, 2, 3, 4, 5]
data2 = [5, 4, 3, 2, 1]
index_labels = ['a', 'b', 'c', 'd', 'e']
s1 = pd.Series(data1, index=index_labels)
s2 = pd.Series(data2, index=index_labels)
# 加法
result_add = s1 + s2
print("Addition:")
print(result_add)
print("*" * 20, "分隔符", "*" * 20)

# 减法
result_sub = s1 - s2
print("\nSubtraction:")
print(result_sub)
print("*" * 20, "分隔符", "*" * 20)
# 乘法

result_mul = s1 * s2
print("\nMultiplication:")
print(result_mul)
print("*" * 20, "分隔符", "*" * 20)

# 除法
result_div = s1 / s2
print("\nDivision:")
print(result_div)

Addition:
a    6
b    6
c    6
d    6
e    6
dtype: int64
******************** 分隔符 ********************

Subtraction:
a   -4
b   -2
c    0
d    2
e    4
dtype: int64
******************** 分隔符 ********************

Multiplication:
a    5
b    8
c    9
d    8
e    5
dtype: int64
******************** 分隔符 ********************

Division:
a    0.2
b    0.5
c    1.0
d    2.0
e    5.0
dtype: float64

基本统计操作

Series提供了丰富的统计函数，如求和、均值、最大值、最小值等。

print(series1.sum())  # 输出: 所有元素的和
print(series1.mean())  # 输出: 所有元素的均值
print(series1.max())  # 输出: 最大值
print(series1.min())  # 输出: 最小值

过滤和条件操作

可以使用条件语句对Series进行过滤操作。

# 过滤series1中大于2的元素
filtered_series = series1[series1 > 2]
print(filtered_series)

缺失值处理

Series可以处理缺失值（NaN），并提供了相关的函数来检测和处理这些值。

data_with_nan = [1, 2, np.nan, 4, 5]
series_with_nan = pd.Series(data_with_nan)

# 检测缺失值
print(series_with_nan.isna())
print("*" * 20, "分隔符", "*" * 20)
# 将缺失值填充为0
filled_series = series_with_nan.fillna(0)
print(filled_series)

上述代码运行结果如下：

0    False
1    False
2     True
3    False
4    False
dtype: bool
******************** 分隔符 ********************
0    1.0
1    2.0
2    0.0
3    4.0
4    5.0
dtype: float64

Series的应用场景

时间序列分析

Series特别适合处理时间序列数据，例如股票价格、气温变化等。

dates = pd.date_range('20230101', periods=5)
data = [1, 2, 3, 4, 5]
time_series = pd.Series(data, index=dates)
print(time_series)

上述代码运行结果如下：

2023-01-01    1
2023-01-02    2
2023-01-03    3
2023-01-04    4
2023-01-05    5
Freq: D, dtype: int64

数据清洗与预处理

在数据清洗和预处理中，Series用于处理单列数据，如删除重复值、处理缺失值等。

# 删除重复值
data = [1, 2, 3, 4, 5,5,6,6]
series1 = pd.Series(data)
print('去重前：',series1)
unique_series = series1.drop_duplicates()
print("*" * 20, "分隔符", "*" * 20)
print('去重后:',unique_series)

上述代码运行结果如下：

去重前： 0    1
1    2
2    3
3    4
4    5
5    5
6    6
7    6
dtype: int64
******************** 分隔符 ********************
去重后: 0    1
1    2
2    3
3    4
4    5
6    6
dtype: int64

数据转换

Series可以与其他数据结构互相转换，如列表、字典、Numpy数组等。

# 转换为列表
list_data = series1.tolist()
print(list_data)
print("*" * 20, "分隔符", "*" * 20)

# 转换为字典
dict_data = series1.to_dict()
print(dict_data)
print("*" * 20, "分隔符", "*" * 20)

# 转换为Numpy数组
array_data = series1.to_numpy()
print(array_data)

Series与其他数据结构的比较

与列表：Series与列表相似，但Series具有标签，可以进行更复杂的操作。
与字典：Series与字典都使用键值对存储数据，但Series提供了更多的操作方法和统计功能。
与Numpy数组：Series基于Numpy数组构建，提供了更多的功能，如标签、缺失值处理等。

结论

Series是Pandas中非常重要的数据结构，提供了丰富的功能和方法，适合处理一维数据。无论是在数据分析、数据清洗还是时间序列分析中，Series都能够提供极大的便利。希望通过此次的分享，为自己后续使用能够更好地理解和应用，也能为大家提供些许帮助。

标签：20,Python,series,分隔符,详解,Series,print,series1,data
From： https://blog.csdn.net/qq_67696694/article/details/140276692

关于Python中的series详解与应用

引言

什么是Series

创建Series

Series的常用操作

访问和修改数据

切片操作

运算操作

基本统计操作

过滤和条件操作

缺失值处理

Series的应用场景

时间序列分析

数据清洗与预处理

数据转换

Series与其他数据结构的比较

结论

相关文章

赞助商

阅读排行