首页 > 其他分享 >pandas:时间序列数据的周期转换

pandas:时间序列数据的周期转换

时间:2024-04-30 17:36:04浏览次数:29  
标签:00 01 转换 df resample 序列 数据 pandas

时间序列数据是数据分析中经常遇到的类型,为了更多的挖掘出数据内部的信息,
我们常常依据原始数据中的时间周期,将其转换成不同跨度的周期,
然后再看数据是否会在新的周期上产生新的特性。

下面以模拟的K线数据为例,演示如何使用pandas来进行周期转换。

1. 创建测试数据

首先创建测试数据,下面创建一天的K线数据,数据的间隔为1分钟(1min)。

import pandas as pd
import numpy as np

# 创建时间序列的列,时间间隔1分钟
date_col = pd.date_range("2024-01-01", "2024-01-02", freq="1min")
data_len = len(date_col)

# 模拟的K线数据
df = pd.DataFrame(
    np.random.randint(1, 10, size=(data_len, 5)),
    columns=["open", "close", "high", "low", "volumn"],
)

df.insert(0, "begin_time", date_col)
df

image.png
其中各个字段的含义:
open(开盘价),close(收盘价),high(最高价),low(最低价),volumn(成交量)。

2. 周期转换和数据聚合

如果有股票或者类似交易的朋友都知道,K线的时间间隔是不固定的,不一定像上面的测试数据那样间隔1分钟,
一般根据自己的买卖频率会查看不同时间间隔的K线

但是采集数据时,一般不会去采集各种时间间隔的K线,我们可以根据1分钟K线,去转换其他不同时间间隔的K线
转换的方法,就是使用pandasresample函数。
通过resample周期转换其实就是以一定的周期对数据进行groupby,所以,resample也像groupby一样,需要对新周期中的数据进行聚合。

比如,下面的数据我们将1分钟的K线转换为5分钟的K线。

df.resample("5min", on="begin_time").agg({
    "open": "first",
    "close": "last",
    "high": "max",
    "low": "min",
    "volumn": "sum",
})

image.png

比如,原始数据每5个聚合成一个。
以前5个数据(2024-01-01 00:00:00~2024-01-01 00:04:00)为例。
image.png
open取第一个值,close取最后一个值,high取最大值,low取最小值,volumn取合计值。

除了上面的5分钟的数据,通过resample还可以聚合15分钟的K线,1小时4小时等等各种时间间隔的K线。
方法类似,这里不再一一赘述。

3. 周期中的缺失值

对于完整的数据,就像上面那样转换即可,然而实际情况下的数据,部分缺失的情况是很常见的,
特别是上面的1分钟K线数据,极有可能1分钟没有交易,出现缺失的情况,有可能连续5分钟都没有数据。

下面看看数据缺失时,resample转换的情况。
先从上面的测试数据中取20个再进行一些删减,构造数据缺失的情况:

df_ = df.copy()
df_ = df_.iloc[:20]
df_ = df_.drop([3, 5, 6, 7, 8, 9, 10, 15, 16])
df_ = df_.reset_index(drop=True)
df_

image.png
每组都有一些缺失,其中(2024-01-01 00:06:00~2024-01-01 00:10:00)整个5分钟的数据都缺失了。

此时,再按照5分钟间隔来resample,得到:

df_.resample("5min", on="begin_time").agg({
    "open": "first",
    "close": "last",
    "high": "max",
    "low": "min",
    "volumn": "sum",
})

image.png

从中可以得出两个结论:

  1. 部分缺失,就用剩余的数据来聚合计算(比如5分钟的数据就剩3条,那就用这3条来聚合)
  2. 整个缺失,那么就用聚合函数的默认值来填充,比如上面2024-01-01 00:05:00这条

4. 总结

时间序列数据的分析过程中,周期转换是一个很常用的操作。

不过,不是简单的用resample来转换就完事了,
周期转换之后也会带来新的问题,比如上面示例中由于转换形成的空值,
这些空值是要直接丢弃?还是要插值?
如果要插值的话,是用基准数据来填充?还是用平均值?用移动平均值?用中位数?等等来插值,
这些都需要根据具体的分析场景和使用的分析算法来进一步讨论。
本文主要介绍使用resample来转换数据,而关于插值方法的详细讨论将另文阐述。

标签:00,01,转换,df,resample,序列,数据,pandas
From: https://www.cnblogs.com/wang_yb/p/18168443

相关文章

  • 集成了高压初级侧开关,INN3649C-H606-TL、INN3678C-H606-TL、INN3676C-H601-TL 离线转
    1、详情InnoSwitch3-EP系列IC可极大简化低压大电流电源的开发和制造,尤其是那些采用紧凑外壳或需要满足高效率要求的电源。InnoSwitch的架构极具革新性,因为该器件同时将初级和次级控制器以及检测元件和符合安全标准的反馈机制集成到了单个IC中。装置整合了多种保护功能,包括线电压......
  • [990] Functions of pandas
    Series.isxxxx()Series.isin():WhetherelementsinSeriesarecontainedin values.top_oceania_wines=reviews[(reviews.country.isin(['Australia','NewZealand']))&(reviews.points>=95)Series.str.islower():Checkwh......
  • [989] How to Use the Apply Method in Pandas
    References:Tutorial:HowtoUsetheApplyMethodinPandaspandas.Series.applypandas.DataFrame.apply1.pandas.Series.applyApplyafunctiontoeachelementofaSeries. importpandasaspd#CreateaSeriess=pd.Series([1,2,3,4,5])#Define......
  • Delphi XE 时间和时间戳互转换【转】
    DelphiXE时间和时间戳互转换usesSystem.DateUtils;functionTForm1.Gettamptime(vlen:Integer):string;varss:string;beginifvlen=13thenbeginss:=DateTimeToTimeStamp(now).time.ToString;Result:=IntToStr(DateTimeToUnix(Now,false))+Copy......
  • openGauss 创建和管理序列
    创建和管理序列背景信息序列Sequence是用来产生唯一整数的数据库对象。序列的值是按照一定规则自增的整数。因为自增所以不重复,因此说Sequence具有唯一标识性。这也是Sequence常被用作主键的原因。通过序列使某字段成为唯一标识符的方法有两种:一种是声明字段的类型为序列整型......
  • openGauss 将磁盘表转换为MOT
    将磁盘表转换为MOT磁盘表直接转换为MOT尚不能实现,这意味着尚不存在将基于磁盘的表转换为MOT的ALTERTABLE语句。下面介绍如何手动将基于磁盘的表转换为MOT,如何使用gs_dump工具导出数据,以及如何使用gs_restore工具导入数据。前置条件检查检查待转换为MOT的磁盘表的模式是否包含......
  • 用Mermaid画流程图、序列图、类图、甘特图
    左手编程,右手年华。大家好,我是一点,关注我,带你走入编程的世界。公众号:一点sir,关注领取编程资料Mermaid简介Mermaid是一种基于文本的图表定义语言,它允许开发者使用文本和代码的形式来创建图表。这种语言的设计初衷是为了方便版本控制和多人协作,同时简化图表的维护和更新过程。......
  • [postgres]序列
    前言序列都是用createsequence命令创建的单行表,常用于为表的行生成唯一的标识符。相关函数函数作用nextval()递增序列并返回新值currval()返回最近一次用nextval()函数获取的指定序列的值lastval()返回最近一次用nextval()函数获取的任何序列的值setval(......
  • paddlepaddle自定义网络模型及onnx模型转换与推理
    前面介绍过了使用Paddleseg套件训练后,使用export.py文件导出模型为推理部署模型。具体可以参考之前的:https://www.cnblogs.com/wancy/p/18028138本文介绍使用paddle自定义简单二分类CNN模型到训练数据集再到转换onnx模型推理。1. 数据集划分我这里将数据划分为tr......
  • 【C】---- T5:天数转换成周数
    题目编写一个程序,提示用户输入天数,然后将其转换成周数和天数。通过while循环让用户重复输入天数,当用户输入一个非正值时(如0或-20),循环结束。编程#include<stdio.h>intmain(void){intdays,week,day;printf("pleaseinputdays:");scanf("%d",&days);//......