Task3:进阶上分方向讨论
特征工程详细解析
特征工程是机器学习预处理过程的核心部分,关注从原始数据中提取和构建新特征以优化模型的表现。其核心目的在于通过精心选择和创新性构建特征,从而让模型更有效地解析数据并准确预测目标变量。
时间序列特征构造详解
时间序列数据的特征构造尤为关键,因为这直接关系到模型的预测能力。以下是几种高效的特征提取方法:
- 时间戳特征:从时间戳中细化提取年、月、日等信息。
- 历史信息特征:例如,计算过去n期的同一日期的数据均值和标准差。
- 滞后特征:数据的时间平移,如使用上周同一时间的数据作参考。
- 滑窗特征:计算过去一定周期(如7天、14天等)的统计量,包括均值、最大值、最小值等。
- 周期性特征:利用三角函数将时间戳映射为周期性数值。
- 异常值特征:基于统计原理(如3σ原则)检测并利用异常值。
- 节假日及外部数据:将公共假期和其他外部事件作为模型输入。
时间序列预测的深度分析
时间序列预测的成功依赖于精确而有力的特征提取:
- 周期性和趋势性识别:通过分析周期性和趋势性,模型可以捕捉到数据的内在规律。
- 时间差特征:特定日期(如节假日、促销日)到当前日期的距离,有助于模型评估时间效应。
- 组合时间特征:将不同时间单位组合(如月-日,年-周)提供更多上下文。
- 特殊日期处理:特殊事件带来的数据波动,需要模型特别识别和学习。
时间序列挖掘 时间特征: 根据之前的分析,具体会挖掘以下特征: 根据月份信息,判断是否为风季(1-5月和9-12月) 根据小时信息,判断是否为低谷时段(10-15点) 判断训练数据的索引是否在春节日期列表中 断训练数据的索引是否在劳动节日期列表中 这是因为,基于季节、时间的天气变化会影响光伏发电的发电量, 进而使火力发电有更好,或者更差的市场需求。 而节假日期间,火力发电往往会产生负电价,在五一、春节期间 尤为明显。 总体而言,是为了找出对结果有显著影响的特征, 为此,还会构筑更多特征,例如demand的滞后特征,差分特征,百分比特征等。 考虑到新能源,即光伏发电会在未来占据更多市场,还会对结果进行整体缩放。 ABM报价策略优化 报价机制: 在Task2中我们分析过,实际上的报价会根据现实情况进行变动,而非不变的。 分析总结下来,市场需求低的时候,机组会降低报价,避免无法中标; 而市场需求高的时候,机组会提高报价,以求得到更高收益。 强化学习 强化学习的几个要素包括状态、动作、奖励和策略。其中,对于这个题目而言,状态空间连续,动作主要是出价的方式。这里想要训练一个好的强化学习模型,更重要的是设计好的奖励函数和策略,使得每一次训练的出价策略能够有恰到好处的收益。这需要一定的实践经验。 在一个强化学习环境里面,智能体的目的就是选取一系列的动作来最大化奖励,所以这些选取的动作必须有长期的影响。也就是说,智能体在决策中的每一步累计起来,最后形成了交易中的好结果与坏结果,这是个序列决策。整个决策的状态本质上是一个关于其历史的函数。
特征优化策略
在此阶段,重点是构建如下几类特征以提高预测精度:
- 历史平移特征:利用过去阶段的数据来预测未来。
- 差分特征:分析相邻时间点之间的变化,捕捉趋势和周期性。
- 窗口统计特征:基于不同窗口期的统计数据,如均值、方差等,反映最近的数据趋势。
未来方向与总结
时间序列预测领域正在迅速发展,我们期待未来在模型结构、数据融合、模型解释性等方面的进一步优化。特别是深度学习技术,如长短期记忆网络(LSTM)及其变种,已经在众多应用场景中展现出卓越性能。
标签:task3,AI,模型,datawhale,特征,时间,序列,数据 From: https://www.cnblogs.com/sun17-/p/18341306