“InvariantStock: Learning Invariant Features for Mastering the Shifting Market”
论文地址:https://arxiv.org/pdf/2409.00671
Github地址:https://github.com/Haiyao-Nero/InvariantStock
摘要
在投资组合管理领域,准确预测股票收益是至关重要的,但传统方法通常未能有效应对市场分布的变化。我们引入了名为InvariantStock的新框架,该框架专注于识别不同市场状况下的稳定特征,以增强对市场变化的适应性。这个框架包括两个核心组件:一个环境感知预测模块,它能够根据市场的变动进行调整;以及一个环境无关特征提取模块,它专注于发现不受特定市场条件影响的特征。研究结果显示,在中国和美国这样波动的股市中,InvariantStock在预测精度和稳定性方面都超越了现有的其他方法。
尽管这项研究展示了技术上的显著进步,但需要注意的是,任何投资活动都伴随着风险,比如市场波动、信用问题和流动性限制。投资者应依据个人的财务状态、投资目的和风险承受力,做出慎重的投资选择,并考虑咨询专业金融顾问。此外,市场表现受多方面因素的影响,历史业绩并不预示未来的表现。因此,投资者应当警惕市场的不确定性,确保信息来源的安全性和可靠性,避免受到投资欺诈的影响。
简介
投资组合优化旨在通过资产管理最大化利润、最小化风险,源于股票收益预测。传统方法如资本资产定价模型(CAPM)和Fama-French三因子模型面临预测准确性挑战。深度学习模型(如CNN、RNN、变换器)在股票收益预测中逐渐取代传统方法,因其优越的拟合能力。近期研究探索了多种信息源,以提升股票市场预测的准确性。
深度学习在股票回报预测中存在局限性,尤其在方法的适应性和范围上。许多模型因设计或计算成本限制,仅适用于少数股票(如DJIA、S&P 500、CSI300),导致训练数据集缺乏多样性,捕捉到虚假相关性。股票市场受政治、经济等多种因素影响,市场分布不断变化,未能考虑这些变化的模型在未来应用中可能不实用。DoubleAdaptr尝试增量训练以适应市场变化,但若不重新训练,可能会出现灾难性遗忘问题。
本文针对股市中的分布转移问题,提出通过识别跨环境一致的特征来增强预测的鲁棒性。从信息论角度出发,框架为 H(Y |F) = H(Y |F, E),目标是学习不受环境影响的特征 F。提出学习框架 InvariantStock,包括环境无关预测模块和环境感知预测模块,分别建模 H(Y |F) 和 H(Y |F, E)。设计高效选择模块,确保所选特征的一致性。实验结果表明,InvariantStock 在多种评估指标上优于其他先进预测方法。
01相关工作
回归预测方法。通过回归分析,可以直接预测股票价格的变动幅度,为投资者提供更为具体和实用的决策指导。在处理时间序列数据时,常用的技术包括卷积神经网络(CNN)、循环神经网络(RNN)以及变换器(Transformer)。研究人员也在探索使用图模型来描绘股票之间的复杂关联,然而,这些方法通常没有考虑到市场环境的变化,这限制了它们在实际投资中的应用效果。
特征选择。在股票预测中,特征选择扮演着关键角色,其目的是降低金融数据中噪音对预测结果的影响。传统的特征选择技术依赖于评估各个特征的重要性,但往往忽略了市场的动态变化。我们的特征选择组件专注于识别那些在不同的市场条件下依然保持相关性和稳定性的特征,以提高预测的准确性。
不变学习。不变学习的目标是构建在各种环境中都能保持一致性的模型表示,特别强调不变特征与因果关系之间的联系。这种方法涵盖了不变风险最小化(IRM)和领域无关表示学习等技术。借鉴Koyama & Yamaguchi(2020)提出的对抗学习策略,我们开发了一个融合了特征选择模块的改进框架,旨在增强模型对不同市场条件的适应性,从而更准确地捕捉到影响股票价格的关键因素。
02问题定义
中国股市预测。考虑到中国股市的涨跌停板制度,使用开盘价进行预测有助于订单顺利成交。目标是:
美国股市预测。针对美国股市,采用收盘价作为预测依据,以便在市场接近收盘时下达订单。目标是:
模型表示。预测任务可以表述为:
其中 ( X ) 为历史特征数据,( T ) 为回溯的时间窗口长度,( D ) 为则是每个时间点上的特征数量,
为特征选择和预测模块参数。
模型稳定性。我们专注于构建能够在不同市场环境中保持稳定性能的学习模型,确保其预测能力不受市场条件变化的影响。
03方法
InvariantStock 的目标是从完整的特征集 X 中,通过环境变量 E 提取那些在不同市场条件下保持不变的特征 F,考虑到股市分布会随着时间(如日期)而变化。为了捕捉市场特征的不均匀性,环境变量 E 使用 One-hot 编码来表示月份和年份。我们引入了一个二进制掩码 M,用于有选择地过滤特征,目的是最大化不变特征 F 与目标变量 Y 之间的互信息。这样做的最终公式可以表达为:
这种方法确保了即使在市场条件发生变化时,所提取的特征依然能够保持其预测价值,从而提高模型的稳定性和泛化能力。
InvariantStock包含三个关键模块:
- 特征选择模块Θ(X):用于识别那些在不同市场条件下都重要的不变特征F。
- 环境感知预测模块Φ_env(F, E):结合环境变量进行上下文敏感预测H(Y |F, E)。
- 环境无关预测模块Φ_inv(F):仅基于特征F进行预测H(Y |F)。
通过这三个模块,InvariantStock 能够有效应对市场分布的变化,同时保持预测的准确性和鲁棒性。
预测模块
预测模块。InvariantStock 的预测模块专注于利用不变特征
F和环境变量 E来预测股票回报,分为两种形式:一种是考虑环境因素的预测,它包含了环境变量 E;另一种则是不依赖于环境变量的预测。
模块架构。该架构基于 FactorVAE 模型,由四个关键组件构成:
- 状态提取器:使用带有注意力机制的 GRU(门控循环单元)来从历史数据中抽取隐藏状态。
- 编码器:负责根据隐藏状态和未来价格变化率构建潜在的后验分布。
- 解码器:结合了潜在变量与隐藏状态,用于估计股票回报。
- 预测器:在推理阶段仅依赖隐藏状态来生成潜在先验分布,以此避免信息泄露。
特征选择模块
InvariantStock 的特征选择模块致力于通过生成的二进制掩码 M 来挑选出不变特征 F ,同时保证原始特征集 X 能够被精确地重建。此模块基于自编码器架构实现,其中 Θ mask 用于生成二进制掩码 M ,而 F 则是通过 M 与 X 的逐元素乘法获得。为了从 F 重构X ,使用了Θ recon 进行解码。在训练过程中,采用直通(Straight-Through)技术来估计不可微分的二进制掩码 M 的梯度,以确保所有重要的不变特征都能被有效选择出来。
这种设计不仅促进了不变特征的选择,还保证了特征选择过程中的信息保真度,从而提高了模型对市场变化的适应性和预测的准确性。
模型训练
InvariantStock 通过一个多阶段训练流程来达成其目标,其中包括环境感知预测模块Φ env 和环境无关预测模块Φ inv,这两个模块分别旨在最大化在给定不变特征 F 及环境变量 E ,以及仅在给定不变特征 F 的条件下对目标 Y 进行预测的可能性。特征选择模块 Θ 的任务是识别那些对股票收益具有持续影响的特征,并通过最小化两个预测模块之间的预测差异来实现这一目标。为了确保所有不变特征都被保留,引入了重构目标,即通过不变特征 F 来恢复原始特征集 X 。
各模块按照特定顺序进行训练:首先训练特征选择模块以识别和提取不变特征,然后依次训练环境感知和环境无关预测模块,最后通过重构目标进一步优化这些不变特征的表示。这样的训练流程确保了模型能够提供准确且可靠的预测,同时具备适应市场变化复杂性的能力。
- 预测目标
环境感知模块和环境对抗模型的目标分别是通过最小化方程13和方程12来优化条件熵。这两个方程中的术语包括最小化预测的均方误差(MSE)损失,同时确保股票在市场中正确排序(由目标排序决定)。具体来说,这两个模块的预测定义为:
考虑到投资组合选择的核心是挑选出最具盈利潜力的股票,我们引入了样本权重 Wt以突出价格波动较大的股票:
对于这两个模块,预测损失均采用加权均方误差(MSE)进行计算,并结合了这些权重。此外,为了保证预测的股票排名与实际表现相吻合,对股票排名应用了铰链(hinge)损失,这对于实际交易中正确选择股票至关重要。这种方法强调准确的排名,从而更有效地选择股票。损失函数定义为:
为了确保模型学习到的表示不会过度拟合特定市场条件,我们使用Kullback-Leibler散度(KLD)来最小化后验分布与先验分布之间的差异:
最终,环境感知和环境无关预测模块的总损失综合考虑了预测精度、排序有效性和分布一致性。这包括计算预测的准确性、股票排名的有效性以及特征分布的一致性,旨在提供一个全面评估模型性能的指标。计算总损失为:
- 特征选择目标
特征选择模块的学习目标是在给定F的情况下,通过最小化Φ env和ϕ inv之间的差距来鼓励Y和E之间的独立性,从而实现H(Y |F) = H(Y |F, E)。这一目标通过以下四项战略实现:
- 最小化预测差距:该模块致力于减少两个预测模块输出之间的差异,使用均方误差(MSE)作为量化指标:
- 最小化排名目标差异:这涉及到缩小两个预测模块在排名目标上的差距,确保它们对股票的排序尽可能一致:
- 最小化潜在变量的KLD:通过最小化由两个预测模块生成的潜在变量分布之间的Kullback-Leibler散度(KLD),以保证这些分布的一致性:
- 重建目标:为了在选择不变特征的同时尽量减少信息损失,引入了重建目标,旨在最大化条件熵 H(F∣mask(F))H(F∣mask(F)),确保特征选择过程中的信息保真度:
最终,特征选择模块的总学习目标是综合上述各要素,形成一个全面的目标函数:
这个综合目标体现了特征选择的多方面方法,强调了准确预测、有效重建以及潜在变量对齐的重要性。通过这种方式,InvariantStock 的特征选择模块旨在确保模型能够提供稳健且可靠的股票回报预测,同时适应市场变化。
推理过程
在推理阶段,训练框架不再需要,以确保所选特征对环境变化具有不变性。因此,仅保留了掩码模块和环境无关预测模块用于推理。环境感知模块和重建模型则仅在训练过程中发挥作用。这样,在推理时,计算复杂度和资源消耗大大降低,显著低于训练阶段的要求。这种设计保证了模型在实际应用中能够高效运行,同时保持对不同市场条件的适应能力。
05实验
- 问题一:InvariantStock 模型在市场波动期间对未曾观察过的股票预测的有效性如何。
- 问题二:InvariantStock 模型在不同市场环境中的表现是否具有一致性。
- 问题三:在市场条件变化时,哪些特征对于预测结果的影响最为显著。
数据集
对中国和美国股市进行了超过20年的综合评估,数据集详情见表1,旨在真实反映市场状况并最小化偏差。
中国股市的测试集涵盖了从2020年初到2022年10月的时间段,在此期间,由于COVID-19的影响和宽松的货币政策推动了股市的上涨,而到了2021年底,由于通胀压力和加息预期,市场出现了下跌。上海综合指数在此期间表现出显著的波动性。测试集包含了1386只新上市的股票,非常适合用于评估模型对市场分布变化的适应能力。
对于美国股市,我们采用了类似的数据处理方法,但特征集较为精简,仅包含开盘价、最高价、最低价、收盘价、成交量和价格变动比率六个关键特征。这些数据同样用于评估模型在不同市场条件下的表现。
基线
市场基准:选择CSI300指数(针对中国市场)和道琼斯工业平均指数(DJIA,针对美国市场)作为衡量市场表现的基准指标。
数据集基准:在构建投资组合时,每只股票被分配了相等的资产权重,且不考虑交易佣金费用的影响。
FactorVAE:预测模块基于变分自编码器(VAE)框架构建,该方法借鉴了Duan等人(2022)的研究成果,旨在提高特征表示的学习效果。
DoubleAdapt:此方法结合了数据适配器和模型适配器,通过元学习策略来应对不同领域之间的转变,其设计参考了Zhao等人(2023)的工作,以增强模型的适应性和泛化能力。
扩散变分自编码器(DVA):采用层次变分自编码器与扩散概率模型相结合的方法,用于预测多步股票收益。在实际应用中,仅使用预测序列的第一个元素进行评估,这一方法受到了Koa等人(2023)研究的启发。
投资合作模拟
采用TopK策略构建投资组合时,选择预测收益最高的k只股票进行多头操作,并选择预测收益最低的k只股票进行空头操作。在中国股市中,由于市场规则限制,仅能执行多头交易,且“涨停”和“跌停”机制可能影响买卖订单的成交。而在美国市场,既允许多头也允许空头操作。无论是在哪个市场,每次交易均会收取0.0015的佣金费用。
评估指标
性能评估指标包括:
- 信息系数 (IC):衡量目标与预测之间的相关性。
- IC信息比率 (ICIR):评估预测的一致性和可靠性。
- 排名信息系数 (RankIC):考察预测排名与实际目标排名的相关性。
- RankIC信息比率 (RankICIR):衡量预测排名的一致性和可靠性。
回测指标则涵盖:
- 年化收益率 (ARR):该值越高,表示投资表现越好。
- 最大回撤 (MDD):该值越低,表明投资风险控制得越好。
- 夏普比率 (SR):该值越高,意味着每单位风险获得的超额回报越高。
适用性:
- IC和RankIC系列指标用于预测方法(如FactorVAE等)。
- ARR、MDD和SR用于回测效果评估。
中国股市表现(问题一)
在对中国股市的比较分析中,InvariantStock 展现了卓越的表现,显著超越了其他方法,特别是 FactorVAE。通过其特征选择模块和多元化的学习目标,InvariantStock 有效地增强了模型的功能,突出了特征选择的关键作用。DoubleAdapt 的回报趋势与基准数据集更加吻合,而 DVA 方法的表现则不尽如人意。InvariantStock 在应对中国股市分布变化方面表现出色,相比之下,其他基线方法遇到了更多挑战。自2021年2月以来,尽管市场存在下行压力,InvariantStock 的累计回报依然保持持续增长,并且表现稳健。
美国股市表现(问题二)
在美国数据集上,InvariantStock 的表现虽然不如在中国数据集上突出,这可能归因于特征种类较为有限(仅包括六个与价格相关的特征)。即便如此,InvariantStock 在 RankIC 和 RankICIR 上仍然优于其他基线方法,并且在年化收益率 (ARR) 和夏普比率 (SR) 的回测结果中也表现出色,显示出其强大的选股能力。DoubleAdapt 表现良好,但在各项指标上仍略逊于 InvariantStock。FactorVAE 的 ARR 略高于 DJIA,而 DVA 方法在美国市场的表现则不尽如人意。值得注意的是,所有方法的最大回撤 (MDD) 都比 DJIA 更差,表明这些模型在美国市场的风险控制方面存在不足,这可能是由于可用特征的局限性所致。
不变特征选择(问题三
在中国测试集上,特征的均值分析表明,基本面特征(如开盘价、收盘价等)对于预测的稳定性至关重要,而价格特征则增加了预测的波动性。InvariantStock 的特征选择模块能够有效识别并利用这些不变的基本面特征,从而实现了稳定的股票回报预测。相比之下,美国数据集仅包含价格特征,这限制了 InvariantStock 的表现,使其不如在中国数据集上的效果。
在设定的20天回溯窗口内,各特征对预测的影响相对稳定,其中低价特征在维持预测稳定性方面尤为重要。分析最盈利的交易发现,掩码在不同日期间有所变化,但在相近日期间的相似度较高。此外,第二板市场(如创业板)的交易更为盈利,因为其价格限制较为宽松,提供了更大的价格波动空间,有利于捕捉更多盈利机会。
消融分析
加权掩码与二进制掩码。在中国市场的特征选择中,两者在测试集上的表现(如IC、ICIR、RankIC、RankICIR)非常接近,但在回测结果(如ARR、MDD、SR)方面,二进制掩码的表现优于加权掩码。这可能是因为在投资组合选择中采用了TopK策略,使得二进制掩码更有效地选择了最具潜力的股票。
投资组合规模。无论是中国市场还是美国市场,InvariantStock 方法的夏普比率在不同规模的投资组合中始终优于其他方法。特别是当投资组合包含100只股票时,其表现最为优异,显示出相对较好的风险调整后收益。随着投资组合中股票数量的增加,各方法的表现逐渐趋近于数据集的基准水平,因此引入了基准进行比较,以评估不同规模投资组合的有效性。
06限制和未来工作
本研究聚焦于在不同环境下学习不变特征,模型更倾向于依赖基本特征而非价格特征。如果排除某些价格特征,可能会导致预测能力的下降,特别是在目标与特征之间存在未观察到的混杂变量时。探索和识别潜在变量可以填补这一空白,是未来研究的一个重要方向。目前,我们使用日期索引作为环境变量,但未来的研究可以考虑采用市场条件、资产类型和地理区域等更为多样化的替代变量,以增强模型的适应性和预测准确性。
07总结
本研究考察了政策和经济环境变化所引发的市场分布转变,提出了一种名为 InvariantStock 的学习框架,该框架旨在通过识别和利用不变特征来应对这些分布的变化。我们进行了严格的实验,在未见过的股票上测试了 InvariantStock 的韧性和有效性。对中国和美国股市的回测结果显示,InvariantStock 表现优异且具有高度可靠性。研究发现,股票预测更依赖于基本特征而非与股价直接相关的特征。目前的投资组合构建方法相对简单,未来的研究可以着眼于进一步优化这些策略,以提升模型的表现和适应性。
标签:InvariantStock,预测,特征选择,模型,特征,模块,动态,优化 From: https://blog.csdn.net/AI16947/article/details/144959213