作者:老余捞鱼
原创不易,转载请标明出处及原作者。
写在前面的话:
数据驱动的监督学习与强化学习相结合,在股票交易中呈现出巨大潜力。通过有序地引入训练样本(课程学习),可以加速收敛并优化解决方案。本文提出的金融课程学习方法在自动化股票交易中取得了超越常人的表现。首先,利用高质量的金融数据集进行模仿学习,获得初步的解决方案。其次,运用强化学习技术,开发新型的课程学习策略,助力交易者超越市场表现。
一、简介
金融市场的繁杂性与不可预测性给代理学习带来了挑战,尤其是黑天鹅事件。资产管理与金融顾问相融合,Robo-advising 在金融强化学习(FinRL)中日益流行,但也面临着以下难题:
- 市场环境噪声大,信噪比低。
- 深度强化学习算法缺乏可解释性,容易受到前瞻性偏差和模型过拟合的影响。
- 市场中不同交易者的交易行为未得到充分利用,对市场动态的理解也不够深入。
- 金融机构对开源基准和数据集的接受程度较低,用户隐私和保密协议限制了研究的开展。
课程学习作为一种解决方案,通过逐步学习复杂任务,将模仿学习与强化学习相结合,提高智能代理的交易决策能力。本文提出的金融课程学习方法通过模仿历史数据,为智能代理提供了一种有效的学习方式。
二、相关工作
2.1 课程学习
课程学习(curriculum learning)能够增强代理在金融市场中的表现,这与人类教育系统中的逐步学习类似。现有的课程学习技术主要在语言处理和完全信息游戏中得到应用,尚未在具有随机性和信息隐藏性的环境(如金融市场)中进行充分的测试。本研究的目的是验证课程学习在嘈杂金融环境中的有效性,该研究分为两个阶段:首先通过模仿学习来捕捉智能散户投资者的交易行为,然后使用深度强化学习来开发额外的策略。
2.2 模仿学习
模仿学习可用于初始化深度神经网络,以实现接近人类水平的表现,且通常依赖专家示范数据集。模仿学习为后续的强化学习提供了良好的开端,而强化学习则通过试错学习来超越人类表现。在市场情境下,代理会优化下一步的交易动作,此时模仿学习被视为一种特定的监督学习形式。
2.3 金融强化学习
Liu et al. (2018) 使用DRL进行交易,采用DDPG算法。Zhang et al. (2020) 应用DQN、PG和A2C算法进行训练。Liang et al. (2018) 采用DDPG、PPO和PG进行对抗训练,取得良好回测结果。Hambly et al. (2023) 调查DRL在股市交易、投资组合管理等领域的应用。FinRL Liu et al. (2020) 提供金融强化学习的完整流程。FinRL-Meta Liu et al. (2022) 提供动态数据集和基准。现有研究未解决DRL的不稳定收敛问题,表现不及智能散户投资者。
三、股票市场的散户高频交易活动和信息
研究散户投资者行为的重要意义在于为机器人顾问提供投资建议。将高频金融数据与深度强化学习(DRL)相结合,能够有效地分析散户投资者的行为。通过 Boehmer 等人(2021)的研究,获取高频零售交易数据成为了可能。利用高频价格和交易数据构建的指标,有利于实时把握股市动态。高质量的零售交易数据为 FinRL 的开放式解决方案奠定了基础。
3.1 数据集概述
对美国股市交易数据进行分析后,我们发现散户投资者的正向订单不平衡(净买入)在未来 5 天内的表现优于负向订单。该数据样本涵盖了 2010 年至 2021 年间的 6700 多只股票,以及超过 1100 万条日交易记录,从而验证了 Boehmer 等人(2021)的主要发现。零售市场订单不平衡在小盘股和特定行业(如消费品、能源、科技、医疗)中显示出较强的预测能力。将不同规模和行业的投资策略相结合,年化收益率可达 20.5%,夏普比率为 2.54,显著超过主要市场指数。这些数据为研究人员和分析师提供了宝贵的资源,也为智能散户投资者和机器人顾问提供了有价值的替代数据。
3.2 交易活动及表现
散户投资者的可交易订单与机构订单能够有效地区分开来,因为机构通常无法享受到几美分的价格改善。Boehmer 等人(2021)借助历史交易数据,成功识别出了具有市场价值的零售价格改善订单。通过设定阈值,他们将极端信号分为以下几类:买入(95 百分位以上)、卖出(5 百分位以下)以及持有(介于两者之间)。同时,他们还应用了简单的检测过滤器来捕捉交易异常情况。在 12 年的样本期内,买入组合的回报约为 10 倍,而卖出组合的回报则为 3 倍,这充分显示了散户投资者强大的交易行为。长短策略将两者的组合相结合,预期回报率接近 170%。他们使用 5 天的几何平均回报作为日回报率,结果表明买入组合明显优于卖出组合。
3.3 交易指标
人类交易者基于基本面分析做出决策。散户投资者对技术分析和股票图表非常热衷。我们收集了每个股票日观察的40多个交易指标。研究这些指标如何影响散户投资者的交易决策。
四、问题假设
把股票交易当作马尔可夫决策过程(MDP),并将其转化为优化问题。利用 2021 年的数据展开深入探究,来剖析智能交易投资者。
4.1 假设
a. 假设条件:
- 仅允许多头策略,禁止卖空。
- 交易无手续费。
- 不考虑股票分红。
- 市场流动性充足,订单总能按日收盘价成功执行。
b. 交易策略:
- 模仿散户投资者,基于多种技术指标进行交易。
- 使用来自TAQ数据库的43个高频交易指标,首次结合深度强化学习。
4.2 MDP建模与市场环境
a. 市场动态与挑战:二级市场噪声大,导致生成alpha和预测价格困难,因此将股票交易任务建模为马尔可夫决策过程(MDP)。
b. 状态空间:
- b_t:账户剩余现金,默认100,000美元。
- h_t:当前持股数量向量。
- p_t:每日收盘价向量。
- F_t:43个技术指标向量,用于挖掘alpha信号。
c. 动作空间:每只股票有三种交易动作:持有(0)、买入(1)、卖出(-1)。
d. 奖励机制:奖励为投资组合价值的相对变化,计算公式为投资组合价值的回报率。
e. 策略:基于状态s的交易策略,定义为代理对股票的买入、卖出或持有的倾向。
f. 学习环境:代理根据市场信息和当前投资组合调整策略,反馈包括市场奖励。
g. 专家代理:引入专家代理作为监督,结合人类反馈,形成课程学习解决方案。
五、金融课程学习
股票交易属于高维组合问题,单纯使用监督学习或强化学习都有其局限性。为此,我们提出了一个两阶段的金融课程学习方案,以结合这两种学习方法的优势。第一阶段是模仿学习,旨在快速接近零售交易者的水平;第二阶段则是深度强化学习,以实现超越性能。
5.1 模仿学习
股票价格是非平稳时间序列,受市场情绪驱动。数据集提供了股票交易的专家示范,适合通过模仿学习实现交易。
a. 目标函数
监督学习有学习性能上限,强化学习在金融数据中不稳定,因此采用课程学习结合两者优点。目标函数为:
L为交叉熵损失,r为每日收益率,lambda随时间增加,优先学习人类专家的知识。通过课程学习,代理可以利用人类交易者的领域知识,避免陷入局部最优。
b. 正则化奖励
目标定义示例了奖励塑形,但在多反馈类型的 RL 环境中,动态变化显著。环境动态快速且多变,包含市场和人类反馈,反馈信号规模不一。神经网络对极端梯度值敏感,可能导致梯度爆炸或消失,因此需要对反馈进行重新平衡。引入动态标准化方案,通过历史访问自更新代理的分布参数,提升训练稳定性和加速收敛。运行均值、标准差和平方和差异的估计公式提供了动态更新的方法。
5.2 深度强化学习(DRL)
a. 近端策略优化(PPO)
PPO是一种基于策略的演员-评论家算法。训练过程结合了离线训练和在线搜索。代理通过与环境交互收集经验,然后在收集到足够数据后进行学习和策略优化。
b. 策略网络
股票交易的复杂性给行动模拟带来了挑战,特别是在股票选择和市场时机的决策方面。通过关注 100 只最受散户投资者交易的股票,我们简化了行动空间,将其定义为买、卖、持有三种行为,每次操作的最小单位为 1 股。引入多元概率分布 P 和神经网络,将空间维度显著降低至 M×100×3。尽管行动选择有限,但考虑 100 只股票的组合仍然非常庞大,类似于围棋的复杂性。我们采用演员-评论家框架,其中演员网络能够更好地近似下一步动作。
六、表现评估
所提出的课程学习方法有利于新手交易代理的平稳起步。学生代理具备超越导师的潜力,能够表现优异。
6.1 实验设计
实验使用三种训练方法:监督学习(SL)、强化学习(RL)和课程学习(CL)。所有方法均采用离线训练和在线搜索。
6.2 结果
a. 模型训练
纯 RL 代理从随机探索开始,逐步掌握股票交易。SL 代理的性能受到专家知识的限制,表现上限较为明显。CL 代理在训练中表现稳定,收敛速度快,并且在早期能够利用专家知识。然而,RL 和 CL 代理在 1×10^-5 时间步之后的收敛速度会减缓,而 CL 代理的波动则较小。CL 代理能够快速找到高质量的解决方案,大约在 40000 时间步内达到与 RL 相似的奖励。
b. 投资组合表现
在包含 100 只股票的投资组合中,CL 代理明显优于均等加权和均值方差优化方法,展现出更高的夏普比率和更低的最大回撤。CL 代理的表现与 S&P 500 ETF(SPY)相当,甚至超出了约 2%。通过传统的训练-测试评估,将前 200 个交易日作为训练环境,后 52 个交易日作为测试环境。结果显示,CL 代理在样本外回测中表现优于 RL 代理,奖励分布也证实了这一点。
七、总结
课程学习方案通过简单的实施来加速收敛和稳定训练,从而提升投资组合的表现。其目的是提高散户投资者的投资技能,促进高效、公平的市场体系的发展。未来研究方向将主要集中在两个方向:
- 机构交易:研究机构投资者的宏观、低频交易策略,利用季度持仓和财报数据。
- 多智能体系统:将股市视为部分可观察的马尔可夫决策过程,采用多策略机制,模拟对冲基金模型,代理人可合作或竞争以最大化奖励。
论文地址:https://openreview.net/pdf?id=09wy0Rtacu
本文内容仅仅是技术探讨和学习,并不构成任何投资建议。
转发请注明原作者和出处。
标签:AI,代理,学习,赢家,课程,股票交易,强化,散户,交易 From: https://blog.csdn.net/weixin_70955880/article/details/142363205