ChatGPT在解读历史股票收益预测中的外推和错误校准

论文地址：https://arxiv.org/pdf/2408.16707
原本地址：https://mp.weixin.qq.com/s/gL8ZTnpS0xJy7Qc73QEaGw

摘要

本文研究了大型语言模型（LLM）如何解释历史股票回报，并将其预测与众包股票排名平台的估计进行了比较。虽然股票回报表现出短期逆转，但LLM的预测过于外推，对近期表现的权重过高，与人类的预测类似。相对于历史和未来的实现回报，LLM的预测显得乐观。当提示80%置信区间的预测时，LLM的反应比调查证据更好地校准，但对异常值持悲观态度，导致预测分布偏倚。研究结果表明，法学硕士在预测预期回报时表现出普遍的行为偏差，但在衡量风险方面比人类做得更好。

简介

生成性人工智能（AI）在交通、医学和经济等领域展现出巨大潜力，尤其在金融决策中，通过客观分析大量信息提升投资者、分析师和审计师的表现。大型语言模型（LLMs）可能嵌入有害的社会偏见，模仿人类决策时也可能包含认知偏差，如过度外推和过于乐观的预测。本研究评估ChatGPT-4在提供历史回报数据时是否表现出行为偏差，特别是对短期回报的过度外推。

研究发现，投资者对资产未来回报的预期与近期回报呈正相关，且对最近回报的权重最大。ChatGPT在预测股票排名时，表现出与人类相似的依赖历史数据的方式，且其预测结果与人类的预测存在显著相关性。尽管存在短期回报反转的现象，ChatGPT的外推仍然是反生产性的，导致其排名与未来表现呈负相关。

人类在处理收益时对负收益的重视程度高于正收益，负面表现对预期的影响更持久；而GPT-4则更重视近期正收益，且对远期负收益的处理与人类相似。GPT-4在分析价格图表时，仍然依赖于过去的收益数据进行预测。

在对S&P500的市场回报预测中，GPT-4和Claude模型的情绪特征高度相关（0.78），表明相似的人类行为在其响应中体现。LLM的预期收益预测普遍高于历史实际收益，GPT-4的预期收益为2.2%，显著高于历史均值1.4%和实际收益1.15%。GPT-4的80%置信区间预测准确率为76.9%，低于历史10%和90%分位数的简单预测，但其误差程度低于CFO调查结果。GPT-4在低预期和高预期预测中均表现出悲观倾向，低预期显著低于历史10%分位数，高预期也低于历史90%分位数。

LLM的股票回报预测与历史百分位数回归，发现90th百分位数的加载最大，显示出过度乐观的预测倾向。低预测和高预测均显著加载对应百分位数，但高预测对高百分位数的敏感性低，显示出对分布尾部的悲观预期。LLM的预测表现出历史回报的过度外推，尽管风险评估优于人类，但在预期表现上过于乐观，尾部分布略显悲观，导致预测分布相较历史数据呈正偏态。研究表明LLM在金融决策中可能重现人类行为，但对数字数据的解读并不完全理性，需关注潜在偏见。

数据收集：投资者和LLM股票收益预测

**数据来源。**人类股票预测数据来自Forcerank平台，参与者每周对十只股票进行排名，预测下周的回报表现。

**样本信息。**包含1,283个周赛，涉及200个独特股票代码，使用每只股票在第t周的平均得分作为投资者共识预期的代理。

**预测方法。**分析基于过去12周的滞后股票回报，使用GPT-4生成相应的排名和信心度，输出格式为JSON。

**避免偏差。**通过匿名化提示，确保不包含未来结果，防止前瞻性偏差。

**市场表现预测。**使用AAII投资者情绪调查数据，测量市场的牛市、熊市和中性预期。

**LLM市场预测。**提供S&P 500指数的月度回报数据，询问未来六个月市场方向及信心度，输出格式为JSON。

大型语言模型（LLMs）能够解读图像和数值数据，并预测股票表现。使用蜡烛图展示10只股票的每日价格数据，颜色区分涨跌。提交图像查询给ChatGPT-4，要求对未来一周的股票收益进行排名，输出格式为JSON。研究LLMs如何预测未来收益分布，参考CFO调查。通过随机选择100个月的股票数据，分析历史收益并生成下月收益预测。统计样本包含1283个Forcerank比赛，12807个股票观察，200只独特股票。调查显示，市场情绪偏向乐观，ChatGPT情绪评分为0.37。

大型语言模型期望形成

大型语言模型（LLM）通过深度学习模拟人脑，利用数十亿神经元和海量文本数据发现模式，形成“黑箱”特性。LLM在数值任务上表现出意外的能力，依赖统计学习识别数字关系和逻辑推理，但可能导致错误响应。训练数据中的人类讨论可能引入行为偏见，影响LLM的数值反应。研究者使用自编码器分析LLM神经元的激活模式，揭示其学习的特征。本研究关注LLM如何解读历史股票收益的时机和幅度，并探讨低（10%）和高（90%）预测是否代表不同的特征。

历史回归时间-外推

研究人类与LLM（大型语言模型）在历史回报时间解读上的表现预测。首先，模拟Forcerank竞赛环境，要求GPT-4预测十只股票的相对表现。其次，分析耶鲁金融中心和美国个人投资者协会的市场表现调查，时间范围从一个月到一年。重点在于LLM是否以类似人类的方式从近期回报中进行外推。

绩效等级分析

研究分析了滞后收益对预测和实际收益表现的影响，使用回归模型。人类预测未来表现受过去收益强烈影响，过去12周的收益系数普遍为正且显著，近期收益的系数高于远期收益。ChatGPT-4的预测显示对最近收益的过度依赖，前一周的系数是两周前的10倍，且系数随时间递减。人类的R平方值（3.4%）显著低于ChatGPT（35.2%），因人类有更多信息可用。结果表明，过去收益在预测未来表现中对人类和LLM的影响相似。

人类和GPT-4的排名显著相关，且在控制滞后收益后关系依然存在，表明两者对收益的依赖超出线性外推模型的捕捉。短期收益反转现象与人类和GPT-4的预期相反，周收益呈现短期反转，滞后期的负系数显著。提供更多数据（24周滞后收益）并未显著减少对近期收益的重视。人类对收益的反应存在不对称性，负收益的反应更强，且滞后效应持续较长时间。GPT-4对近期正收益的外推更强，但对远期负收益的反应与人类相似，显示出更对称的反应模式。在Forcerank比赛中，历史表现排名的外推显示出短期反转，GPT-4的表现排名主要集中在最近的表现。使用价格图表进行预测时，滞后收益系数的大小较小，但仍显示出随时间递减的趋势。

LLM（如GPT4）在处理非结构化图像数据时也表现出从过去收益中外推的倾向。线性回归结果显示人类与LLM的表现排名与近期收益之间存在明显的衰减模式。参数回归模型假设过去收益的权重呈指数衰减，λ1为整体效应，λ2为相对权重，λ1越高、λ2越低，外推程度越高。GPT4的水平系数λ1大于人类，表明其对过去收益的反应更强；而λ2较小，意味着更重视近期收益，外推程度为38.1，远高于人类的12.09。LLM的预测可能会负向预测未来收益，尽管线性外推模型仅解释了38%的GPT4预测变异，可能还有其他非外推因素与收益正相关。

使用Fama-MacBeth回归分析预测与未来股票收益的关系，因变量为个股未来一周的日收益。将LLM和人类预测分解为预测分数和残差，预测分数为回归的拟合值，残差为回归的剩余部分。控制变量包括市值、账面市值比、资产增长、毛利润率、市场贝塔、周换手率及过去一个月的最大日收益。结果显示人类和LLM预测与未来收益呈负相关，尤其是预测分数的负向预测更为显著。训练人类输出可能导致LLM预测未来收益的方向错误。

Forcerank设置分析股票的相对表现，结合GPT-4对市场表现的预期与美国个人投资者调查的证据。人类情绪指标Sentiment

标签：预测,校准,收益,解读,LLM,人类,ChatGPT,回报
From： https://blog.csdn.net/matt45m/article/details/143221438

ChatGPT在解读历史股票收益预测中的外推和错误校准

相关文章

赞助商

阅读排行