论文地址:https://arxiv.org/pdf/2408.16707
原本地址:https://mp.weixin.qq.com/s/gL8ZTnpS0xJy7Qc73QEaGw
摘要
本文研究了大型语言模型(LLM)如何解释历史股票回报,并将其预测与众包股票排名平台的估计进行了比较。虽然股票回报表现出短期逆转,但LLM的预测过于外推,对近期表现的权重过高,与人类的预测类似。相对于历史和未来的实现回报,LLM的预测显得乐观。当提示80%置信区间的预测时,LLM的反应比调查证据更好地校准,但对异常值持悲观态度,导致预测分布偏倚。研究结果表明,法学硕士在预测预期回报时表现出普遍的行为偏差,但在衡量风险方面比人类做得更好。
简介
生成性人工智能(AI)在交通、医学和经济等领域展现出巨大潜力,尤其在金融决策中,通过客观分析大量信息提升投资者、分析师和审计师的表现。大型语言模型(LLMs)可能嵌入有害的社会偏见,模仿人类决策时也可能包含认知偏差,如过度外推和过于乐观的预测。本研究评估ChatGPT-4在提供历史回报数据时是否表现出行为偏差,特别是对短期回报的过度外推。
研究发现,投资者对资产未来回报的预期与近期回报呈正相关,且对最近回报的权重最大。ChatGPT在预测股票排名时,表现出与人类相似的依赖历史数据的方式,且其预测结果与人类的预测存在显著相关性。尽管存在短期回报反转的现象,ChatGPT的外推仍然是反生产性的,导致其排名与未来表现呈负相关。
人类在处理收益时对负收益的重视程度高于正收益,负面表现对预期的影响更持久;而GPT-4则更重视近期正收益,且对远期负收益的处理与人类相似。GPT-4在分析价格图表时,仍然依赖于过去的收益数据进行预测。
在对S&P500的市场回报预测中,GPT-4和Claude模型的情绪特征高度相关(0.78),表明相似的人类行为在其响应中体现。LLM的预期收益预测普遍高于历史实际收益,GPT-4的预期收益为2.2%,显著高于历史均值1.4%和实际收益1.15%。GPT-4的80%置信区间预测准确率为76.9%,低于历史10%和90%分位数的简单预测,但其误差程度低于CFO调查结果。GPT-4在低预期和高预期预测中均表现出悲观倾向,低预期显著低于历史10%分位数,高预期也低于历史90%分位数。
LLM的股票回报预测与历史百分位数回归,发现90th百分位数的加载最大,显示出过度乐观的预测倾向。低预测和高预测均显著加载对应百分位数,但高预测对高百分位数的敏感性低,显示出对分布尾部的悲观预期。LLM的预测表现出历史回报的过度外推,尽管风险评估优于人类,但在预期表现上过于乐观,尾部分布略显悲观,导致预测分布相较历史数据呈正偏态。研究表明LLM在金融决策中可能重现人类行为,但对数字数据的解读并不完全理性,需关注潜在偏见。
数据收集:投资者和LLM股票收益预测
**数据来源。**人类股票预测数据来自Forcerank平台,参与者每周对十只股票进行排名,预测下周的回报表现。
**样本信息。**包含1,283个周赛,涉及200个独特股票代码,使用每只股票在第t周的平均得分作为投资者共识预期的代理。
**预测方法。**分析基于过去12周的滞后股票回报,使用GPT-4生成相应的排名和信心度,输出格式为JSON。
**避免偏差。**通过匿名化提示,确保不包含未来结果,防止前瞻性偏差。
**市场表现预测。**使用AAII投资者情绪调查数据,测量市场的牛市、熊市和中性预期。
**LLM市场预测。**提供S&P 500指数的月度回报数据,询问未来六个月市场方向及信心度,输出格式为JSON。
大型语言模型(LLMs)能够解读图像和数值数据,并预测股票表现。使用蜡烛图展示10只股票的每日价格数据,颜色区分涨跌。提交图像查询给ChatGPT-4,要求对未来一周的股票收益进行排名,输出格式为JSON。研究LLMs如何预测未来收益分布,参考CFO调查。通过随机选择100个月的股票数据,分析历史收益并生成下月收益预测。统计样本包含1283个Forcerank比赛,12807个股票观察,200只独特股票。调查显示,市场情绪偏向乐观,ChatGPT情绪评分为0.37。
大型语言模型期望形成
大型语言模型(LLM)通过深度学习模拟人脑,利用数十亿神经元和海量文本数据发现模式,形成“黑箱”特性。LLM在数值任务上表现出意外的能力,依赖统计学习识别数字关系和逻辑推理,但可能导致错误响应。训练数据中的人类讨论可能引入行为偏见,影响LLM的数值反应。研究者使用自编码器分析LLM神经元的激活模式,揭示其学习的特征。本研究关注LLM如何解读历史股票收益的时机和幅度,并探讨低(10%)和高(90%)预测是否代表不同的特征。
历史回归时间-外推
研究人类与LLM(大型语言模型)在历史回报时间解读上的表现预测。首先,模拟Forcerank竞赛环境,要求GPT-4预测十只股票的相对表现。其次,分析耶鲁金融中心和美国个人投资者协会的市场表现调查,时间范围从一个月到一年。重点在于LLM是否以类似人类的方式从近期回报中进行外推。
绩效等级分析
研究分析了滞后收益对预测和实际收益表现的影响,使用回归模型。人类预测未来表现受过去收益强烈影响,过去12周的收益系数普遍为正且显著,近期收益的系数高于远期收益。ChatGPT-4的预测显示对最近收益的过度依赖,前一周的系数是两周前的10倍,且系数随时间递减。人类的R平方值(3.4%)显著低于ChatGPT(35.2%),因人类有更多信息可用。结果表明,过去收益在预测未来表现中对人类和LLM的影响相似。
人类和GPT-4的排名显著相关,且在控制滞后收益后关系依然存在,表明两者对收益的依赖超出线性外推模型的捕捉。短期收益反转现象与人类和GPT-4的预期相反,周收益呈现短期反转,滞后期的负系数显著。提供更多数据(24周滞后收益)并未显著减少对近期收益的重视。人类对收益的反应存在不对称性,负收益的反应更强,且滞后效应持续较长时间。GPT-4对近期正收益的外推更强,但对远期负收益的反应与人类相似,显示出更对称的反应模式。在Forcerank比赛中,历史表现排名的外推显示出短期反转,GPT-4的表现排名主要集中在最近的表现。使用价格图表进行预测时,滞后收益系数的大小较小,但仍显示出随时间递减的趋势。
LLM(如GPT4)在处理非结构化图像数据时也表现出从过去收益中外推的倾向。线性回归结果显示人类与LLM的表现排名与近期收益之间存在明显的衰减模式。参数回归模型假设过去收益的权重呈指数衰减,λ1为整体效应,λ2为相对权重,λ1越高、λ2越低,外推程度越高。GPT4的水平系数λ1大于人类,表明其对过去收益的反应更强;而λ2较小,意味着更重视近期收益,外推程度为38.1,远高于人类的12.09。LLM的预测可能会负向预测未来收益,尽管线性外推模型仅解释了38%的GPT4预测变异,可能还有其他非外推因素与收益正相关。
使用Fama-MacBeth回归分析预测与未来股票收益的关系,因变量为个股未来一周的日收益。将LLM和人类预测分解为预测分数和残差,预测分数为回归的拟合值,残差为回归的剩余部分。控制变量包括市值、账面市值比、资产增长、毛利润率、市场贝塔、周换手率及过去一个月的最大日收益。结果显示人类和LLM预测与未来收益呈负相关,尤其是预测分数的负向预测更为显著。训练人类输出可能导致LLM预测未来收益的方向错误。
Forcerank设置分析股票的相对表现,结合GPT-4对市场表现的预期与美国个人投资者调查的证据。人类情绪指标Sentiment
标签:预测,校准,收益,解读,LLM,人类,ChatGPT,回报 From: https://blog.csdn.net/matt45m/article/details/143221438