金融机器学习(CMSE11475)项目说明该项目旨在实践使用最先进的机器学习模型来分析财务数据和解决财务问题。
单个项目:该项目是单独的项目。不需要任何组。学生应根据数据选择自己的主题独自完成自己的研究问题。在学习中相互合作和讨论鼓励过程,但项目应由学生自己完成,而不是分组课业。项目截止日期和提交:单个项目从15个开始运行2024年1月1日(第1周)至2024年3月29日(第10周)。提交截止日期为4日星期四14:00
2024年4月。项目的提交包括项目报告和所有实施代码(不要提交任何数据代码应在最初提供的数据集上工作。报告和代码应为ZIPPED提交一个文件包。报告必须遵循给定的模板。所有部分都是必需的。代码必须完整且每个主要逻辑部分的详细评论。
项目主题
每个学生都应该从以下建议的主题(提供数据)中单独选择一个主题您自己的项目。我们鼓励您修改/改进项目主题,使其更加实用,具有挑战性,适合您自己的研究问题。如果许多学生选择相同的建议也没关系只要代码和项目报告明显不同,主题就可以作为其项目。该项目的目的是应用课程中所示的五种技术中的至少三种(深度神经网络XGBoost;交叉验证;集合模型;可解释性)来解决财务问题。项目提示所有建议的主题都是基于计算机实验室的例子,并进行了一些更改和扩展。你可以在计算机实验室的例子中很容易找到类似的方法和模型。仔细研究这些例子代码对于理解本课程和完成小组课程至关重要。建议的主题预测限额订单簿话题我们可以使用深度神经网络来预测股票在多个时期的高频回报吗他们的限额订单簿信息?数据
苹果、亚马逊、英特尔、微软、谷歌5只股票21日10级高频涨停指令书2012年6月。数据大小从40MB到100+MB。您可以选择使用部分数据。方法您可以定义以下功能:是10个级别的要价和出价( = 1,…,10),以及,和目标是LOB中点返回 结束 未来视野( ≥ 1. = (,1.,)本项目旨在估算功能(),这需要一系列历史 作为输入并生成矢量
本主题将使用LSTM作为潜在模型之一。您可以尝试使用原始70尺寸特征 与不同. 您也可以提取尺寸较低的特征 < 70通过自动编码器,然后使用提取的具有不同特征的LSTM模型. 您可以提供这两种方法的比较。该项目还应解决特征重要性的问题。
预测股票波动
话题本主题包括两个子主题,均与波动性预测有关。这些分主题如下:1)代 写CMSE11475金融机器学习 股票波动是否取决于路径?2) 股票波动是否过去依赖?
为了解决这些问题,您可以选择使用各种机器学习模型进行预测股票回报波动。这可以通过利用过去的回报(取决于路径)或过去的波动性来实现(过去依赖)。解决上述任何一个子问题都符合FML课程。没有必要完成这两个问题的工作。
数据
在计算机lab_3_1中,我们展示了从雅虎财经下载股票价格的方法。本主题使用股票调整价格以计算其波动性。您应将波动率计算为每日算术回报,但需要注意的是,这种波动性应该基于回报来计算在不同的、不重叠的范围内-天间隔。 可以是五天或十天。下图显示了波动率计算,其中是每天的回报和
是五天的波动率。要成功完成课程,您必须选择至少两种股票来评估其中一种上述问题。这些股票的选择应该符合你的个人兴趣。
方法
该主题是调查波动性是路径依赖性还是过去依赖性。但是长度 属于道路和过去都是未知的。您可以选择 作为调查的5、10、15、20或40天,并得出结论用最好的. 请自行决定长度 在你的课业中选择。对于路径依赖的问题,输入特征包含过去的每日回报 天: = (1.2.2.)产出是波动性 =。请注意,中的退货不应包含在产出波动率的计算。如下图所示,预测波动率,您可以使用每日回报1.2.在过去 天。对于过去依赖的问题,输入特征包含以前的 挥发性: = (1.2.3.)产出是波动性 =.
本主题应使用任何机器学习模型。本主题还可以回答长度 生成路径依赖性和过去依赖性的最佳预测结果。预测高频加密货币回报
话题
本主题旨在研究机器学习模型在预测任何情况下提前15分钟返回时的表现14种流行的加密货币。数据
数据集“cryptocurrency_prices.csv”包含数百万行1分钟频率的市场数据,可追溯到提供了2018年用于构建模型。该数据集包含14种流行的加密货币,其区别在于资产ID。资产ID和名称的详细信息在文件“asset_details.csv”中。您可以选择任何加密货币预测。文件中的“权重”是计算加密货币的整个市场将在下一节中介绍。
资产ID重量资产名称
2 2.397895273比特币现金
0 4.304065093币安币
1 6.779921907比特币
5 1.386294361 EOS。IO
7 2.079441542以太坊经典
6 5.894402834以太坊
9 2.397895273升硬币
11 1.609437912 Monero
13 1.791759469 TRON
12 2.079441542恒星
3 4.406719247 Cardano
8 1.098612289 IOTA
10 1.098612289制造商
4 3.555348061狗狗币
在文件“cryptocurrency_prices.csv”中,目标已被计算并作为列“目标”提供。目标来源于未来15分钟内每个加密货币资产的日志回报 作为剩余15分钟日志返回目标注意,在每一行中,“目标”已经对齐为未来15分钟的返回残差,并且将被预测。(目标:超过15分钟的地平线。)
我们可以看到数据集中包含的功能如下:timestamp:所有时间戳都作为第二个Unix时间戳返回(自1970-01-01 00:00:00.000 UTC)。此数据集中的时间戳是60的倍数,表示逐分钟数据Asset_ID:与其中一种crytoccurrencies对应的资产ID(例如,比特币的Asset_ID=1)。映射从Asset_ID到加密资产包含在Asset_details.csv中。计数:时间间隔内的交易总数(最后一分钟)。
开盘价:时间间隔的开盘价(美元)。
高:在一段时间内达到的最高价格(美元)。
低:时间间隔内达到的最低价格(美元)。
收盘价:时间间隔的收盘价(美元)。
数量:购买或出售资产的数量,以基础货币美元显示。VWAP:资产在一段时间内的平均价格,按交易量加权。VWAP是一个聚合贸易数据的形式。
方法
您可以定义一些附加功能。例如,过去5分钟的日志返回、过去5分钟绝对对数回报率、过去5分钟的最高值、过去5分的最低值等。你可以尝试简单的模型,即线性树,和复杂的模型,如LSTM,并比较它们的预测表演如果使用LSTM,您还可以研究回溯窗口的长度提供了最佳预测表演此外,还应研究特征的重要性,以显示哪些特征对库存有贡献未来表现最好。