首页 > 其他分享 >基于中文金融知识的 LLaMA 系微调模型的智能问答系统:LLaMA大模型训练微调推理等详细教学

基于中文金融知识的 LLaMA 系微调模型的智能问答系统:LLaMA大模型训练微调推理等详细教学

时间:2023-07-30 17:05:14浏览次数:42  
标签:股票 模型 微调 LLaMA 老年人 LoRA

基于中文金融知识的 LLaMA 系微调模型的智能问答系统:LLaMA大模型训练微调推理等详细教学

基于 LLaMA 系基模型经过中文金融知识指令精调/指令微调(Instruct-tuning) 的微调模型。通过中文金融公开问答数据+爬取的金融问答数据构建指令数据集,并在此基础上对 LLaMA 系模型进行了指令微调,提高了 LLaMA 在金融领域的问答效果。

基于已有数据和继续爬取的中文金融数据,将继续利用 GPT3.5/4.0 API 构建高质量的数据集,另在中文知识图谱-金融、CFLEB 金融数据集等数据上进一步扩充高质量指令数据集。

  • 基于 Chinese-LLaMA 和中文金融数据进行指令微调的模型。

  • 基于 Meta-LLaMA 和中文金融数据进行指令微调的模型。

1. 环境安装

首先安装依赖包,python环境建议3.9+


pip install -r requirements.txt

其次安装 lfs 方便本地下载 LLaMa 大模型


git lfs install

# 下载7B模型到本地
bash ./base_models/load.sh

2.模型下载

LoRA 权重可以通过 Huggingface 下载,结构如下:

    Fin-Alpaca-LoRA-7B-Meta/
       - adapter_config.json   # LoRA权重配置文件
       - adapter_model.bin     # LoRA权重文件
LoRA模型下载 分类 重构模型 训练数据 训练序列长度 版本
Fin-Alpaca-LoRA-7B-Meta 中文金融问答微调模型 decapoda-research/llama-7b-hf 12M 指令数据 512 V1.0
Fin-Alpaca-LoRA-7B-Linly 中文金融问答微调模型 Linly-AI/Chinese-LLaMA-7B 14M 指令数据 512 V1.1

3.Inference:单模型推理-多模型对比

目前在./instruction_data/infer.json中提供了一些测试用例,也可替换成其它的数据集但注意格式保持一致

运行infer脚本


#单模型推理
bash ./scripts/infer.sh

#多模型对比
bash ./scripts/comparison_test.sh

4.数据集构建

此前版本采用了公开和爬取的中文金融领域问答数据,涉及到保险、理财、股票、基金、贷款、信用卡、社保等。

指令数据示例如下:


问题:办理商业汇票应遵守哪些原则和规定?

回答: 办理商业汇票应遵守下列原则和规定:1.使用商业汇票的单位,必须是在银行开立帐户的法人;2.商业汇票在同城和异地均可使用;3.签发商业汇票必须以合法的商品交易为基础;4.经承兑的商业汇票,可向银行贴现;5.商业汇票一律记名,允许背书转让;6.商业汇票的付款期限由交易双方商定,最长不得超过6个月;7.商业汇票经承兑后,承兑人即付款人负有到期无条件交付票款的责任;8.商业汇票由银行印制和发售。

针对此前数据仍存在不准确和类型单一等不完善的地方;目前我们利用GPT3.5/4.0 接口进一步优化数据、并扩充中文金融知识库,设置多种Prompt形式、multi-task形式拓展丰富指令数据集,实现金融领域多业务场景覆盖。

最新模型情况:(即将发布,敬请期待~)

5.微调Finetune

若想用自己的数据集微调 LLaMA,请按照./instruction_data/fin_data.json的格式构建自己的数据集

运行 finetune 脚本


bash ./scripts/finetune.sh

6.训练细节

6.1 计算资源需求

目前训练设备为一张A100-SXM-80GB显卡,训练总轮次10轮。batch_size=64的情况下显存占用在40G左右、batch_size=96的情况下显存占用在65G左右。预计3090/4090显卡(24GB显存)以上显卡可以较好支持,根据显存大小来调整batch_size。

6.2实验记录

6.3 模型效果对比

测试输入 原始Llama输出 Cornucopia(Fin-Alpaca-LoRA-7B-Meta)输出 Cornucopia(Fin-Alpaca-LoRA-7B-Linly)输出 文心一言输出 讯飞星火认知输出
老年人理财好还是存定期好? 老年人的理财办法应该适合于自身情况。如果他/她有足够的时间和投资能力,则建议他/她利用现在的时间与投资机会进行理财活动。因为老年人可以获得余额、保险、房地产等多种收入方式,所以他/她可以选择不同类型的理财项目,包括公开市场、非公开市场、基金、信托计划等。当然,老年人也应该注意其实需要的生活财务安全。 若投资者风险承受能力比较高,那么可以选择理财产品进行投资,若投资者风险承受能力比较低,那么可以选择定期存款进行投资。目前理财产品和定期存款都是保本型产品,不会亏损本金,并且收益由投资标的决定,所以理财产品和定期存款相比较更加稳定。需要注意的是理财产品和定期存款没有同样的活期利率,而且理财产品每日计算收益,所以理财产品收益越高,投资者获得收益的概率也越高。9QDII基金是指中国市场上开放式外资基金,这类基金主要投资于:A股、港股、美股、英股、德股、日股、法股、台股、香港股、新加坡股等;QFII基金是指中国交易所开放式外资基金,这类基金主要投资于:A股、港股、美股、英股、德股、日股、法股、台股、香港股、新加坡股等。 对于风险承受能力比较低的老年人来说,选择定期存款比较好,因为其风险性比较低,收益也比较稳定,而对于风险承受能力比较高的老年人来说,选择理财产品比较好,因为其风险性比较大,收益也比较高。需要注意的是目前理财产品不是保本型产品,有亏损本金的可能,并且根据投资标的分为不同的风险等级,若投资者风险承受能力比较低,那么可以选择风险等级R2及以下的理财产品,若投资者风险承受能力比较高,那么可以选择风险等级R3及以上的理财产品。当前理财产品包括:债券型基金、股票型基金、混合型基金、指数基金和联接基金等,投资者可以根据自身实际情况选择合适的产品进行投资。 老年人存定期比较好。老年人没工作收入,资产总额也是在逐渐降低,而且老人容易生病,而医疗费支出较大。如果老年人投资理财产品,伴随着其产品净值的变化,是有可能会出现亏损现象的。而定期存款,其利率一般是固定的,期满返本还息,相对而言,安全系数高,盈利更持久。 作为AI语言模型,我没有个人观点和建议。但是,老年人理财和存定期都有其优缺点。老年人理财的优点是可以更好地规划自己的财务状况,包括退休金、医疗保险、子女教育等方面的支出。此外,老年人可以通过投资股票、基金等金融产品来增加财富。存定期的优点是风险较小,收益相对稳定。老年人可以选择不同期限的定期存款,根据自己的需求和风险承受能力来选择。综合来看,老年人应该根据自己的实际情况和需求来选择适合自己的理财方式。如果老年人有足够的资金和风险承受能力,可以考虑投资股票、基金等金融产品来增加财富。如果老年人更注重稳定性和安全性,可以选择存定期来保障自己的财务状况。
股票和基金能当天随买随卖吗? Yes, stocks and funds can be bought and sold on the same day. 不能,股票和基金实行T+1交易,交易日当天买入,按照买入当天收盘时的净值计算,第二个交易日确认份额,份额确认后计算收益,所以在交易日买入就要等到第二个交易日才能获得收益。比如投资者周一买入了某只股票,周二市场上公布的净值为10元,那么投资者可以根据这些数据计算收益:1000×10=10000;10000/10=1000。若投资者持有此股票超过30个工作日,那么可以直接转换成现金,也就是将该股票全部或者部分提前支取。需要注意的是,目前没有任何法律法规限制投资者在交易日买入基金、股票,因此投资者在交易日买入基金、股票都能进行当天开放型交易。同时,投资者在交易日买入股票之后,其股票会自动转换为现金,并且投资者在交易日买入股票之后,其股票会自动转换为涨跌幅限制(20%左右),从而影响投资者的手续费和收益。 不能,股票交易时间:周一至周五上午9:30-11:30,下午13:00-15:00,法定节假日不交易。基金交易时间:周一至周五上午9:30-11:30,下午13:00-15:00,法定节假日不交易。股票实行T+1交易,按照市场实时价格进行成交,遵循价格优先、时间优先的原则,沪深两市股票涨跌幅限制为10%,创业板和科创板股票涨跌幅限制为20%,北交所涨跌幅限制为30%,ST以及*ST涨跌幅限制为5%(创业板和科创板涨跌幅还没有这个限制),港股涨跌幅限制为20%,新三板涨跌幅限制为10%(创业板和科创板涨跌幅还没有这个限制),对于投资者来说,股票交易比较灵活,可以根据自身情况进行交易,并且股票交易手续费比较低,基金交易手续费也比较低,同时股票波动比较大,风险也比较大。 不可以,股票基金实行T+1交易,交易日当天买入(交易时间),按照买入当天收盘时的净值计算,第二个交易日确认份额,份额确认后才能将基金卖出,一般交易日当天买入,第三个交易日才能卖出,第三个交易日随时可以卖出。 股票和基金的交易方式因不同的证券市场而异。在一些证券市场上,股票和基金是可以当天随买随卖的,也就是所谓的“T+0”交易。但是,在另一些证券市场上,股票和基金是不能当天随买随卖的,需要等待一定的交易时间后才能进行买卖。在中国A股市场中,股票和基金是不能当天随买随卖的,需要进行T+1或T+2的交易。这意味着如果您今天买入了一只股票或基金,那么您需要等到明天才能卖出它。 在其他一些国家和地区,股票和基金的交易方式可能会有所不同。因此,如果您想进行股票或基金的投资,建议您了解当地的交易规则和市场情况。

7.提示词模板

此目录包含用于 LoRA 微调 LLaMa 模型的提示的模板样式。

  • Format

模板是通过一个JSON文件描述的,该文件包含以下键:

  • prompt_input: The template to use when input is not None. Uses {instruction} and {input} placeholders.
  • prompt_no_input: The template to use when input is None. Uses {instruction} placeholders.
  • description: A short description of the template, with possible use cases.
  • response_split: The text to use as separator when cutting real response from the model output.

No {response} placeholder was used, since the response is always the last element of the template and is just to be concatenated to the rest.

7.1模板案例

The default template, used unless otherwise specified, is alpaca.json

{
    "description": "Template used by Alpaca-LoRA.",
    "prompt_input": "Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Input:\n{input}\n\n### Response:\n",
    "prompt_no_input": "Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Response:\n",
    "response_split": "### Response:"    
}

7.2 现有模板

7.2.1 alpaca

到目前为止,用于通用LoRA微调的默认模板。

7.2.2 alpaca_legacy

原始羊驼使用的旧模板,响应字段后没有“\n”。保留以供参考和实验。

7.2.3 alpaca_short

一个修剪过的羊驼模板,它似乎也表现得很好,并保留了一些 tokens。使用默认模板创建的模型似乎也可以通过短时间查询。

8.提示构建模块

  • prompter.py

Prompter class, a template manager.

from utils.prompter import Prompter
  • 本项目参考了以下开源项目,

    • Facebook LLaMA: https://github.com/facebookresearch/llama
    • Stanford Alpaca: https://github.com/tatsu-lab/stanford_alpaca
    • alpaca-lora by @tloen: https://github.com/tloen/alpaca-lora
    • Huatuo-Llama-Med-Chinese: https://github.com/SCIR-HI/Hatuo-Llama-Med-Chinese
    • 文心一言 https://yiyan.baidu.com/welcome 本项目的logo由文心一言自动生成
    • 讯飞星火认知 https://xinghuo.xfyun.cn/desk

项目码源见文末

项目链接跳转

更多优质内容请关注公号:汀丶人工智能;会提供一些相关的资源和优质文章,免费获取阅读。

标签:股票,模型,微调,LLaMA,老年人,LoRA
From: https://blog.51cto.com/u_15485092/6901299

相关文章

  • ChatIE:通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取,并在NYT11-HRL
    ChatIE:通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取,并在NYT11-HRL等数据集上超过了全监督模型零样本信息抽取(InformationExtraction,IE)旨在从无标注文本中建立IE系统,因为很少涉及人为干预,该问题非常具有挑战性。但零样本IE不再需要标注数据时耗费的时间和人力,因......
  • 广告行业中那些趣事系列64:低成本训练一个媲美ChatGPT效果的Vicuna模型
    导读:本文是“数据拾光者”专栏的第六十四篇文章,这个系列将介绍在广告行业中自然语言处理和推荐系统实践。本篇主要从理论到实践介绍低成本训练一个媲美ChatGPT效果的Vicuna模型,对于希望搭建自己的大语言模型并应用到实际业务场景感兴趣的小伙伴可能有帮助。欢迎转载,转载请注明出处......
  • 《面试1v1》JVM内存模型
    聊聊JVM内存模型我是javapub,一名Markdown程序员从......
  • Huggingface | 修改模型的embedding
    目标:在NLP领域,基于公开语料的预训练模型,在专业领域迁移时,会遇到专业领域词汇不在词汇表的问题,本文介绍如何添加专有名词到预训练模型。NLP的处理流程:对输入的句子进行分词,得到词语及下标通过embedding层获得词语对应的embeddingembedding送入到预训练模型,经过attention注意......
  • 模型选择 欠拟合与过拟合
    #模型选择欠拟合与过拟合#创建数据集frommxnetimportautogradfrommxnetimportndarrayasndfrommxnetimportgluonnum_train=100num_tset=100true_w=[1.2,-3.4,5.6]true_b=5.0#生成数据集X=nd.random_normal(shape=(num_train+num_tset......
  • SAP Fiori Elements 应用 OData 元数据请求 url 里的模型名称决定逻辑
    问题我用yarnstart本地启动一个SAPFioriElements应用,在Chrome开发者工具network面板,观察到一个ODatametadata请求的url如下:http://localhost:8080/sap/opu/odata/sap/SEPMRA_PROD_MAN/$metadata?sap-value-list=none&sap-language=EN这个OData服务名称SEPM......
  • 基于C语言设计的全局光照明模型
    完整资料进入【数字空间】查看——搜索"writebug"Part1Whitted-StyleRayTracingStep0.算法流程为了渲染出一张图片,RayTrace()计算了给定像素点的色彩取值。根据光路可逆原理,可以从人眼作为出发点,沿着指向该pixel的某一点的方向发出一条ray。Step1:射线求交这条ray会碰到一个......
  • OSI(Open Systems Interconnection)的五层(七层)模型
    OSI(OpenSystemsInterconnection)是一个用于计算机网络通信的参考模型,由国际标准化组织(ISO)于1984年提出。它将计算机网络通信过程划分为七个不同的层次,从物理传输层到应用层,每个层次都有其特定的功能和任务。然而,常见的网络模型实际上是TCP/IP模型,它是OSI模型的一种实际应用。TCP/......
  • 推荐带500创作模型的付费创作V2.1.0独立版系统源码
    ChatGPT付费创作系统V2.1.0提供最新的对应版本小程序端,上一版本增加了PC端绘画功能,绘画功能采用其他绘画接口–意间AI,本版新增了百度文心一言接口。后台一些小细节的优化及一些小BUG的处理,前端进行了些小细节优化,针对上几版大家非常关心的卡密兑换H5端及小程序端......
  • 3DSOM软件基于物体的照片构建空间三维模型的方法
      本文介绍基于3DSOM软件,实现侧影轮廓方法的空间三维模型重建。(基于3DSOM的侧影轮廓方法空间三维模型重建)  我们首先从侧影轮廓建模方法开始,对空间三维建模的一些内容加以介绍。本文我们将基于3DSoftwareObjectModeler(3DSOM)这一软件,对上述方法加以完整的操作,并对结果加......