今天给大家介绍一个git开源的宝藏项目 — 基于大模型+知识图谱的知识库问答,这里还搭配了一个演示dome给大家,如需要此项目练手的,我已经打包好了放在文末~
<iframe allowfullscreen="true" data-mediaembed="csdn" frameborder="0" id="6YJ5U9Oi-1731556850328" src="https://live.csdn.net/v/embed/432804"></iframe>基于大模型+知识图谱的知识库问答系统
项目整体流程介绍
项目整体包含5个部分:数据重构、图谱构建、图谱补全、对话模型、网页承载
首先是数据构建的逻辑
然后利用数据和ChatGPT定义的规则构建种子知识图谱
接下来对种子知识图谱进行补全操作(需要对自己的数据进一步的筛选,有洞察的认知)
利用chatglm-6b作为核心模型,基于flask构建框架的对话模型
前端界面构建和项目部署
环境配置
python 3.8.16 torch 1.11.0+cu113~ paddlenlp 2.5.1 paddlepaddle-gpu 2.3.2 transformer 2.6.0
初始模型:
种子知识图图谱模型:paddlenlp-model-zoo-uie 所用模型类型:‘信息提取’
训练模型:SPN4RE-NYT—精确
训练集参与:50% 验证集参与:10% 测试集参与:40%
数据来源:
初始数据:《舰船损管和潜水技术》 新增数据:《舰船损管技术》等
数据标注
利用doccanco不同类型的数据约100条作为警示uie的初始数据,在uie进行初次抽取后,针对数据中效果较差的部分进行二次标注。
训练设备:3090 * 2
标签:知识,项目,图谱,模型,知识库,数据 From: https://blog.csdn.net/AAI666666/article/details/143765423