首页 > 其他分享 >山东大学项目实训-基于LLM的中文法律文书生成系统- 中期总结

山东大学项目实训-基于LLM的中文法律文书生成系统- 中期总结

时间:2024-05-31 14:45:19浏览次数:12  
标签:基于 项目 法律文书 实训 LLM 山东大学

本次创新项目实训自三月开始,在今天中期检查之后对项目工作进行了回顾,下文对这段工作作简要总结。

项目选题其实我是比较犹豫,因为LLM此前的了解只有ChatGPT这种基本成熟的模型,而且也只是简单调用,对源码,接口的使用基本是未知,以我对其他成员的了解,基本也大差不差。因此项目前景堪忧。

当我开始研究LLM以及应用微调的时候,我才发现,源代码的规模过于庞大,以至于我像是个误入迷宫的孩子,迷失在了github的目录下。为

我从未面对这样复杂的工程,在它面前,以往的课程设计只能称为玩具。

我们的工作建立在ChatGLM基础之上,而团队成员之间的分工不太明确。因此每个人都必须对模型微调和前后端的交互部分等有一定的了解,并在此基础上进行改进以完成需求。

目前的进度:

  1. 完成开源法律数据集搜集与通用法律知识训练

  2. 法律文书数据集构建与法律文书生成训练

  3. 基于Gradio的前端搭建

后续内容:

  1. 法律知识库接入
  2. 模型能力评估
  3. 前端基于多种格式的输出报告(.md、.pdf等)

标签:基于,项目,法律文书,实训,LLM,山东大学
From: https://www.cnblogs.com/h1s97x/p/18224563

相关文章

  • 山东大学项目实训-基于LLM的中文法律文书生成系统(七)- 提示工程
    LLM大模型给我们看到了人工智能的可塑性,机器真的可以像人一样理解问题并回答问题(表面看起来如此),但并不是每个问题都可以得到令人满意的答案,如果想得到你所要的回答就要构建好你的提示词Prompt。无论是初学者还是经验丰富的开发人员,Prompt提示词都能为我们带来更高效的开发体验。......
  • 创新实训(六)
    明天中期检查,紧急把半成品大模型拉来用了。租的卡没有公网IP,用ssh的端口映射配了很久,来不及写了,回头补上交了个不带并查集路径压缩的kruskal求最小生成树大模型给出的答复如下,耗时十几秒:......
  • [本科项目实训] P-tuning v2技术介绍, Prompt设计与尝试
    to2024/05/13P-tuning概述关于prompttuning和p-tuning技术有大量的相关博客,我在参考资料中给出对于本项目具有一定启发性的内容并在此做简单总结。prompt-tuning为区别于最开始pre-training+fine-tuning的大语言模型微调范式,其希望通过添加模板的方式避免引入额......
  • 创新实训(一)
    前言智谱AI发布了最新的代码模型CodeGeeX2-6B(https://mp.weixin.qq.com/s/qw31ThM4AjG6RrjNwsfZwg),并已在魔搭社区开源。CodeGeeX2作为多语言代码生成模型CodeGeeX的第二代模型,使用ChatGLM2架构注入代码实现,具有多种特性,如更强大的代码能力、更优秀的模型特性、更全面的AI编程......
  • [机器学习]-如何在 MacBook 上安装 LLama.cpp + LLM Model 运行环境
    如何在MacBook上安装LLama.cpp+LLMModel运行环境1.问题与需求近段时间想学习一下大语言模型的本地化部署与应用。首先遇到的就是部署硬件环境的问题。我自己的笔记本是一台MacBookProM3,没有Nvidia的GPU支持,但机器性能不错。所以打算根据网上资料尝试在自己......
  • 一起学习大模型 - embed model和 llm model 常见的搭配和考虑因素
    文章目录前言一、embedmodel和llmmodel常见的搭配和考虑因素1.词向量嵌入模型和大语言模型的选择2.具体的搭配方案3.实施细节二、弥补embedmodel和llmmodel的差异总结前言昨天和别人讨论大模型应用的时候,发现很多人存在词向量混用的情况,就是随意选embedm......
  • 山东大学项目实训-基于LLM的中文法律文书生成系统(十四)- RAG(3)
    文档问答过程大概分为以下5部分,在Langchain中都有体现。上传解析文档文档向量化、存储文档召回query向量化文档问答今天主要讲langchain在文档embedding以及构建faiss过程时是怎么实现的。源码入口langchain中对于文档embedding以及构建faiss过程有2个分支,1.当第一次......
  • 山东大学项目实训-基于LLM的中文法律文书生成系统(十三)- RAG(2)
    今天主要讲langchain在上传解析文档时是怎么实现的。文档解析逻辑,以txt类型的文件解析为例子step1:寻找上传逻辑入口:local_doc_qa.py,关注TextLoader(),ChineseTextSplitter()defload_file(filepath,sentence_size=SENTENCE_SIZE,using_zh_title_enhance=ZH_TITLE_ENHANCE):......
  • 山东大学项目实训-基于LLM的中文法律文书生成系统(十五)- RAG(4)
    引入RAGRAG前的工作流程如下:向模型提问->模型从已训练数据中查询数据->组织语言->生成答案。RAG后的工作流程如下:读取文档->分词->嵌入->将嵌入数据存入向量数据库->向模型提问->模型从向量数据库中查询数据->组织语言->生成答案。嵌入在人工智能中,嵌入(Embedding)是将数据向量......
  • Python实训的心路历程——第4天
    时间过得好快,转眼就第四天了,今天还是接着做界面,并往里面添加内容。========================================一天又过去了,但是每天都感觉自己成长了好多呢,哈哈来汇总一下今天的工作和收获今天把界面和一些基础的功能写完了,程序能正常跑了,可以处理实时摄像头、视频、图片三种......