首页 > 其他分享 >面向法律领域的大模型微调与应用

面向法律领域的大模型微调与应用

时间:2024-10-10 20:10:42浏览次数:9  
标签:检索 微调 模型 LawLLM 任务 面向 法律

来源:论文

摘要

这篇论文探讨了如何通过微调大型语言模型来实现法律领域的智能化服务。作者指出,以往的智慧法律系统需要为每个特定的任务设计专门的算法或模型,面临着研发成本高、集成难度大的困难。而现在,通过微调大型语言模型,可以同时处理多种法律任务,从而提高法律从业者的效率和准确性。此外,作者还介绍了一种中文智慧法律大模型LawLLM,该模型可以面向不同用户群体,提供多样的法律服务,并且在法律信息抽取等任务上取得了良好的表现。

创新点

方法描述

该论文提出了一个名为LawBench的开源大语言模型综合评估基准,旨在评估基于中国法律体系的大语言模型在记忆、理解和应用三个认知水平上的表现。LawBench数据集包含了20个不同的任务,每个任务有500个示例,并且评价指标有所差异。

方法改进

该论文并没有提到具体的改进方法,但可以推测出可能是在设计LawBench数据集时考虑到了不同任务的特点,并针对这些特点制定了相应的评价指标。

解决的问题

该论文主要解决了如何评估基于中国法律体系的大语言模型在记忆、理解和应用三个认知水平上的表现的问题。通过建立LawBench数据集和相关的评价指标,可以帮助研究人员更好地了解大语言模型在中国法律领域的表现,并为后续的研究提供参考。

LawLLM模型

模型整体框架:
image

模型训练

模型训练分为 监督微调检索增强 两个阶段。

  • 基座模型为:Baichuan-13B-base

  • 做全参数微调:批大小(batch size)为64、学习率为5×10-5、2个epoch训练阶段、上下文长度为4 096个Token

  • 环境:8*A800GPU

  1. 监督微调(指令微调)

监督微调阶段的训练目标和自回归模型一样,即根据已知文本预测下一个Token。

  • 优点:经过监督微调,模 型能够具备基础的法律文本处理能力,包括法律语言的理解和生成能力,并具备法律推理思维。
  • 不足:但在很多法律场景下,例如法律咨询和判决预测场景,模型的输出如果能有法律法规作为支持依据则更有说服力。同时在监督微调之后,模型可能会因为幻觉或过时的知识而产生不准确的输出。
  1. 检索增强

为了解决这个问题,检索增强阶段利用开源的检索框架Langchain来增强模型的能力。

首先建立包括中国宪法、刑法、行政诉讼法、著作权法、专利法等50多类法律的知识库,将这些文档编码为向量并保存在本地知识库。

检索过程中,对于每一个用户输入,检索器计算输入与知识库中文本块(chunk)的相似性,从知识库中召回最相关的Top-K个文本块,候选文档和原始用户输入经过设计的提示(prompt)组合后,再输入模型中得到输出。

image

论文实验

本文进行了多个对比实验,包括:

  1. 智慧法律大模型的零样本和少样本学习能力比较。实验结果表明,本文提出的中文智慧法律大模型LawLLM在零样本和少样本学习能力方面表现优异,超越了其他通用大模型和法律领域大模型。
  2. 长文本信息抽取任务的比较。实验结果表明,LawLLM在裁判文书信息抽取任务上表现出色,仅次于175×109个参数、16 000字上下文长度的GPT-3.5-Turbo-0125模型。同时,本文也指出了其他法律类任务的微调可以使模型具备完成新的法律任务的能力。
  3. 不同长度文本和不同抽取问题上的实验结果比较。实验结果表明,LawLLM在不同长度文本和不同抽取问题上的表现都有所差异,但在整体上仍然表现出色。

综上所述,本文的实验结果表明,中文智慧法律大模型LawLLM在各种场景下都能表现出色,具有广泛的应用前景。

标签:检索,微调,模型,LawLLM,任务,面向,法律
From: https://www.cnblogs.com/pam-sh/p/18457052

相关文章

  • R语言结构方程模型(SEM)在生态学领域中的应用
    结构方程模型(SructuralEquationModel)是一种建立、估计和检验研究系统中多变量间因果关系的模型方法,它可以替代多元回归、因子分析、协方差分析等方法,利用图形化模型方式清晰展示研究系统中变量间的因果网络关系,是近年来地学、生态、进化、环境、医学、社会、经济领域中应用十......
  • 第五章CSS盒模型
    5.1盒模型的定义盒模型示意图:5.2CSS元素的高度和宽度5.2.1盒模型的宽度width5.2.2盒模型的高度height<!DOCTYPEhtml><html> <head> <metacharset="utf-8"> <title></title> <style> *{ margin:0px; padding:0px; ......
  • 第五章 CSS盒模型
    5.1盒模型的定义盒模型是在CSS中用来描述和控制一个元素在页面中所占空间的一种模型。在盒模型中,每个元素被看作一个矩形的盒子,其大小由四个边界确定:上边界(top)、下边界(bottom)、左边界(left)和右边界(right)。这些边界围成一个矩形,决定了元素的尺寸和位置。盒模型由以下几个部分组......
  • 基于yolov8、yolov5的安全帽检测系统(含UI界面、数据集、训练好的模型、Python代码)
    项目介绍项目中所用到的算法模型和数据集等信息如下:算法模型:  yolov8、yolov8+SE注意力机制或yolov5、yolov5+SE注意力机制,直接提供最少两个训练好的模型。模型十分重要,因为有些同学的电脑没有GPU,无法自行训练。数据集:  网上下载的数据集,格式都已......
  • 使用DeepKE训练命名实体识别模型DEMO(官方DEMO)
    使用DeepKE训练命名实体识别模型DEMO(官方DEMO)说明:首次发表日期:2024-10-10DeepKE资源:文档:https://www.zjukg.org/DeepKE/网站:http://deepke.zjukg.cn/cnschema:http://cnschema.openkg.cn/如果需要,设置Github镜像gitconfig--systemurl."https://githubfast.com/"......
  • 【孤岛划分】分布式能源接入弹性配电网模型研究【IEEE33节点】(Matlab代码实现)
     目录......
  • 【状态估计】基于FOMIAUKF、分数阶模块、模型估计、多新息系数的电池SOC估计研究(Matla
    目录......
  • javascript学习——事件模型
    事件模型监听函数浏览器的事件模型,就是通过监听函数(listener)对事件做出反应。事件发生后,浏览器监听到了这个事件,就会执行对应的监听函数。这是事件驱动编程模式(event-driven)的主要编程方式。JavaScript有三种方法,可以为事件绑定监听函数。HTML的on-属性HTML语言允......
  • 基于K-means和RFM模型的电商行业用户画像及商品个性化推荐研究
    文章目录==有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主==项目介绍数据概览数据预处理可视化过程展示RFM模型K-means及改进算法每文一语有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主项目介绍本研究基于阿里天池平台提供的某......
  • 字节跳动推机器人大模型GR-2 展现智能自主操作新高度
    字节跳动研究团队近日推出的第二代机器人大模型GR-2(GenerativeRobot2.0)正在引发业界广泛关注。这款智能机器人不仅标志着机器人大模型技术的重大突破,更预示着智能机器人应用即将迎来一个全新纪元。GR-2的独特之处在于其创新的学习方式。研发团队采用了模仿人类成长过程的......