首页 > 其他分享 >利用llm大语言模型提取卡证票据关键信息

利用llm大语言模型提取卡证票据关键信息

时间:2024-07-22 20:31:32浏览次数:11  
标签:卡证 提取 llm 普兰店市 证号 results extraction 日期 LLM

项目:https://github.com/jiangnanboy/Image_KIE_LLM

模型:

  • 去除背景: U2Net
  • ocr: paddleocr
  • KIE: Baichuan2 LLM

使用

  • main.py

在这里,OCR识别的文本和提示语将一起输入到LLM中提取关键信息。

结果展示

# key information extraction

invoice_ki = '单位 电话 车号 证号 日期 上/下车 单价 里程 金额'

# results of extraction
{
"单位": "000023",
"电话": "82817089",
"车号": "UT-5075",
"证号": "000000",
"日期": "2019-08-30",
"上/下车": "14:31-15:02",
"单价": "3.15",
"里程": "24.7km",
"金额": "76.00元"
}
# key information extraction

household_ki = '姓名 出生地 籍贯 出生日期 性别 民族 公民身份证件编号 文化程度 婚姻状况 服务处所 职业 登记日期'
   
# results of extraction
{
"姓名": "合小合",
"出生地": "辽宁省普兰店市",
"籍贯": "辽宁省普兰店市",
"出生日期": "1963.11.14",
"性别": "男",
"民族": "汉族",
"公民身份证件编号": "411528222228110022",
"文化程度": "中专毕业",
"婚姻状况": "已婚",
"服务处所": "大连皮子窝化工厂新滩分场",
"职业": "生产员",
"登记日期": "2008年06月10日"
}

标签:卡证,提取,llm,普兰店市,证号,results,extraction,日期,LLM
From: https://www.cnblogs.com/little-horse/p/18316823

相关文章

  • 如何攻克LLM应用的调试?教你本地化部署与使用一款免费的LLM应用工程化平台
    随着LLM应用的不断成熟,特别是在B端企业场景中的逐渐落地,其不再停留在原型与验证阶段,将面临着更高的工程化要求,无论是输出的稳定性、性能、以及成本控制等,都需要实现真正的“生产就绪”;但由于大量的应用基于LangChain、LlamaIndex等框架开发,更多的抽象与封装使得应用难以跟踪......
  • Python自动化:一键提取千万个Excel指定数据
    一、传统方法的局限性打开每个Excel文件,逐个查找需要的数据。筛选出老板需要的数据列。复制并粘贴到新的工作表中。保存并关闭每个文件。这个过程不仅耗时,而且容易出错。每一次的筛选都可能遗漏数据,每一次的复制粘贴都可能引入错误。二、Python自动化的解决方案i......
  • LLM-01 大模型 本地部署运行 ChatGLM2-6B-INT4(6GB) 简单上手 环境配置 单机单卡多卡
    搬迁说明之前在CSDN上发文章,一直想着努力发一些好的文章出来!这篇文章在2024-04-1710:11:55已在CSDN发布写在前面其他显卡环境也可以!但是最少要有8GB的显存,不然很容易爆。如果有多显卡的话,单机多卡也是很好的方案!!!背景介绍目前借到一台算法组的服务器,我们可以查看一下......
  • Mike11前处理—如何快速简便的提取断面文件Cross sections?——ZDM法
    前言:近期接触了一些关于MIKE11提取断面的技巧,当然很多人应该知道这种方法——ZDM软件提取(一款水工设计软件)。我们一般拿到都是CAD版本的断面文件,如果一个一个去输入的话,繁琐又耗时,还容易出错,今天我们在这里介绍一种简单的断面提取方法—ZDM法此方法适用很普遍,小编抽个时......
  • LLM基础模型系列:Prefix-Tuning
    ------->更多内容,请移步“鲁班秘笈”!!<------PrefixTuning和PromptTuning最大的区别就是向每层的TransformerBlock添加可训练的张量,而上一期的PromptTuning只是在输入的时候添加。此外,通过全连接层(具有两层的迷你MLP和介于两者之间的非线性激活函数)来进行桥接。下图左侧......
  • 提取文本中所有图片的链接地址
    从给定的文本中使用正则表达式提取出所有的图片链接地址代码importres='这是一段干扰信息这是一段干扰信息这是一段干扰信息这是一段干扰信息这是一段干扰信息这是一段干扰信息https://img1.baidu.com/it/u=272155668.1962281314&fm=26&fmt=auto这是一段干扰信息这是一......
  • 从 python 中的字符串列表中提取 def 定义函数的标签
    我想使用Python中的正常def过程创建函数,并将标签分配给从字符串列表中提取的命名空间。如何实现这一点?这个问题的动机:我正在创建一个与sympy兼容的python函数库,供数学家用于符号计算实验。许多函数需要初始化具有相关标签的多个对象的系统,这些标签分别由用户提供的字......
  • 万字长文|LLM大模型基础入门(非常详细)从入门到精通系列之:(三)Transformer 架构
    引言在本文中,我们将介绍并解释基于Transformer的大语言模型的每个步骤。当第一次接触Transformer架构时,我被可用于理解它的大量概念和教程所淹没。一些视频或文章假设了自然语言处理(NLP)概念的先验知识,而另一些则太长且难以理解。为了掌握Transformer架构,我不得不阅......
  • fastchat vs vLLM
    vLLMhttps://github.com/vllm-project/vllmhttps://docs.vllm.ai/en/latest/推理和服务,但是更加偏向推理。 vLLMisafastandeasy-to-uselibraryforLLMinferenceandserving.vLLMisfastwith:State-of-the-artservingthroughputEfficientmanagementofat......
  • Langchain 与 LlamaIndex:LLM 应用开发框架的比较与使用建议
    Langchain和Llamaindex是两种广泛使用的主流LLM应用开发框架。两者有什么不同?我们该如何使用?以下我根据各类资料和相关文档做了初步选型。一、Langchain1.适用场景(1)需要构建灵活、可扩展的通用应用程序。(2)需要复杂的工作流程支持。(3)需要复杂的交互和上下文保留功能。(4......