项目:https://github.com/jiangnanboy/Image_KIE_LLM
模型:
- 去除背景: U2Net
- ocr: paddleocr
- KIE: Baichuan2 LLM
使用
- main.py
在这里,OCR识别的文本和提示语将一起输入到LLM中提取关键信息。
结果展示
# key information extraction
invoice_ki = '单位 电话 车号 证号 日期 上/下车 单价 里程 金额'
# results of extraction
{
"单位": "000023",
"电话": "82817089",
"车号": "UT-5075",
"证号": "000000",
"日期": "2019-08-30",
"上/下车": "14:31-15:02",
"单价": "3.15",
"里程": "24.7km",
"金额": "76.00元"
}
# key information extraction
household_ki = '姓名 出生地 籍贯 出生日期 性别 民族 公民身份证件编号 文化程度 婚姻状况 服务处所 职业 登记日期'
# results of extraction
{
"姓名": "合小合",
"出生地": "辽宁省普兰店市",
"籍贯": "辽宁省普兰店市",
"出生日期": "1963.11.14",
"性别": "男",
"民族": "汉族",
"公民身份证件编号": "411528222228110022",
"文化程度": "中专毕业",
"婚姻状况": "已婚",
"服务处所": "大连皮子窝化工厂新滩分场",
"职业": "生产员",
"登记日期": "2008年06月10日"
}
标签:卡证,提取,llm,普兰店市,证号,results,extraction,日期,LLM
From: https://www.cnblogs.com/little-horse/p/18316823