首页 > 其他分享 >人工智能结合模板实现表格信息提取

人工智能结合模板实现表格信息提取

时间:2023-10-17 16:36:45浏览次数:37  
标签:表格 人工智能 单元格 信息提取 识别 模板

DimTechStudio.Com

人工智能结合模板实现表格信息提取

一、 项目介绍

本项目基于是OCR(文本识别)、表格识别的人工智能技术应用,通过表格识别,实现快速制作模板;模板单元格信息,结合OCR识别结果,将表格内容提取为结构化信息输出。与KIE(Key Information Extraction,关键信息抽取)模型对比,本项目准确率更高,效率更快,占用资源更小,能大大提升用户将非结构化的数据转化为结构化数据的质量。

二、技术要点

  • PaddleOCR,百度飞桨开源的OCR文字识别工具库
  • Table Detection,基于Cycle-CenterNet的表格识别
  • OpenCV,开源、跨平台的计算机视觉库

三、视频展示

<iframe allowfullscreen="true" border="0" frameborder="no" framespacing="0" height="360" scrolling="no" src="https://player.bilibili.com/player.html?aid=961068710&bvid=BV1fH4y1U7g2&cid=1268191769&p=1" width="640"> </iframe>

四、操作流程

制作模板

  • 运行模板制作工具WlkrLabel
  • 文件 -> 打开,选择模板所在路径文件夹
  • 人工智能 -> 表格检测
    • Anchor锚点,用于定位表格,修正图片偏移,适用于如扫描件、照片等,减少因图片位置偏移带来的错误
    • 单元格Region,适合文字居中的情况
    • 文字Region,适合文字非居中的情况
  • 选中的蓝色单元,为程序推理得出的锚点,其他颜色单元格则为与锚点一一配对的待提取内容
  • 检查模板,由于无法做到100%准确,需要手动修正,如删除多余单元格,修正错误字等
  • 确认模板无误后,点击右下角“确认”按钮
  • 对于空白表单也能识别,但是效果会稍差
  • 完成所有图片模板的制作后,按Ctrl + S保存结果(或者 文件 -> 导出标记结果)

上传模板

  • 使用系统api接口更新模板,
  • 选中模板文件夹内的Label.txt及相关图片
  • 将所有文件上传到系统。

测试效果

  • 试用地址:表格信息提取 - 模板识别
  • 试用地址中提供了两种方式测试
  • 一是下载Excel,自行填充内容,导出图片后,旋转角度测试
  • 二是直接下载0°与180°两张示例图,用于测试
  • 下面为旋转180°的识别效果

标签:表格,人工智能,单元格,信息提取,识别,模板
From: https://www.cnblogs.com/jine1987/p/17770031.html

相关文章

  • Windows Server 2016 OVF, updated Oct 2023 (sysin) - VMware 虚拟机模板
    WindowsServer2016OVF,updatedOct2023(sysin)-VMware虚拟机模板2023年10月版本更新,现在自动运行sysprep,支持ESXiHostClient部署请访问原文链接:https://sysin.org/blog/windows-server-2016-ovf/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.org现在......
  • Windows Server 2019 OVF, updated Oct 2023 (sysin) - VMware 虚拟机模板
    WindowsServer2019OVF,updatedOct2023(sysin)-VMware虚拟机模板2023年10月版本更新,现在自动运行sysprep,支持ESXiHostClient部署请访问原文链接:https://sysin.org/blog/windows-server-2019-ovf/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.orgWind......
  • Modbus主机模板
    #ifndefMODBUS_MASTER_H#defineMODBUS_MASTER_H#include"main.h"#ifdefMODBUS_MASTER_C#include"stm32f10x_usart.h"#include"crc.h"#definePrioritySize3#defineMissionSize10#defineBps115200#defineRecSize......
  • VMware发布统一分析和人工智能平台,满足人工智能需求
        据了解,VMwareGreenplum7当前已经正式推出,并且还是“统一分析和人工智能”平台,支持向量数据并行处理,号称“可与最新大语言模型方法(LLM)集成”、“能够可帮助企业充分利用其数据资源”。VMware声称,Greenplum核心是以开源PostgreSQL项目为基础,将商业智能(BI)和人......
  • React-Admin后台管理模板|react18+arco+zustand后台解决方案
    基于react18.x+vite4+arco-design自研中后台管理系统解决方案ReactAdmin。react-vite-admin基于vite4搭建react18.x后台管理项目。使用了react18hooks+arco.design+zustand+bizcharts等技术实现权限管理模板框架。支持暗黑/亮色主题、i18n国际化、动态权限鉴定、3种布局模板、t......
  • 麒麟KYLINOS2303上通过模板设置电源
    hello,大家好啊,今天给大家带来一篇在麒麟kylinOS2303上通过模板设置电源的文章,主要通过开机启动脚本实现,开机脚本内容主要为gsettings的设置,关于gestating的相关信息,请大家自行查阅相关资料获取。1、查看系统信息pdsyw@pdsyw-pc:~/桌面$cat/etc/.kyinfo[dist]name=Kylinmiles......
  • java导出占位符word模板
    实际项目中,便于维护模板,采用直接word里面制作占位符来导出更为直观,而不是将word做成tpl模板。使用XWPFDocument(这种解析xlsx或者docx)和HWPFDocument(这种解析xls或者doc)。代码如下:写磁盘代码:点击查看代码//创建Word模板文件:在开始代码编写之前,我们需要准备一个Wor......
  • [Vue]模板语法和MVVM
    模板语法分为:①插值语法、②指令语法插值语法{{xxx}}指令语法v-bind:attr='xxx' 注意v-bind:只是一种指令,指令可以有很多种。v-bind:可以简写为:<body><divid="root"><h1>插值语法</h1><h3>{{name}}</h3><hr/&g......
  • 线段树模板
    线段树理解起来不难,主要是书写起来比较麻烦这里学的是董晓老师的线段树模板#include<bits/stdc++.h>usingnamespacestd;#definelcp<<1#definercp<<1|1#defineN500005intn,w[N];structnode{intl,r,sum,add;//add用于懒标记}tr[N*4];//建树,深搜递归的过......
  • 科普知识:Arduino助力人工智能机器人课程
    一、课程目标初级课程主要面向大学通识课程、中小学教师,通过教师讲解了解机器人的发展、基本原理、关键技术以及与人工智能的关系和发展,通过文献调研对机器人领域形成自己的认识,通过课堂协作、竞赛任务完成实践对机器人的设计、控制和优化。共计32学时。1、Arduino的优势比如你......