首页 > 其他分享 >开源表格识别模型对比

开源表格识别模型对比

时间:2024-10-22 21:33:24浏览次数:1  
标签:engine 表格 模型 开源 rec table 识别

引言

表格结构识别功能是智能文档中很重要的一个模块,又加之表格种类繁多,且复杂,又进一步让表格识别任务变得更加困难。

现阶段,开源的表格识别模型众多,但却难以有一个公平的对比,来方便我们在日常使用时选择合适的模型。因此,我们就以此为出发点,旨在解决评估开源表格模型评估问题,通过构建第三方评测集、发布计算TEDS指标工具来评测了当前开源的诸多表格识别模型。

与此同时,我们也将最优的表格识别模型做了整理,发布了两个表格识别库,详情请参见下文:

评测环境

  • OS: Ubuntu
  • Python: 3.10.10
  • OpenCV: 4.10.0.84

评测数据集及工具

评测指标

  • TEDS
  • TEDS-only-structure

评测结果

image.png

注:

  • StructEqTable 输出为 latex,只取成功转换为html并去除样式标签后进行测评
  • Surya-Tabled 使用内置ocr模块,表格模型为行列识别模型,无法识别单元格合并,导致分数较低

RapidAI系表格识别库

TableStructureRec

该仓库是用来对文档中表格做结构化识别的推理库,包括来自阿里读光有线和无线表格识别模型,llaipython(微信)贡献的有线表格模型,网易Qanything内置表格分类模型等。

安装:

pip install wired_table_rec lineless_table_rec table_cls

使用:

import os

from lineless_table_rec import LinelessTableRecognition
from lineless_table_rec.utils_table_recover import format_html, plot_rec_box_with_logic_info, plot_rec_box
from table_cls import TableCls
from wired_table_rec import WiredTableRecognition

lineless_engine = LinelessTableRecognition()
wired_engine = WiredTableRecognition()
table_cls = TableCls()
img_path = f'images/img14.jpg'

cls,elasp = table_cls(img_path)
if cls == 'wired':
    table_engine = wired_engine
else:
    table_engine = lineless_engine
  
html, elasp, polygons, logic_points, ocr_res = table_engine(img_path)
print(f"elasp: {elasp}")

识别效果:

image.png

RapidTable

主源自PP-Structure的表格识别算法,模型转换为ONNX,推理引擎采用ONNXRuntime,部署简单,无内存泄露问题。最近刚刚集成了SLANet-plus,该模型是paddlex内置的SLANet升级版模型,表格识别准确率有大幅提升。

安装使用:

pip install rapidocr_onnxruntime
pip install rapid_table
rapid_table -v -img test_images/table.jpg

总结

  • wired_table_rec_v2(有线表格精度最高): 通用场景有线表格(论文,杂志,期刊, 收据,单据,账单)
  • paddlex-SLANet-plus(综合精度最高): 文档场景表格(论文,杂志,期刊中的表格)

小伙伴们可以根据自己需求尝试以上列出的表格识别模型,有啥想法可以关注RapidAI公众号,后台回复“表格”入微信群交流。

本文使用 markdown.com.cn 排版

标签:engine,表格,模型,开源,rec,table,识别
From: https://www.cnblogs.com/shiwanghualuo/p/18493792

相关文章

  • Python停车场车位识别
    程序示例精选Python停车场车位识别如需安装运行环境或远程调试,见文章底部个人QQ名片,由专业技术人员远程协助!前言这篇博客针对《Python停车场车位识别》编写代码,代码整洁,规则,易读。学习与应用推荐首选。文章目录一、所需工具软件二、使用步骤       1.......
  • 广告---高仿水滴筹源码,全开源uniapp+fastadmin开发
    一、水滴筹系统概述水滴筹是国内知名的大病筹款平台,为众多病患提供了便捷的筹款渠道。该平台不仅具有筹款金额高、筹款速度快、操作简便等特点,还具备强大的社交互动功能,让更多的人参与到公益事业中来。本文将介绍如何基于最新UI仿水滴筹系统源码和全开源UniApp开发,制作出一套......
  • 机器人开源调度系统OpenTcs6二次开发-模型表设计
    基于OpenTCS工厂模型的数据,我们可以设计一个关系型数据库表结构来存储模型数据,包括点、路径、位置、车辆等元素。以下是一个基于OpenTCS模型的数据库表设计建议,以便高效地管理这些数据。1.表结构概览OpenTCS的工厂模型包括以下主要部分:Points(点)Paths(路径)......
  • Local.ai: 在本地运行AI的开源解决方案
    local.aiLocal.ai:让AI在你的电脑上运行在人工智能快速发展的今天,越来越多的人希望能够亲自体验和使用AI技术。然而,大多数AI服务都依赖于云端,这不仅需要持续的网络连接,还可能引发隐私和安全方面的担忧。Local.ai应运而生,它是一个创新的开源项目,旨在让用户能够在自己的电脑......
  • 【开源免费】基于SpringBoot+Vue.JS读书笔记共享平台(JAVA毕业设计)
    本文项目编号T029,文末自助获取源码\color{red}{T029,文末自助获取源码}......
  • 【开源免费】基于SpringBoot+Vue.JS母婴商城系统 (JAVA毕业设计)
    本文项目编号T030,文末自助获取源码\color{red}{T030,文末自助获取源码}......
  • 使用 OCaml 识别英文数字验证码
    环境准备确保你已安装OCaml和OPAM(OCaml包管理器)。然后安装以下库:cohttp(用于HTTP请求)ocaml-tesseract(用于OCR识别)graphics(用于图像处理)你可以通过OPAM安装这些库:bashopaminstallcohttp-lwt-unixocaml-tesseractgraphics2.下载验证码图片使用Cohttp下载......
  • 红外人脸识别和3D结构光人脸识别的区别
    红外人脸识别和3D结构光人脸识别的主要区别包括:1.技术原理不同;2.环境适应性不同;3.精度与安全性不同;4.成本与复杂性不同;5.应用场景的差异。其中,技术原理是两者最显著的区别:红外人脸识别主要利用红外光线,而3D结构光人脸识别则通过结构光模式获取人脸的深度信息。1.技术原理不同......
  • 使用 D 语言识别英文数字验证码
    环境准备确保你的D语言环境已设置好,并安装以下库:vibe.d(用于HTTP请求)dlib(用于图像处理和OCR)你可以在dub.json中添加依赖:json{"dependencies":{"vibe-d":"~>0.9.0","dlib":"~>1.0.0"}}然后运行dubget安装依赖。下载验证码图片使用vibe.d下载验证码......
  • C++文字识别接口介绍-翔云-通用文字识别API接口
    文字识别接口是一种提供给开发者使用的API服务,主要功能是通过光学字符识别(OCR,OpticalCharacterRecognition)技术将图片中的文字转换为可编辑的文本。这种技术广泛应用于各种场景,比如证件识别、票据识别、书籍扫描等。使用第三方平台如翔云文字识别接口通常需要以下几......