开源表格识别模型对比

时间：2024-10-22 21:33:24浏览次数：1

标签：engine 表格模型开源 rec table 识别

引言

表格结构识别功能是智能文档中很重要的一个模块，又加之表格种类繁多，且复杂，又进一步让表格识别任务变得更加困难。

现阶段，开源的表格识别模型众多，但却难以有一个公平的对比，来方便我们在日常使用时选择合适的模型。因此，我们就以此为出发点，旨在解决评估开源表格模型评估问题，通过构建第三方评测集、发布计算TEDS指标工具来评测了当前开源的诸多表格识别模型。

与此同时，我们也将最优的表格识别模型做了整理，发布了两个表格识别库，详情请参见下文：

TableStructureRec(基于阿里读光开源模型)
RapidTable(基于PP-Structure中表格识别模型)

评测环境

OS: Ubuntu
Python: 3.10.10
OpenCV: 4.10.0.84

评测数据集及工具

评测集：table_rec_test_dataset
评测工具：TableRecognitionMetric

评测指标

TEDS
TEDS-only-structure

评测结果

注:

StructEqTable 输出为 latex，只取成功转换为html并去除样式标签后进行测评
Surya-Tabled 使用内置ocr模块，表格模型为行列识别模型，无法识别单元格合并，导致分数较低

RapidAI系表格识别库

TableStructureRec

该仓库是用来对文档中表格做结构化识别的推理库，包括来自阿里读光有线和无线表格识别模型，llaipython(微信)贡献的有线表格模型，网易Qanything内置表格分类模型等。

安装：

pip install wired_table_rec lineless_table_rec table_cls

使用：

import os

from lineless_table_rec import LinelessTableRecognition
from lineless_table_rec.utils_table_recover import format_html, plot_rec_box_with_logic_info, plot_rec_box
from table_cls import TableCls
from wired_table_rec import WiredTableRecognition

lineless_engine = LinelessTableRecognition()
wired_engine = WiredTableRecognition()
table_cls = TableCls()
img_path = f'images/img14.jpg'

cls,elasp = table_cls(img_path)
if cls == 'wired':
    table_engine = wired_engine
else:
    table_engine = lineless_engine
  
html, elasp, polygons, logic_points, ocr_res = table_engine(img_path)
print(f"elasp: {elasp}")

识别效果：

RapidTable

主源自PP-Structure的表格识别算法，模型转换为ONNX，推理引擎采用ONNXRuntime，部署简单，无内存泄露问题。最近刚刚集成了SLANet-plus，该模型是paddlex内置的SLANet升级版模型，表格识别准确率有大幅提升。

安装使用：

pip install rapidocr_onnxruntime
pip install rapid_table
rapid_table -v -img test_images/table.jpg

总结

wired_table_rec_v2(有线表格精度最高): 通用场景有线表格(论文，杂志，期刊, 收据，单据，账单)
paddlex-SLANet-plus(综合精度最高): 文档场景表格(论文，杂志，期刊中的表格)

小伙伴们可以根据自己需求尝试以上列出的表格识别模型，有啥想法可以关注RapidAI公众号，后台回复“表格”入微信群交流。

本文使用 markdown.com.cn 排版

标签：engine,表格,模型,开源,rec,table,识别
From： https://www.cnblogs.com/shiwanghualuo/p/18493792

Python停车场车位识别
程序示例精选Python停车场车位识别如需安装运行环境或远程调试，见文章底部个人QQ名片，由专业技术人员远程协助！前言这篇博客针对《Python停车场车位识别》编写代码，代码整洁，规则，易读。学习与应用推荐首选。文章目录一、所需工具软件二、使用步骤 1.......
广告---高仿水滴筹源码,全开源uniapp+fastadmin开发
一、水滴筹系统概述水滴筹是国内知名的大病筹款平台，为众多病患提供了便捷的筹款渠道。该平台不仅具有筹款金额高、筹款速度快、操作简便等特点，还具备强大的社交互动功能，让更多的人参与到公益事业中来。本文将介绍如何基于最新UI仿水滴筹系统源码和全开源UniApp开发，制作出一套......
机器人开源调度系统OpenTcs6二次开发-模型表设计
基于OpenTCS工厂模型的数据，我们可以设计一个关系型数据库表结构来存储模型数据，包括点、路径、位置、车辆等元素。以下是一个基于OpenTCS模型的数据库表设计建议，以便高效地管理这些数据。1.表结构概览OpenTCS的工厂模型包括以下主要部分：Points(点)Paths(路径)......
Local.ai: 在本地运行AI的开源解决方案
local.aiLocal.ai:让AI在你的电脑上运行在人工智能快速发展的今天,越来越多的人希望能够亲自体验和使用AI技术。然而,大多数AI服务都依赖于云端,这不仅需要持续的网络连接,还可能引发隐私和安全方面的担忧。Local.ai应运而生,它是一个创新的开源项目,旨在让用户能够在自己的电脑......
【开源免费】基于SpringBoot+Vue.JS读书笔记共享平台（JAVA毕业设计）
本文项目编号T029，文末自助获取源码\color{red}{T029，文末自助获取源码}......
【开源免费】基于SpringBoot+Vue.JS母婴商城系统（JAVA毕业设计）
本文项目编号T030，文末自助获取源码\color{red}{T030，文末自助获取源码}......
使用 OCaml 识别英文数字验证码
环境准备确保你已安装OCaml和OPAM（OCaml包管理器）。然后安装以下库：cohttp（用于HTTP请求）ocaml-tesseract（用于OCR识别）graphics（用于图像处理）你可以通过OPAM安装这些库：bashopaminstallcohttp-lwt-unixocaml-tesseractgraphics2.下载验证码图片使用Cohttp下载......
红外人脸识别和3D结构光人脸识别的区别
红外人脸识别和3D结构光人脸识别的主要区别包括：1.技术原理不同；2.环境适应性不同；3.精度与安全性不同；4.成本与复杂性不同；5.应用场景的差异。其中，技术原理是两者最显著的区别：红外人脸识别主要利用红外光线，而3D结构光人脸识别则通过结构光模式获取人脸的深度信息。1.技术原理不同......
使用 D 语言识别英文数字验证码
环境准备确保你的D语言环境已设置好，并安装以下库：vibe.d（用于HTTP请求）dlib（用于图像处理和OCR）你可以在dub.json中添加依赖：json{"dependencies":{"vibe-d":"~>0.9.0","dlib":"~>1.0.0"}}然后运行dubget安装依赖。下载验证码图片使用vibe.d下载验证码......
C++文字识别接口介绍-翔云-通用文字识别API接口
文字识别接口是一种提供给开发者使用的API服务，主要功能是通过光学字符识别（OCR,OpticalCharacterRecognition）技术将图片中的文字转换为可编辑的文本。这种技术广泛应用于各种场景，比如证件识别、票据识别、书籍扫描等。使用第三方平台如翔云文字识别接口通常需要以下几......