首页 > 其他分享 >OCR+PDF解析配套前端工具开源详解!

OCR+PDF解析配套前端工具开源详解!

时间:2024-10-10 11:33:54浏览次数:8  
标签:TextIn 解析 项目 yarn 开源 可视化 PDF OCR

面对日常生活和工作中常见的OCR识别、PDF解析、翻译、校对等场景,配套的可视化工具能够极大地提升我们的使用体验和工作效率。

通过可视化界面,我们可以直观地看到文本识别、解析和翻译的结果,便捷评估产品效果。

今天来跟大家分享一个非常棒的开源项目——TextIn ParseX-Frontend,帮助我们轻松搭建优秀的前端可视化界面。「链接」

 

https://cc.co/16YSJx

 

 

项目简介

ParseX-Frontend是一套TextIn开发的可视化工具,它针对OCR或PDF解析结果审核校对、效果测评场景,也适用于翻译软件等一系列需要可视化比对的工具。项目用ES6开发,基于React框架,能够清晰全面地展示解析结果,具有丰富的可视化和交互功能。

TextIn为相关领域的前端开发提供了优秀的范本。

目前项目已在Github上开源!

 

性能特色

  • 免费且稳定:前端组件代码全部开源,ParseX作为TextIn核心产品,前端更新维护稳定,并且已公布导入编辑功能的计划。
  • 强大的渲染能力:预览渲染主流图片格式和pdf文件,提供缩放和旋转功能;markdown结果渲染,支持各级标题、图片、公式渲染展示。
  • 支持元素提取与位置溯源:各类解析元素提取展示,支持查看表格、公式、图片,和原始 JSON 结果;解析元素文档位置溯源,原文画框标注各元素位置,可以点击画框跳转解析结果,也可以点击解析结果跳转原文画框。
  • 目录还原:各层级目录树还原展示,支持点击跳转相应章节。
  • 灵活的参数配置:接口调用选项参数,支持配置不同参数组合,获取相应解析结果。
  • 便捷的复制导出功能:支持复制和导出markdown文件;复制解析后的表格和图片,可以直接粘贴到Excel表格中。

安装使用

安装依赖

环境要求:

  1. node 版本 >= 18.20.4
  2. 强烈建议使用 yarn 包管理器,项目仓库包含 yarn.lock,指定了依赖版本

拉取项目:

git clone https://github.com/intsig-textin/parsex-frontend.git

使用 npm 或 yarn 安装:

yarn install
# 或
npm install

启动项目

yarn start
# 或
npm run start

浏览器访问http://localhost:10007

脚本命令

项目结构

简要描述项目文件结构,以帮助贡献者和用户理解项目的组织方式。

├── src/                    # 源代码
│   ├── assets/             # 静态资源
│   ├── components/         # 全局通用组件
│   ├── layouts/            # 页面框架组件
│   ├── modules/            # store
│   ├── pages/              # 页面组件
│   ├── service/            # 接口服务
│   ├── utils/              # 工具函数
│   └── app.ts              # 入口文件
├── public/                 # 静态资源
├── config/                 # 配置
│   ├── routes              # 路由
│   └── config.*            # 其他umi配置
├── .eslintrc.js            # ESLint 配置
├── tsconfig.json           # TypeScript 配置
├── package.json            # 项目配置
└── README.md               # 项目说明文件

效果展示

 

 

 

 

ParseX-Frontend 作为一款可视化工具,具备丰富的交互功能。原文定位溯源,一键复制文字、表格、图片,灵活的参数配置,不仅能帮助用户快速比对,评估产品效果,提高工作效率,也降低了技术门槛,非开发者用户也能轻松上手。

 

更多细节功能,感兴趣的可以到项目地址查看:

项目地址:https://github.com/intsig-textin/parsex-frontend

 

 

 

 

标签:TextIn,解析,项目,yarn,开源,可视化,PDF,OCR
From: https://www.cnblogs.com/intsig/p/18455984

相关文章

  • 个人收藏的技术大会分享PDF文档
    从各个技术大会收集的分享资料,是你快速学习技能的好帮手平安-陈庆春-构建敏捷银行.pdf众安科技-宋文鹏-基于区块链的系统架构设计.pdfYelp-杨光-EffectiveCommunicationwithStorytelling.pdf华为-潘瑞琪-精益看板,发现那些被隐藏的浪费.pdf中国科学院-葛仕明-基于深度......
  • JAVA 毕设 环保小程序 开源
    项目介绍项目是帮别人设计的毕设项目,主要分为前台和后台,前台是微信小程序,后台是通过若依框架快速开发的管理平台,项目主要分为题库、活动、社区、视频、基础信息、会员等几大模块。开发技术:前端:Vue2.0+ElementUi+微信小程序开发语言后端:SpringBoot+Redis+MySQL其他框架:......
  • OpenSource - License 开源项目 TrueLicense
    文章目录官网集成Demo官网https://truelicense.namespace.global/https://github.com/christian-schlichtherle/truelicense集成Demohttps://github.com/christian-schlichtherle/truelicense-maven-archetypehttps://github.com/zifangsky/LicenseDemohttp......
  • Graphviz是一个开源的图形可视化软件
    官网没有给出代码示例,所以需要自己琢磨,这里最底下给了一些简单的,确实可以出很好看的图片Graphviz介绍Graphviz是一个开源的图形可视化软件,主要用于绘制各种类型的图表,如流程图、结构图、网络拓扑图等。它通过一种简单的文本表示语言(称为DOT语言)来创建和可视化图形......
  • 1:1仿PG电子PP电子 后台可控 多个模板选择源码全开源 像项目展示
    前端首页页面前端登录界面前端支持多套UI支持多种语言效果后端游戏控制界面后端游戏添加界面后端模板切换页面仅供参考!......
  • (开题)flask框架基于OCR的健康随行小程序(程序+论文+python)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景在数字化生活日益普及的今天,人们对于健康生活的追求已不仅限于传统的医疗服务和健身锻炼,而是更加注重日常生活的细节管理和个性化健康指导......
  • 树莓派 RasperryPi 开源免费的PLC通讯神器 LECPython,和欧姆龙Omron PLC通讯示例
    简介LECPython是一个强大的Python组件,基于C#开发,能够实现Python与PLC之间的高效通信。本文将指导您如何在树莓派(RaspberryPi)上安装和使用LECPython组件,为您的工业自动化项目提供便利。LECPython旨在解决在树莓派等嵌入式设备上,与可编程逻辑控制器(PLC)建立高效通信的......
  • 【专题】人工智能AI算力高质量发展评估体系报告合集PDF分享(附原数据表)
    原文链接:https://tecdat.cn/?p=37828在当今数字化时代,算力已成为推动经济发展和科技创新的关键力量。全球算力规模持续稳步扩张,尤其是智能算力的高速增长态势引人瞩目。我国“东数西算”工程凸显出东部算力需求大而西部相对较小的特点,同时各省份算力发展水平与经济规模紧密相关。......
  • 商汤开源大模型压缩工具LLMC!单卡压缩Llama 3.1 405B
    关注公众号:青稞AI,第一时间学习最新AI技术......
  • Unity ML-Agents: 革新游戏AI开发的开源工具包
    ml-agentsUnityML-Agents:革新游戏AI开发的开源工具包UnityML-Agents(MachineLearningAgents)是UnityTechnologies推出的一个开源项目,旨在将游戏和模拟环境转变为训练智能代理的平台。这个工具包为游戏开发者和AI研究人员提供了一个强大而灵活的框架,使他们能够轻松地在Un......