首页 > 其他分享 >开箱即用!智能文档处理“百宝箱”

开箱即用!智能文档处理“百宝箱”

时间:2024-10-30 10:20:23浏览次数:5  
标签:百宝箱 模型 合合 开箱 acge 文档 解析 可以

  10月24日至26日,CSDN第五届“1024程序员节”在长沙召开,来自合合信息的常扬老师在“模型与工具”论坛上分享了合合信息的智能文档处理“百宝箱”,系统介绍了TextIn ParseX、acge-embedding、markdown_tester三种工具。正好我最近也在做一些扫描件的文档整理,就让我们一起来了解一下这几样工具到底有多神。

文档解析的过程中最容易出现的问题就是版式复杂,抓取不到正确的位置从而解析错误。除此之外,还存在解析速度太慢、语义信息丢失等问题。如果是模型训练,则还会遇到CornerCase过多、召回结果排序困难、答案生成有幻觉等问题。合合信息本次推出智能文档处理“百宝箱”,解决这些问题都不在话下。

这次全新推出的TextIn ParseX做成了一个可视化工具,对于纯文字工作者来说实在是太方便了。我们可以从它的GitHub页面官网页面直接体验。下面是我自己的一个小实验。

双栏排版中这种跨栏的元素是最难定位的,我们看右侧确实很准确地识别到了。点击左侧文档右侧也会自动滚动到对应的位置,点击右边也是同样的效果。同时左侧会自动解析出文档目录结构,方便快速跳转。

不仅如此,下方还有难度更高的跨栏表格,可以看到也是很准确地识别到了,同时还还原成了表格的形制,我们可以直接复制到word等文本编辑器里,替换一下表格样式就可以直接用了,非常方便。

还有一个非常贴心的新设计,右上侧可以切换结果的格式,适应不同的应用场景。可以选择markdown用于博客、笔记等,也可以选择为JSON格式用于自动化脚本、机器学习等。如果只需要表格、公式或图片也有专门的标签页可以选择。

如果有进阶需求,可以在高级模式中进行个性化设置,调整参数来适应自己的需求。比如说我们要在解析文档进行结果审核校对、效果测评等场景,需要可视化展示文档解析后的结果的时候就可以进行结果的定制。

事实上,使用文档处理工具的并不只有文字工作者,还有机器学习模型研究人员。对于他们则有另外的利器可以使用,这就是向量化acge-embedding模型。它可以将海量的文本数据转化为一个有方向有数值的列表,进而计算文本相似性。这一特性使得它在内容审核、意图分析、情感分析、推荐系统、信息检索都有广泛的应用。

这一技术早已是研究NLP小伙伴门的必备技能,不过acge-embedding有绝招。相比其他模型,它的模型较小,占用资源少;同时模型输入文本长度为1024,满足绝大部分场景的需求;最厉害的是,acge模型支持可变嵌入维度,让文本嵌入模型在推理时具备可变Embedding大小的能力,可以根据企业场景采用不同的计算和存储消耗,这是大部分模型不具备的能力。acge-embedding模型曾在Massive Text Embedding Benchmark中文榜单C-MTEB获得了第一名的好成绩,受到业界的广泛认可。

研究人员可以很轻易的使用acge-embedding模型开展对比学习技术、数据挖掘、多任务混合训练、MRL训练和持续学习。比如说在应用在检索增强生成中,可以对文档块进行向量化表示;也可以对问题(query)进行向量化表示,查询高文本相似度的文档块召回;也可以文档块向量库实时动态更新,低成本高扩展;或者通过数据向量化处理保证数据安全。

程序员朋友们可能还有技术选型的需求,针对这一点合合信息还提供了markdown_tester文档解析测评工具,用以评价转换结果和原始文档内容相似度。文档解析结果可以从结果稳定、识别准确、性能更快三个方面评价,主要体现在电子档和扫描件的处理、文档图像预处理、物理版面分析、逻辑版面分析和文字识别几个角度。markdown_tester通过对表格、段落、标题、阅读顺序、公式几个板块共14项指标进行定量测评,使开发者可直观地看到文本识别、解析和翻译的结果评估产品效果。最方便的是,在评测完毕后可以直接导出评分表格和更为直观的雷达图便于取用。

 企业在数字化转型中,通过将数据转化为资产,建设知识库来提升竞争力。然而,不同类型的文档内容复杂,解析难度较大,影响数据准确性及知识库建设。合合信息的“百宝箱”可应对多场景数据处理需求。使用markdown_tester评估工具可全面测试文档解析效果,而TextIn ParseX可帮助审核、修正解析结果,确保重要数据的准确性。

如果能够独立训练人工智能模型,企业可以通过acge文本向量化模型,开展大模型预训练语料与数据治理快速入库,对大量数据源进行统一管理,增强知识库的全面性和准确性。

除此以外,企业还可以开展文档翻译等直接应用。由于“百宝箱”能够获取文档页面结构,翻译的结果可以直接替换页面中的元素,保持原有格式的情况下输出结果,节约人力并提高工作效率。


 

        合合信息“百宝箱”在电子档解析、扫描档识别上一直处于业界领先地位,能够做到不漏检、不错检、识别准确。同时对于特殊文档元素如无线表、跨页表格、各、页眉、页脚、公式、图像、印章、流程图、目录树等也有非常好的适配。

 如需了解更多文档处理权益,欢迎点击下方链接,加入交流社群,随时获得最新资讯及福利。
https://www.textin.com/activity?tag=znwd-bbx&btn=tj&code=mkt-csdn241024&from=csdn-prtg

标签:百宝箱,模型,合合,开箱,acge,文档,解析,可以
From: https://blog.csdn.net/m0_73367097/article/details/143357673

相关文章

  • MAnimal Controller文档——Main
    MAnimalController动物脚本负责控制动物的所有运动逻辑。它管理所有的Animator和RigidBody参数,以及动物可以执行的所有States和Modes。MainPrinciplesAnimalController(AC)是一个动画框架控制器,支持根运动或就地动画,适用于任何生物或人形角色。它使用Rigidbody与物理世界......
  • 基于SSM的宿舍管理系统(含源码+sql+视频导入教程+文档+PPT)
    基于SSM的宿舍管理系统1、项目介绍基于SSM的宿舍管理系统拥有两种角色,分别为管理员和宿管,具体功能如下:管理员:学生管理、班级管理、宿舍管理、卫生管理、访客管理、用户管理等宿管:宿舍管理(人员信息管理、维修登记)、卫生管理、访客管理等2、项目技术后端框架:SSM(Spring、......
  • 基于SSM 的图书馆管理系统(含源码+sql+视频导入教程+文档+PPT)
    1、项目介绍基于SSM的图书馆管理系统拥有两个角色,分别为管理员和学生。具体功能如下:管理员:查看、添加图书,查看添加学生,借还管理,修改密码等学生:查加检索图书、查看个人信息、查看个人借阅情况、修改密码2、项目技术后端框架:SSM(Spring、SpringMVC、Mybatis)前端框架:boo......
  • Java项目-基于springboot框架的高校社团管理系统项目实战(附源码+文档)
    作者:计算机学长阿伟开发技术:SpringBoot、SSM、Vue、MySQL、ElementUI等,“文末源码”。开发运行环境开发语言:Java数据库:MySQL技术:SpringBoot、Vue、MybaitsPlus、ELementUI工具:IDEA/Ecilpse、Navicat、Maven源码下载地址:https://download.csdn.net/download/weixin_53......
  • Java项目-基于springboot框架的民宿管理系统项目实战(附源码+文档)
    作者:计算机学长阿伟开发技术:SpringBoot、SSM、Vue、MySQL、ElementUI等,“文末源码”。开发运行环境开发语言:Java数据库:MySQL技术:SpringBoot、Vue、MybaitsPlus、ELementUI工具:IDEA/Ecilpse、Navicat、Maven源码下载地址:https://download.csdn.net/download/weixin_53......
  • 基于微信小程序的家政服务平台系统(源码+文档)
    随着人们生活水平的提高和生活节奏的加快,对家政服务的需求日益增长。传统的家政服务模式存在着信息不对称、服务质量参差不齐、沟通效率低下等问题,难以满足消费者多样化、个性化的需求。同时,家政服务人员也面临着找工作难、订单不稳定等困境。在互联网技术快速发展的今天,......
  • springboot基于微信小程序的企业考勤系统(源码+文档+调试+vue+前后端分离)
    收藏关注不迷路!!......
  • 【Swagger】Swagger2和Swagger3使用API文档的可视化工具(xiaoymin)
    Swagger时接口文档生成工具,在前后端分离时代很好用。不过,当接口多了,看起来不太符合国人的习惯。因为:缺乏搜索功能接口类多起来,找接口有如大海捞针。接口边上,没有带着接口注释看Model,需要拖拽到最后,没有很自然的切换。所以,xiaoymin在swagger的基础上,做到了更好的可视化......
  • 怎么把pdf文档保存成图片格式
    有时候我们会碰到只支持图片上传的场景,如何编程快速将pdf转成图片呢?可以使用Python的pdf2image库仅10行代码就能将PDF文档保存为图片格式。如果PDF文档包含多页,则每一页可以保存为单独的图片。以下是实现该功能的步骤:步骤:安装所需的库:pdf2image:用于将PDF......
  • 逆向分析Office VBS宏类型文档
    该题目贴合实际,在实战中经常遇到此类宏病毒。将Office文档中嵌入以VBA(VisualBasicforApplications)编写的宏代码脚本,当运行Office文档时,便可以执行各种命令。VBA脚本文件重定向能够将脚本默认文件vbaProject.bin进行替换,在打开文本时加载其他文件,增加分析者的分析复杂程度。......