首页 > 系统相关 >合合信息智能文档处理百宝箱:强力驱动,加速文档类应用研发进程

合合信息智能文档处理百宝箱:强力驱动,加速文档类应用研发进程

时间:2024-10-30 16:17:16浏览次数:7  
标签:解析 百宝箱 模型 合合 文档 文本

合合信息智能文档处理百宝箱:强力驱动,加速文档类应用研发进程

文章目录


在这里插入图片描述

目前,市面上文档解析工具繁杂无序,缺乏统一评估标准,集成难度大、调试周期长,给个人开发者及中小企业带来沉重负担。为此,合合信息推出智能文档处理"百宝箱",通过可视化文档解析前端、向量化Acge-embedding模型、定量测评工具,为开发者提供便捷产品效果评估手段,助力项目快速落地

可视化文档解析前端TextInParseX

在这里插入图片描述

TextInParseX 通用文档解析是一款大模型解析工具,支持将PDF文档、JPG、IMG图像等文件快速转换为 Markdown格式,并具备各类表格、公式的解析能力,帮助大语言模型完成数据清洗、文档问答任务,提高文档处理效率和准确性

1、丰富可视化与交互功能:TextInParseX 前端组件提供全面文档可视化功能,能够预览并渲染主流图片格式(JPG、PNG等)和PDF文件,用户可以通过缩放和旋转功能轻松调整文档视图,更细致地查看文档内容,支持Markdown 结果渲染,准确展示各级标题、文本和表格,为用户提供直观阅读体验

2、深度解析与元素溯源:TextInParseX 具备强大文档解析能力,能够提取并展示文档中各类元素,包括表格、公式、图片等,支持解析元素文档位置溯源,即在原文中画框标注各元素位置,用户可以通过点击画框直接跳转到相应解析结果,双向跳转功能大大提高用户审核校对文档效率

3、灵活接口调用与配置:TextInParseX 基于ES6和React框架开发,提供灵活接口调用选项和参数配置功能,用户可以根据自己需求配置不同参数组合,获取更精确解析结果,支持在GitHub上检索 TextInParseX 获取更多相关信息和社区支持,方便用户进行二次开发和功能扩展

在这里插入图片描述

  • 表格识别效果好

能准确识别各种格式表格,包括有线表、无线表、密集表,并支持各种类型合并单元格识别与还原

  • 支持多种扫描内容

基于合合多年文档识别积累,能良好处理图片、扫描内容、手机照片、截屏等内容

  • 阅读顺序还原准

理解和还原文档结构和元素排列,确保阅读顺序准确性,支持多栏布局的论文、年报、业务报告等内容

使用体验

Textin控制台将需要导出为Markdown格式的文件传入

在这里插入图片描述

导出结果展示,文档解析精准度极高,对于文档中的各一级标题、二级标题(乃至更细致的层级标题)均能准确识别并清晰呈现

在这里插入图片描述

向量化Acge-embedding模型

在这里插入图片描述

合合信息推出的一款先进的文本向量化模型:ACGE_Text_Embedding模型,采用俄罗斯套娃表征学习框架,能够生成一个嵌套且多粒度的表示向量,可以独立用于不同任务,同时保持高度的准确性与信息丰富性,灵活适应不同计算资源需求,无缝地融入多种表示学习框架

训练阶段MRL框架会根据预设的向量维度(例如64、128直至2048、3072等)分别计算多个损失值,以此在单次训练周期内即可获取多种维度文本表征,由粗至细层次化表示策略,显著增强了模型灵活性,极大缩减推理与部署阶段额外开销

在这里插入图片描述

高精度与高效率:ACGE-Embedding模型在MTEB中文榜单上取得第一名成绩,展现了其高精度与高效率特点,和其它开源模型相比,ACGE模型较小,占用资源少,同时支持可变嵌入维度,能够根据具体场景合理分配资源,实现高效处理

灵活性与可扩展性:ACGE-Embedding模型采用了俄罗斯套娃表征学习(MRL)技术,使得文本嵌入模型在推理时具备可变 Embedding 大小的能力,提高模型灵活性,使得文档块向量库能够实时动态更新,实现低成本高扩展

强大泛化能力与适应性:ACGE-Embedding 模型通过对比学习技术、数据挖掘、多任务混合训练、持续学习等方法,提升模型泛化能力与适应性,使模型能够处理各种复杂下游任务,如文本分类、聚类、成对分类、重排序、检索、语义文本相似性等,避免引入新数据后模型灾难性遗忘问题

使用体验

1、安装依赖:使用acge_text_embedding模型之前,需要安装sentence_transformers库,使用pip进行安装

pip install --upgrade sentence_transformers

2、加载模型:安装完成后,使用以下代码加载acge_text_embedding模型

from sentence_transformers import SentenceTransformer,model = SentenceTransformer('acge_text_embedding')

3、模型使用

  • 文本向量化:使用model.encode()方法对文本进行向量化

文本列表:

sentences = ["我喜欢这本书", "我很爱读这本书"]

向量化:

embeddings = model.encode(sentences, normalize_embeddings=True)
  • 计算相似度:文本向量后,可以使用余弦相似度等方法计算文本之间相似度

计算两个文本之间相似度:

similarity = embeddings[0] @ embeddings[1].T

文档解析测评工具Markdown_tester

在这里插入图片描述

文档解析测评工具Markdown_Tester,通过定量测评展示各解析产品具体表现,帮助用户聚焦于业务场景,快速、高效评估各款解析产品在业务场景下的能力,用于对 Markdown 文档进行相似性评价(段落、标题、表格、公式维度)

全面性:涵盖表格、段落、标题、阅读顺序、公式等多维度,能够全面评估解析产品性能

准确性:通过定量测评与具体指标计算,准确反映各解析产品表现

便捷性:支持上传任意样本进行测评,操作简单便捷

可视化:输出结果包括直观雷达图,直观比较与分析各解析产品性能

使用体验

1、安装软件包

./install.sh

2、待测评样本按照下述方式放置

dataset/
├── pred/
│   ├── gpt-4o/
│   ├── vendor_A/
│   ├── vendor_B/
│   ├── ...
├── gt/

3、使用命令如下

  • path_to_pred_md:预测值文件所在文件夹
  • path_to_gt_md:真值文件所在文件夹
python run_test.py --pred_path path_to_pred_md  --gt_path path_to_gt_md

4、运行结果

在这里插入图片描述

百宝箱场景应用

知识库(RAG)

在这里插入图片描述

RAG(知识库)是先进文档处理技术,超越传统方法仅基于字符长度进行索引、检索和生成内容的局限,通过深入理解文档内容逻辑,将文本智能地分块,并生成分块摘要,精准识别并提取文档中的关键元素(文本、图像、表格等)显著提高处理效率,优化输出效果

智能文档抽取(OpenKIE)

在这里插入图片描述

智能文档抽取(OpenKIE)从各类非结构化或半结构化的文档中自动提取出重要信息(实体、关系等)转化为结构化格式,方便计算机进一步处理与分析,不仅能够处理文本段落中的信息,还能有效应对表格、图表等复杂元素,实现信息全面抽取

大模型预训练语料与数据治理快速入库

在这里插入图片描述

大模型预训练语料与数据治理快速入库高效且精细的数据处理流程,迅速整合并优化海量训练语料,通过专业操作数据清洗、精确标注、高效入库等,保数据准确性和多样性,为人工智能大模型预训练提供坚实基础,运用场景广泛

  • 金融报告(年报、研报、ESG报告、招股书等)
  • 国家标准(涵盖国际、行业及专利标准等)
  • 学术论文(涉及医疗、科研、题库、K12教育等多个领域)
  • 文档公告(如招投标文件、合同、政策文档等)
  • 使用手册(如产品手册、图纸手册等)
文档翻译(Document Translate)

在这里插入图片描述

文档翻译(DocumentTranslate)高效、准确且用户友好的多语言文档翻译工具,能够迅速还原并翻译各种格式文档,满足全球内容分发需求

  • 还原度与准确性:翻译整篇文档,保留原有格式,理解并精确翻译复杂句子,减少错误并提高翻译质量
  • 上下文意识:理解对话与叙述上下文,确保翻译保留原意与语气
  • 速度与多语言支持:同时处理多种语言,几秒钟内处理并翻译大量文档

结语

合合信息智能文档处理"百宝箱"促进了工作效率与技术创新的飞跃,其精准高效的文档解析能力,解决了复杂版式文档难处理的问题,使得知识库开发流程更流畅、数据更准确;文档解析前端组件,让开发者在文档解析后能轻松进行审核校对与细致的二次优化;Acge文本向量化模型,进一步推动知识库信息构建、检索、查询智能化与高效化进程

无论是对于开发者还是最终用户,合合信息智能文档处理"百宝箱"简化了工作流程,缩短产品开发周期,使团队能够更专注于核心功能创新与优化;对于最终用户,提升了使用体验,无论是信息的快速检索还是准确获取,都变得更加便捷与高效

如需了解更多文档处理权益,欢迎点击下方链接,加入交流社群,随时获得最新资讯及福利

体验地址

标签:解析,百宝箱,模型,合合,文档,文本
From: https://blog.csdn.net/weixin_62765017/article/details/143250521

相关文章

  • 建筑行业知识管理:构建高效文档管理系统,提升项目协作与管控能力
    各行各业都在经历数字化转型,建筑行业也不例外,正经历着前所未有的变革。随着工程项目规模的扩大和复杂性的增加,传统的管理方式已难以满足高效协作和精准管控的需求。因此,构建一个高效的在线AI知识库管理系统,成为提升建筑行业项目管理能力的关键。一、传统建筑工程信息管理......
  • DocLayout-YOLO,让多样性文档布局检测更快、更准、更强
     布局检测是文档解析领域的核心任务之一,目标是精准定位文档中不同类型的元素(正文、标题、表格、图片等)。尽管布局检测已经研究很多年,但现有的布局检测算法多关注在论文类型的文档,当面对多样性的文档(如教材、考题、研报等)时,其检测效果还是不及预期。上海人工智能实验室在2024......
  • 智能文档处理百宝箱,文档处理的必备利器
    1、引言    文档解析是开发者在业务实践中会频繁面临的场景,不管是用AI辅助日常工作,还是从事产品研发,然而从非结构化文本中提取文字、图片等信息具有很大的挑战。    目前市面上的文档解析工具普遍存在繁杂无序,缺乏统一评估标准,集成难度大、调试周期长,给个人开......
  • 开箱即用!智能文档处理“百宝箱”
      10月24日至26日,CSDN第五届“1024程序员节”在长沙召开,来自合合信息的常扬老师在“模型与工具”论坛上分享了合合信息的智能文档处理“百宝箱”,系统介绍了TextInParseX、acge-embedding、markdown_tester三种工具。正好我最近也在做一些扫描件的文档整理,就让我们一起来了解......
  • MAnimal Controller文档——Main
    MAnimalController动物脚本负责控制动物的所有运动逻辑。它管理所有的Animator和RigidBody参数,以及动物可以执行的所有States和Modes。MainPrinciplesAnimalController(AC)是一个动画框架控制器,支持根运动或就地动画,适用于任何生物或人形角色。它使用Rigidbody与物理世界......
  • 基于SSM的宿舍管理系统(含源码+sql+视频导入教程+文档+PPT)
    基于SSM的宿舍管理系统1、项目介绍基于SSM的宿舍管理系统拥有两种角色,分别为管理员和宿管,具体功能如下:管理员:学生管理、班级管理、宿舍管理、卫生管理、访客管理、用户管理等宿管:宿舍管理(人员信息管理、维修登记)、卫生管理、访客管理等2、项目技术后端框架:SSM(Spring、......
  • 基于SSM 的图书馆管理系统(含源码+sql+视频导入教程+文档+PPT)
    1、项目介绍基于SSM的图书馆管理系统拥有两个角色,分别为管理员和学生。具体功能如下:管理员:查看、添加图书,查看添加学生,借还管理,修改密码等学生:查加检索图书、查看个人信息、查看个人借阅情况、修改密码2、项目技术后端框架:SSM(Spring、SpringMVC、Mybatis)前端框架:boo......
  • Java项目-基于springboot框架的高校社团管理系统项目实战(附源码+文档)
    作者:计算机学长阿伟开发技术:SpringBoot、SSM、Vue、MySQL、ElementUI等,“文末源码”。开发运行环境开发语言:Java数据库:MySQL技术:SpringBoot、Vue、MybaitsPlus、ELementUI工具:IDEA/Ecilpse、Navicat、Maven源码下载地址:https://download.csdn.net/download/weixin_53......
  • Java项目-基于springboot框架的民宿管理系统项目实战(附源码+文档)
    作者:计算机学长阿伟开发技术:SpringBoot、SSM、Vue、MySQL、ElementUI等,“文末源码”。开发运行环境开发语言:Java数据库:MySQL技术:SpringBoot、Vue、MybaitsPlus、ELementUI工具:IDEA/Ecilpse、Navicat、Maven源码下载地址:https://download.csdn.net/download/weixin_53......
  • 基于微信小程序的家政服务平台系统(源码+文档)
    随着人们生活水平的提高和生活节奏的加快,对家政服务的需求日益增长。传统的家政服务模式存在着信息不对称、服务质量参差不齐、沟通效率低下等问题,难以满足消费者多样化、个性化的需求。同时,家政服务人员也面临着找工作难、订单不稳定等困境。在互联网技术快速发展的今天,......