首页 > 其他分享 >发布中文文档类资源仓库-ChineseDocumentPDF

发布中文文档类资源仓库-ChineseDocumentPDF

时间:2024-06-13 22:21:39浏览次数:29  
标签:中文 ChineseDocumentPDF 论文 文档 版式 PDF 分析模型

引言

今天中午,排队打饭间隙,刷到新闻,说是:360AILAB-NLP团队开源了中文论文、研报文档场景的轻量化版式分析模型360LayoutAnalysis。

面向中文论文及研报两个场景的轻量化版式分析模型已经开源:

巧的是,这一直是我前一段时间以来想做并且在做的事情,只是刚开了一个小头。

版式分析

因为我发现版式分析是一个很关键的模块,尤其是现阶段RAG广泛应用的前提下,版式分析显得尤为重要。这一点可以用我在RapidStructure中画的框图来说明:

image.png

通过版式分析模型,我们就可以提前知道给定文档中,哪里是表格、哪些是图表,哪些是公式,哪些是文本段落等。因此,版式分析是后续一切工作的基础。

而当前现状是中文文档场景数据集较少,不像英文文档有arXiv网站,国内中文论文并没有一个类似arXiv的聚集地,中文论文都是散落在各个期刊自建网站上。或者是被收录到知网、维普、万方等付费网站上。

因此,我就考虑能否收集一些在线可获取的中文文档,并对它们做标注,算是促进中文文档智能的发展吧!这不360先做了,我就把前期收集的PDF链接做了整理,就有了Chinese Document PDF仓库。

Chinese Document PDF

该仓库主要放置自己爬取国内一些中文论文网站、证券报告的PDF。

因涉及到版权问题,我这里只放置PDF链接和对应的下载脚本,小伙伴可以自行下载。

该资源可以与360发布的版面分析模型相结合使用,具体来说,用他们的模型给新的PDF图像打标注 → 人工校验 → 再次训练模型,迭代更多数据,模型就会越来越准。

image.png

标签:中文,ChineseDocumentPDF,论文,文档,版式,PDF,分析模型
From: https://www.cnblogs.com/shiwanghualuo/p/18246885

相关文章

  • 基于SpringBoot+Vue+uniapp的餐厅点餐系统的详细设计和实现(源码+lw+部署文档+讲解等)
    文章目录前言详细视频演示具体实现截图技术栈后端框架SpringBoot前端框架Vue持久层框架MyBaitsPlus系统测试系统测试目的系统功能测试系统测试结论为什么选择我代码参考数据库参考源码获取前言......
  • 基于SpringBoot+Vue+uniapp的球队训练信息管理系统的详细设计和实现(源码+lw+部署文档
    文章目录前言详细视频演示具体实现截图技术栈后端框架SpringBoot前端框架Vue持久层框架MyBaitsPlus系统测试系统测试目的系统功能测试系统测试结论为什么选择我代码参考数据库参考源码获取前言......
  • 基于SpringBoot+Vue+uniapp的高校图书馆个性化服务的详细设计和实现(源码+lw+部署文档
    文章目录前言详细视频演示具体实现截图技术栈后端框架SpringBoot前端框架Vue持久层框架MyBaitsPlus系统测试系统测试目的系统功能测试系统测试结论为什么选择我代码参考数据库参考源码获取前言......
  • 【java计算机毕设】图书管理系统javaweb java MySQL springboot vue html maven送文档
    1项目功能【java计算机专业学长毕业设计分享】智慧图书管理系统JavaSpringBootvueHTMLMySQL前后端分离2项目介绍系统功能:智慧图书管理系统包括管理员和用户两种角色。管理员的功能包括在个人中心修改个人信息和密码,管理员功能模块管理管理员。基础数据管理模......
  • Nacos 2.0 升级文档
    Nacos2.0.0部署及升级文档本文档包含两个部分:Nacos2.0.0的部署,以及如何从Nacos1.x平滑升级至Nacos2.0.0。部署部分,适用于直接部署Nacos2.0.0以上版本的用户。升级部分,适用于从Nacos1.X版本平滑升级到Nacos2.0.0版本(以及2.0.0-BETA版本)的用户。Nacos2.0.0-ALPHA版本无法进行平......
  • 将 Visual Studio .net 代码注释 英文转为中文
    转化之前:  转换之后 1.官方文档有详细讲解 https://learn.microsoft.com/zh-cn/dotnet/core/install/localized-intellisense2.汉化包下载: https://dotnet.microsoft.com/zh-cn/download/intellisense 3.下载后解压:  4. 导航到.NETIntellisense文件夹......
  • Python文档处理操作(1)——统计分析文档内容
    -----案例1:要求-----读取文件data1.txt的内容,统计其中所有不同字符的数量,并输出结果。-----案例1:代码示例-----f=open('data1.txt')#打开名为'data1.txt'的文件,并将文件对象赋值给变量fls=[]#初始化一个空列表ls,用于存储文件中出现的不同字......
  • 软件开发文档汇总(开发&实施&运维&安全&交付)
       前言:在软件项目管理中,每个阶段都有其特定的目标和活动,确保项目的顺利进行和最终的成功交付。以下是软件项目管理各个阶段的详细资料:软件项目管理部分文档清单: 工作安排任务书,可行性分析报告,立项申请审批表,产品需求规格说明书,需求调研计划,用户需求调查单,用户需求说明......
  • DevExpress WPF中文教程:Grid - 如何完成列和编辑器配置(设计时)?
    DevExpressWPF拥有120+个控件和库,将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpressWPF能创建有着强大互动功能的XAML基础应用程序,这些应用程序专注于当代客户的需求和构建未来新一代支持触摸的解决方案。无论是Office办公软件的衍伸产品,还是以数据为中心......
  • CP AUTOSAR标准中文文档链接索引(更新中)
    AUTOSAR标准的核心组件包括通信、诊断、安全等,这些组件通过模块化结构进行组织。系统被划分为多个模块,每个模块负责特定的功能。模块之间通过接口进行通信,接口定义了模块之间的交互规则。AUTOSAR标准支持模块的配置,可以根据不同的需求进行定制和优化。应用程序接口通信驱......