引言
今天中午,排队打饭间隙,刷到新闻,说是:360AILAB-NLP团队开源了中文论文、研报文档场景的轻量化版式分析模型360LayoutAnalysis。
面向中文论文及研报两个场景的轻量化版式分析模型已经开源:
- Github地址:https://github.com/360AILAB-NLP/360LayoutAnalysis,
- 模型权重huggingface地址:https://huggingface.co/qihoo360/360LayoutAnalysis
巧的是,这一直是我前一段时间以来想做并且在做的事情,只是刚开了一个小头。
版式分析
因为我发现版式分析是一个很关键的模块,尤其是现阶段RAG广泛应用的前提下,版式分析显得尤为重要。这一点可以用我在RapidStructure中画的框图来说明:
通过版式分析模型,我们就可以提前知道给定文档中,哪里是表格、哪些是图表,哪些是公式,哪些是文本段落等。因此,版式分析是后续一切工作的基础。
而当前现状是中文文档场景数据集较少,不像英文文档有arXiv网站,国内中文论文并没有一个类似arXiv的聚集地,中文论文都是散落在各个期刊自建网站上。或者是被收录到知网、维普、万方等付费网站上。
因此,我就考虑能否收集一些在线可获取的中文文档,并对它们做标注,算是促进中文文档智能的发展吧!这不360先做了,我就把前期收集的PDF链接做了整理,就有了Chinese Document PDF仓库。
Chinese Document PDF
该仓库主要放置自己爬取国内一些中文论文网站、证券报告的PDF。
因涉及到版权问题,我这里只放置PDF链接和对应的下载脚本,小伙伴可以自行下载。
该资源可以与360发布的版面分析模型相结合使用,具体来说,用他们的模型给新的PDF图像打标注 → 人工校验 → 再次训练模型,迭代更多数据,模型就会越来越准。
标签:中文,ChineseDocumentPDF,论文,文档,版式,PDF,分析模型 From: https://www.cnblogs.com/shiwanghualuo/p/18246885