首页 > 其他分享 >Docmatix - 超大文档视觉问答数据集

Docmatix - 超大文档视觉问答数据集

时间:2024-08-30 15:14:32浏览次数:10  
标签:Docmatix DocVQA 超大 文档 问答 Florence 数据 模型

本文,我们将发布 Docmatix - 一个超大的文档视觉问答 (DocVQA) 数据集,比之前的数据集大 100 倍。当使用 Docmatix 微调 Florence-2 时,消融实验显示 DocVQA 任务的性能提高了 20%。

数据集样本实例
Docmatix 数据集样本示例

缘起于 丹鼎 (The Cauldron) 的开发,丹鼎包含了 50 个数据集,旨在用于视觉语言模型 (VLM) 的微调,我们的 Idefics2 就是由此训得。在丹鼎的开发过程中,我们发现缺乏大规模文档视觉问答 (DocVQA) 数据集。Idefics2 依赖的视觉问答数据集主要是 DocVQA,其中仅包含 1 万张图像以及 3 万 9 千对问答 (Q/A)。基于其以及其他数据集微调出的开源模型在性能上与闭源模型差距很大。

为了解决这一问题,我们很高兴推出 Docmatix,这是一个 DocVQA 数据集,包含 240 万张图像以及源自 130 万个 PDF 文档的 950 万对问答。与之前的数据集相比,规模扩大了 240 倍

Docmatix 和其它 DocVQA 数据集的对比
Docmatix 和其它 DocVQA 数据集的对比

你可以通过下面的页面自由探索数据集并查阅 Docmatix 中包含的文档类型以及问答对。

Docmatix 是基于 PDFA - 一个包含 210 万个 PDF 的 OCR 数据集 生成的。我们从 PDFA 中转录出文本,然后用 Phi-3-small 模型生成 Q/A 对。为了确保数据集的质量,我们对模型生成的回答进行了过滤,丢弃了 15% 被识别为幻觉的 Q/A 对。另外,我们还使用正则表达式来检测代码并删除了包含关键字 “unanswerable” 的答案。Docmatix 数据集中的每一行对应于一个 PDF 文件,我们将 PDF 转换为分辨率为 150 dpi 的图像,并将处理后的图像上传至 Hugging Face Hub 以便于访问。所有样本的原始 PDF 都可以溯源至 PDFA 数据集,以最大程度提供透明度和可靠性。但考虑到将这么多 PDF 转换为图像会消耗不少资源,为方便数据集的用户起见,数据集中的样本用的是处理后的图像。

生成 Docmatix 的数据处理流水线
生成 Docmatix 的数据处理流水线

我们先处理了一小批数据集,并对其进行多次消融研究以对提示进行优化。我们的目标是每页生成大约 4 对问答。太多的话,它们之间会有很大的重叠,太少的话,则说明当前页的内容中细节较少。此外,我们的目标是让生成的答案与人类回答相似,避免过短或过长的答案。我们还比较重视问题的多样性,以确保尽量减少重复问题。有趣的是,当我们引导 Phi-3 模型 根据文档中的具体信息提出问题时 (例如,“某甲的头衔是什么?”),问题几乎没有重复。下图展示了我们得到的一些关键统计分析数据:

从提示的维度分析 Docmatix
从提示的维度分析 Docmatix

为了评估 Docmatix 的质量,我们使用 Florence-2 模型进行了消融实验。我们训练了两个版本的模型以进行比较。第一个版本在 DocVQA 数据集上训练数个 epoch。第二个版本先在 Docmatix 上训练 1 个 epoch (仅使用 20% 的图像、4% 的 Q/A 对),然后再在 DocVQA 上训练 1 个 epoch,以确保模型的输出格式符合 DocVQA 评估的要求。结果很明显: 先对 Docmatix 进行微调可带来近 20% 的相对指标提升。此外,所得的 0.7B Florence-2 模型的性能仅比基于混合训练集训练的 8B Idefics2 模型差 5%,要知道从模型尺寸上来看 8B 可以比 0.7B 大得远不止 5%。

数据集 DocVQA 上的 ANSL 值 模型尺寸
在 DocVQA 上微调的 Florence 2 60.1 700M
在 Docmatix 上微调的 Florence 2 71.4 700M
Idefics2 74.0 8B

Docmatix-Florence-2 Demo 体验

总结

本文介绍了 Docmatix,一个用于 DocVQA 的超大数据集。我们的结果表明,使用 Docmatix 在微调 Florence-2 时,我们可以将 DocVQA 性能提高 20%。该数据集有助用户弥合开源 VLM 相对于闭源 VLM 的性能差距。我们鼓励开源社区利用 Docmatix 去训练新的的 DocVQA 模型,创造新的 SOTA!我们迫不及待地想在

标签:Docmatix,DocVQA,超大,文档,问答,Florence,数据,模型
From: https://www.cnblogs.com/huggingface/p/18388820

相关文章

  • 基于Swagger自动生成离线API文档(Word、Markdown文档)
      在做项目时通常需要给客户提供离线Word的API文档归档,不要跟客户说有Swagger在线API文档,客户不会用也不会去看。只要你有Swagger,TableGo就能自动生成一份漂亮的Word离线API文档给客户,大大提高了写文档的效率,客户看了高兴,大家项目交付的速度也快很多。支持Swagger2和Swagger3......
  • BIM交流文档
    要把我们国家不透明的建筑业系统与工信部与国机集团与水利电力等等国家部门公司整合改造。合同、施工方法等等各类信息检索管理。感觉revit照明的有些API源自unity的API,或者引用自Un,有待查证。还有faberaciton源自cad的一个插件,2016版开始集成到revit里,就是创建零件相关功能,......
  • 基于SpringBoot+Vue足球俱乐部管理后台的设计和实现(源码+文档+部署讲解)
    博主介绍:全网粉丝10W+,CSDN博客专家、全栈领域优质创作者,3年JAVA全栈开发经验,专注JAVA技术、系统定制、远程指导,致力于企业数字化转型。研究方向:SpringBoot、Vue.JS、MyBatisPlus、Redis、SpringSecurity、MySQL、小程序、Android、Uniapp等。博主说明:本文项目编号......
  • 基于SpringBoot+Vue师生健康管理系统的设计和实现(源码+文档+部署讲解)
    博主介绍:全网粉丝10W+,CSDN博客专家、全栈领域优质创作者,3年JAVA全栈开发经验,专注JAVA技术、系统定制、远程指导,致力于企业数字化转型。研究方向:SpringBoot、Vue.JS、MyBatisPlus、Redis、SpringSecurity、MySQL、小程序、Android、Uniapp等。博主说明:本文项目编号......
  • 大学生班级|基于SprinBoot+vue的大学生班级管理系统(源码+数据库+文档)
    大学生班级管理系统基于SprinBoot+vue的大学生班级管理系统一、前言二、系统设计三、系统功能设计 系统功能实现后台模块实现管理员功能实现教师功能实现学生功能实现四、数据库设计 五、核心代码 六、论文参考七、最新计算机毕设选题推荐八、源码获取:博......
  • 为何选择合适的文档管理系统至关重要?
    国内外主流的10款文档管理系统对比:1.PingCode;2.Worktile;3.飞书文档;4.石墨文档;5.语雀;6.GoogleDocs;7.DropboxBusiness;8.Confluence;9.MicrosoftOneDrive;10.Box。在当今快速发展的商业环境中,众多企业面临的一个主要挑战是如何有效管理日益增长的文件和数据。传统的文件管理方......
  • 基于Springboot公寓电费管理系统的设计与实现(源码+LW+调试文档)
     目录:程序功能截图:程序部分代码参考:数据库sql:程序技术介绍:后端springboot介绍:mysql介绍:程序论文:​选择我的理由:程序获取:......
  • 基于SpringBoot大学生征兵入伍管理系统的设计与实现(源码+LW+调试文档)
     目录:程序功能截图:程序部分代码参考:数据库sql:程序技术介绍:后端springboot介绍:mysql介绍:程序论文:​选择我的理由:程序获取:......
  • java毕业设计-基于springboot+vue的高校自习室预约系统设计和实现,基于springboot+vue
    文章目录前言演示视频项目架构和内容获取(文末获取)项目相关文件系统功能部分实现截图架构设计MVC的设计模式基于B/S的架构技术栈具体功能模块设计系统需求分析可行性分析系统测试为什么我?关于我我自己的网站项目开发案例前言博主介绍:✌️码农一枚,专注于大学生项目......
  • Foxmail超大附件启动不了解决方法
    之前添加了几次QQ邮箱的账号密码,显示账号密码错误,无法启动。以为是我输错了呢,换了几个账号密码也不行。在网上搜索许久终于找到了解决办法。解决方案如下:1、先禁用腾讯企业邮箱超大附件插件功能。 2、删除foxmail安装目录下的domain文件,此文件所在位置:Foxmail7.2\Global\doma......