由国内领先智能文本处理企业达观数据与上海市计算机学会联合举办的智能文档版面分析多模态数据处理算法竞赛正在火热报名阶段。开赛一周内,第七届“达观杯”已有来自国内外的近200名企业和高校算法精英参与到比赛中。作为本次赛题的出题方,为助力各位打榜达人更快速上手比赛,更高效优化模型,冲击决赛top榜,达观数据算法团队为选手提供了官方baseline以供参考。本届大赛的总奖金池 5.5W元,此外,排名Top50的选手将获得达观数据全职和实习工作的面试直通机会,优先录用。初赛还有“周榜单激励”奖、“"鱼跃龙门"奖、“梅开二度”奖等各项好礼等你来拿~
还没有报名的同学复制参赛链接在浏览器中打开:
https://challenge.datacastle.cn/v3/cmptDetail.html?id=824
baseline思路
该baseline使用的是DINO模型,模型主要思路是将文档版面分析任务转换为一个纯视觉的目标检测的任务,通过模型提取图像特征,预测文档元素的box坐标和元素所属类别 ,达到版面分析的目的。baseline使用的是DINO论文的官方实现版本,基于此次比赛的数据,在官方提供的预训练权重基础上迭代训练。
目前该baseline在A榜数据集上的Average Precision (AP)@[IoU=0.50:0.95|area=all|maxDets=100 ]为0.783。
代码整体过程分为:模型训练、模型评估、模型预测、预测结果可视化。选手可进入赛事平台,自行下载baseline以供学习参考。
注:论文地址 :https://arxiv.org/abs/2203.03605 ;源仓代码github地址:https://github.com/IDEA-Research/DINO