首页 > 其他分享 >“达观杯”智能文档版面分析赛题baseline已上线,欢迎下载报名!

“达观杯”智能文档版面分析赛题baseline已上线,欢迎下载报名!

时间:2023-10-20 14:33:03浏览次数:41  
标签:baseline DINO 模型 赛题 文档 版面 达观

“达观杯”智能文档版面分析赛题baseline已上线,欢迎下载报名!_数据

由国内领先智能文本处理企业达观数据与上海市计算机学会联合举办的智能文档版面分析多模态数据处理算法竞赛正在火热报名阶段。开赛一周内,第七届“达观杯”已有来自国内外的近200名企业和高校算法精英参与到比赛中。作为本次赛题的出题方,为助力各位打榜达人更快速上手比赛,更高效优化模型,冲击决赛top榜,达观数据算法团队为选手提供了官方baseline以供参考。本届大赛的总奖金池 5.5W元,此外,排名Top50的选手将获得达观数据全职和实习工作的面试直通机会,优先录用。初赛还有“周榜单激励”奖、“"鱼跃龙门"奖、“梅开二度”奖等各项好礼等你来拿~

还没有报名的同学复制参赛链接在浏览器中打开

https://challenge.datacastle.cn/v3/cmptDetail.html?id=824



baseline思路

该baseline使用的是DINO模型,模型主要思路是将文档版面分析任务转换为一个纯视觉的目标检测的任务,通过模型提取图像特征,预测文档元素的box坐标和元素所属类别 ,达到版面分析的目的。baseline使用的是DINO论文的官方实现版本,基于此次比赛的数据,在官方提供的预训练权重基础上迭代训练。

目前该baseline在A榜数据集上的Average Precision (AP)@[IoU=0.50:0.95|area=all|maxDets=100 ]为0.783

代码整体过程分为:模型训练、模型评估、模型预测、预测结果可视化。选手可进入赛事平台,自行下载baseline以供学习参考。

注:论文地址 :https://arxiv.org/abs/2203.03605 ;源仓代码github地址:https://github.com/IDEA-Research/DINO


智能文档版面分析赛题介绍

“达观杯”智能文档版面分析赛题baseline已上线,欢迎下载报名!_数据集_02

标签:baseline,DINO,模型,赛题,文档,版面,达观
From: https://blog.51cto.com/u_11031509/7950793

相关文章

  • 15 万奖金!开放原子开源大赛 OpenAnolis 赛题@你报名
    8月29日,2023开源和信息消费大赛新闻发布会在北京召开,首届“开放原子开源大赛”正式启动报名。大赛由工业和信息化部、江苏省人民政府、湖南省人民政府共同主办,开源赛道拟由开放原子开源基金会、央视网、江苏省工业和信息化厅、无锡市人民政府、江苏软件产业人才发展基金会、......
  • 相识第24天——第一届小爽小达观影节
    9月2日,周六妹妹突然问道:哥哥知道夏树吗当然知道,很少听周杰伦的歌,也很少有喜欢的,不过谈到《一路向北》,仅此一首还是因为这部电影而喜欢的歌周董早期的电影比较知名的也就是《不能说的秘密》和《头文字D》了  观影过程非常顺利,腾讯会议环境不错,听得妹妹那边一片叽叽喳喳的声......
  • 2023年全国大学生数学建模竞赛赛题思路分析
    今年的数模难度和去年差不多,只是赛题的类型有所调整,粗略扫了一眼每个赛题,简单讲一下C题的思路吧。C题问题1:这道题其实考察的是最基础的数学知识,这道题可以拆解成两个小问。1.1求解蔬菜各品类及单品销售量的分布规律1)采用Excel等绘制品类销售量的直方图,利用Minitab等分析分布规律。......
  • 暑假集训Day19 比赛题解
    2023-08-0516:22:13总结这次打下来,由于T2贪心不够完全,T3模拟\(5\)个时不是最优,T4想到暴力做法但是来不及打,加之全都是捆绑测试点,导致我T2,T3虽然加起来有不少点对了,但是还是判全错,最后也只剩下T1的100。感觉这次前三题也不难,都是可做的,T4的30pts暴力也很白给,但......
  • 暑假集训 Day17 模拟赛题解
    2023-08-0318:18:03前言好家伙,很少完整订正一场比赛,可能是因为这个比赛相对来说确实不难吧(至少正解不难)。总结与反思这场比赛其实没有我想象的那么难,只是觉得题目可能不简单,就没有往简单的思路想,反而是被之前讲过的题疑惑,以为要用到一些很奇特的算法,结果打完以后看了题解再结......
  • align属性absMiddle、AbsBottom、Baseline、Bottom、Left、Middle、NotSet、Right、Te
    AbsBottom图像的下边缘与同一行中最大元素的下边缘对齐。AbsMiddle图像的中间与同一行中最大元素的中间对齐。Baseline图像的下边缘与第一行文本的下边缘对齐。Bottom图像的下边缘与第一行文本的下边缘对齐。Left图像沿网页的左边缘对齐,文字在图像右边换行。Middle图像......
  • 法研杯 生成式文本摘要赛题处理
    赛题分析统计信息样本预览建模思路 抽取模型抽取模型的思路是先通过规则将原始的生成式语料转化为序列标注式语料。(将文本转换为文本向量)基于深度学习的抽取式摘要,是有监督的文本摘要,可以建模为序列标注任务或句子排序任务。建模为序列标注任务,就是为原文中......
  • CSP模拟赛题解
    目录CSP模拟16T1:糖果CSP模拟17T1:弹珠游戏T2:晚会CSP模拟18T1:TheThirdLetterT2:InaoftheMountainCSP模拟19T1:StrangeFunctionT2:DZYLovesModificationCSP模拟21T1:[CEOI2016]kangarooT2:[JOI2023Final]Advertisement2T3:YourCSP模拟22T1:TheChildandToyCSP模拟16T1:......
  • 新生赛题解
    A题解:不会#include<bits/stdc++.h>#pragmaGCCoptimize("Ofast")#include<iostream>#include<cstdio>#include<cstring>#include<algorithm>#include<queue>#include<cmath>//#definedoublelongdoub......
  • 用AI攻克“智能文字识别创新赛题”,这场大学生竞赛掀起了什么风潮?
    一、前言1.1大赛介绍中国大学生服务外包创新创业大赛作为服务外包产业领域唯一的国家级赛事,位列“全国普通高校学科竞赛排行榜评估体系”,自2010年以来已连续举办14届,分为区域赛和全国决赛两个阶段。本届大赛吸引了803所全国院校的8006支团队报名参赛,报名团队数再创新高。其中4097......