• 2024-08-30Docmatix - 超大文档视觉问答数据集
    本文,我们将发布Docmatix-一个超大的文档视觉问答(DocVQA)数据集,比之前的数据集大100倍。当使用Docmatix微调Florence-2时,消融实验显示DocVQA任务的性能提高了20%。Docmatix数据集样本示例缘起于丹鼎(TheCauldron)的开发,丹鼎包含了50个数据集,旨在用于视
  • 2024-07-19微调 Florence-2 - 微软的尖端视觉语言模型
    微调Florence-2-微软的尖端视觉语言模型 Florence-2是微软于2024年6月发布的一个基础视觉语言模型。该模型极具吸引力,因为它尺寸很小(0.2B及0.7B)且在各种计算机视觉和视觉语言任务上表现出色。Florence开箱即用支持多种类型的任务,包括:看图说话、目标检测、O