vqa
  • 2024-09-12多模态大语言模型综述(中)-算法实用指南
    IV.算法实用指南多模态的算法可分为两类:基础模型和大规模多模态预训练模型。基础模态是多模态的基本框架,许多新的大规模多模态预训练模型都是基于它进行改进的。下图是论文涉及的算法清单,含模型名字、年份、技术要点、功能及参考编号,以及代码开源情况。如果您也对A
  • 2024-09-05https://www.zhihu.com/pin/1814343061205024769
    在开发Docmatix时,我们发现经其微调的Florence-2在DocVQA任务上表现出色,但在基准测试中得分仍比较低。为了提高基准测试得分,我们必须在DocVQA数据集上进一步对模型进行微调,以学习该基准测试的语法风格。有意思的是,人类评估者认为经额外微调后,模型的表现似乎反而不如仅在Do