- 2024-11-08LLM | 论文精读 | CVPR | 基于问题驱动图像描述的视觉问答增强引言
论文标题:EnhancingVisualQuestionAnswering throughQuestion-DrivenImageCaptionsasPrompts作者:Övg̈uÖzdemir,ErdemAkagünd̈uz期刊:CVPR2024引言视觉问答(VisualQuestionAnswering,VQA)是计算机视觉与自然语言处理交叉领域中的典型多模态任
- 2024-10-29GeoChat论文阅读
GeoChat任务图像级对话任务在此任务中,GeoChat处理图像和用户文本查询,利用图像的全局上下文执行对话的任务。区域级对话任务在图像输入中向GeoChat提供空间框位置(b),指导模型关注图像中的特定区域,执行区域级的对话任务。具体化对话任务通过使用特殊的标记,引导GeoChat
- 2024-09-12多模态大语言模型综述(中)-算法实用指南
IV.算法实用指南多模态的算法可分为两类:基础模型和大规模多模态预训练模型。基础模态是多模态的基本框架,许多新的大规模多模态预训练模型都是基于它进行改进的。下图是论文涉及的算法清单,含模型名字、年份、技术要点、功能及参考编号,以及代码开源情况。如果您也对A
- 2024-09-05https://www.zhihu.com/pin/1814343061205024769
在开发Docmatix时,我们发现经其微调的Florence-2在DocVQA任务上表现出色,但在基准测试中得分仍比较低。为了提高基准测试得分,我们必须在DocVQA数据集上进一步对模型进行微调,以学习该基准测试的语法风格。有意思的是,人类评估者认为经额外微调后,模型的表现似乎反而不如仅在Do