GeoChat论文阅读

时间：2024-10-29 22:22:20浏览次数：4

标签：GeoChat CLIP 模型论文任务阅读 VQA 适配器

GeoChat

任务

图像级对话任务

在此任务中，GeoChat 处理图像和用户文本查询，利用图像的全局上下文执行对话的任务。

区域级对话任务

在图像输入中向 GeoChat 提供空间框位置 ( b )，指导模型关注图像中的特定区域，执行区域级的对话任务。

具体化对话任务

通过使用特殊的标记，引导GeoChat完成任务。

模型架构

GeoChat整体遵循LlaVA-v1.5的架构，由视觉编码器，跨模态适配层，大语言模型组成。

任务标记

使用{grounding,identify,refer}三种任务标记，分别用于语义对话、区域描述和指代表达理解。至于视觉问答（VQA）和场景分类的情况。

空间位置标记

以文本形式表示空间位置：$$b = { b_{x_{left}}, b_{y_{top}}, b_{x_{right}}, b_{y_{bottom}} \mid \theta }$$
(以文本形式直接输入LLM？)

视觉主干

通过对CLIP模型中的位置编码进行了插值，以适应 504×504 的输入图像大小，使模型接收更大的输入尺寸。

MLP跨模态适配器

使用一个具有一个隐藏层的MLP适配器，从冻结的CLIP-ViT模型中将输出tokens投影到语言模型空间。将视觉模型的输出特征投影到语言模型的空间，使两者能够有效地结合。

大语言模型

以开源大型语言模型Vicunav1.5(7B)作为GeoChat的基础。使用低秩适应(LoRA)的策略对LLM进行微调,降低微调大模型所需的机器资源。

LoRA

在原始预训练模型旁边增加一个旁路，做一个降维再升维的操作，训练的时候固定预训练模型的参数，只训练降维矩阵A与升维矩阵B。而模型的输入输出维度不变，输出时将BA与PLM的参数叠加。用随机高斯分布初始化A用0矩阵初始化B.

训练细节

使用预训练的CLIP-ViT(L-14)编码器、MLP适配器和Vicuna-v1.5来初始化模型。接着，对LLM进行LoRA微调，同时保持MLP适配器和CLIP编码器冻结，以实现更好的训练效果。

数据集的创建

组成数据集

整合了三种不同类型的数据集，涵盖了针对对象检测、场景分类和视觉问答（VQA）设计的数据集。DOTA [34]、DIOR [6] 和 FAIR1M [27]，共同形成SAMRS [30] 数据一个场景分类数据集NWPURESISC-45 [5]，一个VQA数据集LRBEN [20]，以及一个洪水检测VQA数据集 [25）。

添加缺失类

使用其他模型推理，添加图片中未标注的类别（例如建筑，道路，树木）。

属性提取

通过目标的在图片中的方位，占比，像素值来提取相对位置，颜色，大小等属性。

生成表达式

通过表达式生成对象的文本描述，或者对象之间的联系。

模型复现

在运行demo的过程中被killed，应该因为显卡的内存不足

标签：GeoChat,CLIP,模型,论文,任务,阅读,VQA,适配器
From： https://www.cnblogs.com/cyb66666/p/18514643

YOLOv6-4.0部分代码阅读笔记-iou2d_calculator.py
iou2d_calculator.pyyolov6\assigners\iou2d_calculator.py目录iou2d_calculator.py1.所需的库和模块2.defcast_tensor_type(x,scale=1.,dtype=None): 3.deffp16_clamp(x,min=None,max=None): 4.defiou2d_calculator(bboxes1,bboxes2,mode='iou',is_align......
YOLOv6-4.0部分代码阅读笔记-atss_assigner.py
atss_assigner.pyyolov6\assigners\atss_assigner.py目录atss_assigner.py所需的库和模块classATSSAssigner(nn.Module): 1.所需的库和模块importtorchimporttorch.nnasnnimporttorch.nn.functionalasFfromyolov6.assigners.iou2d_calculatorimportiou......
基于node.js+vue机房设备管理系统的研究与实现（开题+程序+论文）计算机毕业设计
本系统（程序+源码+数据库+调试部署+开发环境）带文档lw万字以上，文末可获取源码系统程序文件列表开题报告内容一、选题背景关于机房设备管理系统的研究，现有研究主要以设备的基础监控和简单维护为主[1][2] 。专门针对涵盖用户管理、机房预约、设备借用归还、设备报修换新以及......
基于node.js+vue基于Android的帆林助农App设计与实现（开题+程序+论文）计算机毕业设计
本系统（程序+源码+数据库+调试部署+开发环境）带文档lw万字以上，文末可获取源码系统程序文件列表开题报告内容一、选题背景随着信息技术的快速发展，移动应用在各个领域得到了广泛的应用。在助农领域，关于农业信息化的研究，现有研究主要以网页端的信息服务为主，专门针对Android平台......
基于node.js+vue基于Android的罗宾逊R22零部件图纸检索系统（开题+程序+论文）计算机毕业
本系统（程序+源码+数据库+调试部署+开发环境）带文档lw万字以上，文末可获取源码系统程序文件列表开题报告内容选题背景在航空领域，罗宾逊R22直升机是一款广泛应用的机型。关于飞机零部件图纸的管理与检索方面，现有研究多集中于大型客机或通用飞机整体的文档管理系统，专门针对罗宾......
基于node.js+vue淮阴工学院研究生招生管理系统（开题+程序+论文）计算机毕业设计
本系统（程序+源码+数据库+调试部署+开发环境）带文档lw万字以上，文末可获取源码系统程序文件列表开题报告内容选题背景随着高等教育的发展，研究生招生工作变得日益复杂和重要。现有的研究生招生管理系统大多集中在综合性大学，针对地方高校如淮阴工学院的专门招生管理系统研究相......
springboot+vue彩妆品牌网站【开题+程序+论文】
系统程序文件列表开题报告内容研究背景随着互联网技术的飞速发展和电子商务的蓬勃兴起，彩妆行业迎来了前所未有的发展机遇。现代消费者越来越倾向于通过线上渠道了解和购买彩妆产品，他们追求个性化、便捷化的购物体验，同时希望获取详尽的产品信息和专业的美妆建议。在这一背景......
springboot+vue采购系统的设计与实现【开题+程序+论文】
系统程序文件列表开题报告内容研究背景在当今竞争激烈的商业环境中，企业的高效运营与成本控制成为了其持续发展的关键要素。采购作为企业生产经营活动的起点，其管理效率直接影响到企业的生产成本、产品质量和市场竞争力。传统的手工采购模式不仅耗时费力，还容易因信息不对称和......
基于django+vue+Vue企业资产管理系统设计与实现【开题报告+程序+论文】-计算机毕设
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容选题背景随着企业规模的扩大和资产种类的增多，传统的资产管理方式已难以满足现代企业对资产管理的精准化、高效化需求。关于企业资产管理系统的研究......
基于django+vue+Vue企业管理系统【开题报告+程序+论文】-计算机毕设
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容选题背景企业管理系统作为提升企业运营效率与管理水平的重要工具，近年来在国内外学术界与业界均受到了广泛关注。现有研究主要聚焦于大型企业的ERP（......