微调 Florence-2 - 微软的尖端视觉语言模型

Florence-2 是微软于 2024 年 6 月发布的一个基础视觉语言模型。该模型极具吸引力，因为它尺寸很小 (0.2B 及 0.7B) 且在各种计算机视觉和视觉语言任务上表现出色。

Florence 开箱即用支持多种类型的任务，包括: 看图说话、目标检测、OCR 等等。虽然覆盖面很广，但仍有可能你的任务或领域不在此列，也有可能你希望针对自己的任务更好地控制模型输出。此时，你就需要微调了！

本文，我们展示了一个在 DocVQA 上微调 Florence 的示例。尽管原文宣称 Florence 2 支持视觉问答 (VQA) 任务，但最终发布的模型并未包含 VQA 功能。因此，我们正好拿这个任务练练手，看看我们能做点什么！

预训练细节与模型架构

Florence-2 架构

无论执行什么样的计算机视觉任务，Florence-2 都会将其建模为序列到序列的任务。Florence-2 以图像和文本作为输入，并输出文本。模型结构比较简单: 用 DaViT 视觉编码器将图像转换为视觉嵌入，并用 BERT 将文本提示转换为文本和位置嵌入; 然后，生成的嵌入由标准编码器 - 解码器 transformer 架构进行处理，最终生成文本和位置词元。Florence-2 的优势并非源自其架构，而是源自海量的预训练数据集。作者指出，市面上领先的计算机视觉数据集通常所含信息有限 - WIT 仅有图文对，SA-1B 仅有图像及相关分割掩码。因此，他们决定构建一个新的 FLD-5B 数据集，其中的每个图像都包含最广泛的信息 - 目标框、掩码、描述文本及标签。在创建数据集时，很大程度采用了自动化的过程，作者使用现成的专门任务模型，并用一组启发式规则及质检过程来清理所获得的结果。最终生成的用于预训练 Florence-2 模型的新数据集中包含了 1.26 亿张图像、超过 50 亿个标注。

VQA 上的原始性能

我们尝试了各种方法来微调模型以使其适配 VQA (视觉问答) 任务的响应方式。迄今为止，我们发现最有效方法将其建模为图像区域描述任务，尽管其并不完全等同于 VQA 任务。看图说话任务虽然可以输出图像的描述性信息，但其不允许直接输入问题。

我们还测试了几个“不支持”的提示，例如 “<VQA>”、“<vqa>” 以及 “<Visual question answering>”。不幸的是，这些尝试的产生的结果都不可用。

微调后在 DocVQA 上的性能

我们使用 DocVQA 数据集的标准指标 Levenshtein 相似度来测量性能。微调前，模型在验证集上的输出与标注的相似度为 0，因为模型输出与标注差异不小。对训练集进行 7 个 epoch 的微调后，验证集上的相似度得分提高到了 57.0。

我们创建了一个

标签：loss,微软,模型,微调,batch,尖端,train,Florence
From： https://www.cnblogs.com/sexintercourse/p/18312012

Intel和AMD用户再等等！微软确认Win11 24H2年底前登陆
微软近日确认，Windows1124H2版本将于2024年底前正式登陆使用英特尔和AMD处理器的PC。根据微软介绍，Windows1124H2将作为传统功能更新，将在今年晚些时候提供给所有设备。此前，微软已向搭载骁龙XPlus和XElite系列处理器的Copilot+设备推送了24H2更新。该更新带来了大量AI功能，如......
解锁网络无限可能：揭秘微软工程师力作——付费代理IP池深度改造与实战部署指南
基于付费代理的代理IP池项目来源此项目为微软某个工程师构建的代理IP池，我对此进行了改造。可以用于生产环境中的爬虫项目阅读前建议阅读我之前发布的爬虫基础的文章，了解代理如何获取、使用等。分为四大模块代理生成基于购买的付费代理接口获取代理IP，利用redis数据库的有......
bet9链接不再对微软依赖，OpenKylin 首推AI PC 版本
本文由 bet9链接 вт989点сс人工智慧（AI）和AIPC是最近两大热门词汇，国内的开源操作系统OpenKylin（开放麒麟）推出全新openKylinforAIPC版本。OpenKylin是一个基于Linux的开源作业系统，由OpenKylin社群维护，并得到包括Hygon和Phytium等在内的多间公司的支援。综合中......
软件安装下载失败，常见问题汇总（微软软件必备运用库）
文章目录前言一、卸载软件二、激活软件无法打开？三、安装软件必备运用库扩展：win64位操作系统跟win32位操作系统区别之处前言我们在安装激活一些常用的办公软件，如：visio、Matlab、office等等，经常会遇到各种问题，接下来我会介绍一些方法，大家可以尝试看能否解决问题。一、......
面对百度的无期徒刑，幸好还有微软的必应
昨天我们通过【i博客园】公众号发布文章被百度降权的经历：没有百度的日子，是百度给的无期徒刑时发现，百度不但没有回心转意，反而对园子的处罚更加严厉了，博客主站（www域名）的新发内容一天内0收录。而在去年9月21日我们完全解除对百度蜘蛛的屏蔽后（详见博文），9月25日那天一天内的百度收录......
微软登录bug
微软登录bugClaude不让注册啊！！浪费了短信费欢迎关注公-众-号【TaonyDaily】、留言、评论，一起学习。Don’treinventthewheel,librarycodeistheretohelp.文章来源：刘俊涛的博客若有帮助到您，欢迎点赞、转发、支持，您的支持是对我坚持最好的肯定(_)......
YOLOv8-Seg改进：backbone主干改进 | 微软新作StarNet：超强轻量级Backbone | CVPR 2024
......
YOLOv8原创改进：backbone主干改进 | 微软新作StarNet：超强轻量级Backbone | CVPR 2024
......
CvT：微软提出结合CNN的ViT架构 | 2021 arxiv
CvT将Transformer与CNN在图像识别任务中的优势相结合，从CNN中借鉴了多阶段的层级结构设计，同时引入了ConvolutionalTokenEmbedding和ConvolutionalProjection操作增强局部建模能力，在保持计算效率的同时实现了卓越的性能。此外，由于卷积的引入增强了局部上下文建模能力，CvT不再需要......
Windows LAPS（Local Administrator Password Solution）是一种由微软提供的工具和解决方
WindowsLAPS（LocalAdministratorPasswordSolution）是一种由微软提供的工具和解决方案，旨在管理Windows操作系统中本地管理员账户的密码。它的设计初衷是提高系统安全性，特别是防止在企业环境中多台计算机上使用相同的本地管理员密码所带来的安全风险。特点和工作原理个性化密......

微调 Florence-2 - 微软的尖端视觉语言模型

微调 Florence-2 - 微软的尖端视觉语言模型

预训练细节与模型架构

VQA 上的原始性能

微调后在 DocVQA 上的性能

相关文章

赞助商

阅读排行