Meta再下一城：SAM 2

时间：2024-08-04 12:55:05浏览次数：20

--->更多内容，请移步“鲁班秘笈”！！<---

“继用于图像的Meta Segment Anything Model （SAM）取得成功之后，我们发布了SAM 2，这是一种用于在图像和视频中实时进行对象分割的统一模型，已经达到最先进的性能。” 模型适用于增强现实（AR）、虚拟现实（VR）、机器人、自动驾驶车辆和视频编辑等需要时间定位的应用。

SAM

分割是计算机视觉的重要组成部分，用于识别哪些图像像素属于物体。它在各种现实世界场景中都有应用，从分析科学图像到编辑照片。最早在2023年，Meta宣布了Segment Anything项目，发布了Segment Anything模型（SAM）和Segment Anything 1B的MaskLet数据集 SA-1B，以加速该领域的研究。

Meta发布的Segment Anything Model 2 （SAM 2）比原来的SAM更准确，速度快六倍。目前支持视频和图像中的对象分割。它专为图像和视频中的对象分割而设计，通过支持实时处理和zero-shot的泛化、可提示的模型架构，在处理复杂的视觉数据方面表现出色。

SAM 2的主要特点：

SAM 2可以分割以前从未遇到过的物体，表现出强大的零样本泛化能力。它在17个零样本视频数据集的交互式视频分割方面明显优于以前的方法，并且需要的人工交互大约减少三倍。
SAM 2在其23个数据集的零样本基准测试套件上优于SAM，同时速度快 6倍。
与之前最先进的模型相比，SAM 2在现有的视频对象分割基准测试（DAVIS、MOSE、LVOS、YouTube-VOS）方面表现出色。
模型实现了实时推理速度，每秒处理大约44帧。这使得SAM 2适用于需要即时反馈的应用，例如视频编辑和增强现实。
用于视频分割注释的SAM 2比使用SAM进行手动每帧注释快 8.4倍。

SAM 2在Apache 2.0许可下可用，因此任何人都可以在SAM 2模型之上构建自己的体验。目前Meta已经开放如下资料：

SAM 2代码和权重在宽松的Apache 2.0许可证下。
BSD-3许可证下的 SAM 2评估代码。
SA-V数据集，包括 ~51k真实世界视频和超过600k个Masklet，采用 CC BY 4.0许可。

上面的表格为本次使用的数据集和开源VOS数据集的对比，比较的维度又视频数量、持续时间、掩码数量、掩码、帧数和消失率。SA-V Manual仅包含手动注释的标签。SA-V Manual+Auto将手动注释的标签与自动生成的掩码相结合。

模型架构

下图为SAM2的框架，希望通过使用基础模型 (b) 解决交互式的视觉分割任务 (a)，这个模型是在数据引擎 (c) 上面采集到的大规模SA-V的数据集上训练而成。SAM 2通过流式存储存储先前的Prompt和预测结果，进而达到能够通过一个或多个视频帧上的Prompt（点击、框或蒙版）的方式分割区域<形成遮罩！>。

下图为一个具体的例子，先在视频的第一帧中对目标对象进行Prompt以获得该对象的分割结果。绿色点表示正提示（正向提示，表示对象的一部分），红色点表示负提示（负向提示，表示不是对象的一部分）。SAM 2 会自动将分割结果传播到后续帧（用蓝色箭头表示），形成一个MaskLet（绿色部分）。如果SAM 2在某一帧后（例如第 2 帧之后）失去了对对象的跟踪，可以在新帧中提供额外提示（红色箭头），以纠正MaskLet。

第3帧中只需一次点击即可恢复对象，并将其传播以获得正确的 MaskLet。与独立的SAM +视频跟踪器方法相比这种方法更高效。传统方法在第3帧中需要多次点击以重新注释对象。SAM 2的记忆功能使得仅需一次点击即可恢复对象（如舌头）的分割结果。这种能力在处理视频中的对象不仅减少了用户的操作次数，还能在对象跟踪失效时快速精校。

若从模型架构上来解释的话，对于给定帧分割预测取决于当前提示和/或先前观察到的记忆。视频以流式方式处理，图像编码器（绿色）一次消耗一个帧，并与先前帧中的目标对象的记忆（粉色）交叉关注<蓝色部分，Cross-Attention，其本质上也是利用了多层的Transformer堆叠>。掩码解码器（橙色）（也可以选择接受输入提示）进行当前帧的分割遮罩预测。

上图为标注过程，每个过程都有自己的标注器，跟踪，识别错误，持续校正

与之前的工作进行比较，SAM 2在给出第1帧的真实遮罩之后进行的视频分割方面表现良好，尤其在准确度（J &F、G）和速度（FPS）方面。所有 FPS 估计值均基于A100 GPU。

标签：视频,分割,Anything,SAM,对象,模型,一城,Meta
From： https://blog.csdn.net/Janexjy/article/details/140812252

Samba挂载至本地
在Linux中，可以使用mount命令来打开SMB（ServerMessageBlock）共享。sudomount-tcifs//服务器IP地址/共享目录路径/本地挂载点-ousername=用户名,password=密码其中，需要将"//服务器IP地址/共享目录路径"替换为实际的SMB共享路径；"/本地挂载点"替换为希望在本地创建的文件夹作......
Apifox 7月更新｜SAML 单点登录、迭代分支优化、Markdown 历史记录、搜索能力提升
1新增「组织」架构引入了全新的「组织」概念，提供更灵活的管理结构。企业可以创建「组织」，并在组织内设立多个「团队」，便于大中型企业能够更有效地组织和管理其项目及人员。通过这种方式，企业可以根据自身的组织结构和业务需求，灵活地分配资源和权限，提高整体的协作效率......
探索未来之境：揭秘元宇宙（Metaverse）
在科技与想象的交界，一个名为“元宇宙”（Metaverse）的概念正逐渐从科幻走入现实，预示着人类交互与体验的全新纪元。元宇宙不仅是技术的飞跃，更是未来生活方式的蓝图，它模糊了虚拟与现实的界限，开启了无限可能。本文将深入剖析元宇宙的定义、关键技术、现有形态、应用前景及面临的挑战......
webservice 的参考例子 sample
一、参考https://blog.csdn.net/Ikaros_521/article/details/103232677二、hello.hh__hello(char*&);三、//helloclient.cpp#include"soapH.h"#include"h.nsmap"intmain(){char*s;structsoap*soap=soap_new();so......
Metasploit Pro 4.22.2-2024072501 (Linux, Windows) - 专业渗透测试框架
MetasploitPro4.22.2-2024072501(Linux,Windows)-专业渗透测试框架Rapid7Penetrationtesting,releaseJul25,2024请访问原文链接：https://sysin.org/blog/metasploit-pro-4/，查看最新版。原创作品，转载请保留出处。世界上最广泛使用的渗透测试框架知识就是力量，尤其是......
cookie--SameSite说明
Cookie是一种可用于向网站添加持久状态的方法。多年来，虽然cookie的功能得到了不断的进步和发展，但却给平台留下了一些遗留问题。为了解决这些问题，浏览器（包括Chrome、Firefox和Edge）正在改变行为，从而强制执行更多保护隐私的默认设置。什么是第一方和第三方cookie？与当前网站......
SAM拾遗碎记
SAM拾遗碎记SAM是一个非常复杂的算法，相关到很多本质性的问题需要思考，但受限于个人能力，想要完整而系统的写一篇学习笔记，对我来说绝非易事。虽然如此，又不能完全不写点什么，我上次好不容易学完了sam，这次又再一次花了很长的时间，并且还是在之前有所记录的情况下。正是因为sam是如此难的......
使用 `useServerSeoMeta` 优化您的网站 SEO
title:使用useServerSeoMeta优化您的网站SEOdate:2024/7/31updated:2024/7/31author:cmdragonexcerpt:摘要：本文介绍了Nuxt3框架中的useServerSeoMeta函数，它用于服务器端渲染(SSR)中设置SEO元标签，以优化性能和搜索引擎排名。内容包括其基本用法、详细示例及各参数说......
领域驱动大型结构之SYSTEM METAPHOR（系统隐喻）
在领域驱动设计（Domain-DrivenDesign,DDD）中，"SystemMetaphor"是一种用于帮助开发团队和业务人员在理解和沟通系统时使用的概念模型。虽然"SystemMetaphor"并不是DDD的核心概念，但它在敏捷开发方法（如极限编程，XP）中被广泛使用，并且与DDD的理念有一定的契合之处。什......
使用 useSeoMeta 进行 SEO 配置
title:使用useSeoMeta进行SEO配置date:2024/7/30updated:2024/7/30author:cmdragonexcerpt:摘要：本文介绍了Nuxt3中的useSeoMeta组合函数，用于简化和优化网站的SEO配置。通过这个工具，开发者可以在Nuxt3项目中方便地设置页面元标签，包括标题、描述以及OpenGraph和Twi......

Meta再下一城：SAM 2

SAM

模型架构

相关文章

赞助商

阅读排行