首页 > 其他分享 >EdgeSAM革新:iPhone上的实时SAM,速度提升40倍!

EdgeSAM革新:iPhone上的实时SAM,速度提升40倍!

时间:2023-12-21 19:01:24浏览次数:35  
标签:编码器 EdgeSAM SAM 40 图像处理 移动 设备

引言

近日,洋理工大学与上海AI Lab合作研发的EdgeSAM在移动端图像分割领域取得了重大突破。这一优化版Segment Anything Model(SAM)变体在iPhone 14上的运行速度达到了惊人的38 FPS,相比原始SAM快了40倍,为移动设备上的实时交互式图像分割开辟了新天地。

EdgeSAM革新:iPhone上的实时SAM,速度提升40倍!_图像处理

EdgeSAM的创新之举

原始SAM以其强大的性能而闻名,但由于其高昂的计算成本和内存消耗,难以在移动设备上运行。EdgeSAM通过将SAM的基于ViT的图像编码器转化为更适合边缘设备的纯CNN架构,实现了在移动平台上的高效运行,同时基本保持了原模型的性能。

EdgeSAM革新:iPhone上的实时SAM,速度提升40倍!_移动设备_02

技术优化详解

  1. 编码器提炼:EdgeSAM通过知识蒸馏技术将SAM的大型ViT图像编码器提炼为一个更紧凑的CNN架构,从而适应边缘设备的运行需求。
  2. 提示编码器和掩码解码器:在提炼过程中,EdgeSAM包含了提示编码器和掩码解码器,确保了用户输入和掩码生成之间的复杂动态能够被准确捕捉。
  3. 粒度先验模块:为了优化点提示提炼中的数据集偏差问题,EdgeSAM在编码器中加入了轻量级模块,增强了模型对不同提示级别的解释和响应能力。

EdgeSAM革新:iPhone上的实时SAM,速度提升40倍!_移动设备_03

性能对比

EdgeSAM在多项性能指标上均表现出色,尤其在移动设备上的运行速度方面取得了显著进步。在iPhone 14上,EdgeSAM的图像处理时间仅为14毫秒,比MobileSAM快14倍。在COCO和LVIS数据集上,EdgeSAM的表现与原始SAM相近,甚至在某些方面超越。

EdgeSAM革新:iPhone上的实时SAM,速度提升40倍!_图像处理_04

应用场景

EdgeSAM的出现使得移动设备上的视频编辑、视频实例分割等应用成为可能。其高速度和高精度的图像处理能力,为移动设备上的实时视觉任务提供了强大的技术支持。

未来展望

EdgeSAM的成功开发不仅是技术创新的胜利,也为移动设备上的实时图像处理和AI应用提供了新的可能性。随着EdgeSAM的持续优化和应用扩展,未来在移动设备上实现更加复杂和高效的图像处理任务将成为现实。

结论

EdgeSAM的推出标志着移动端图像分割技术的一个重要里程碑。它的高效率和优异性能不仅提高了移动设备上图像处理的可能性,也为未来的移动AI应用开启了新的篇章。通过EdgeSAM,用户可以在移动设备上享受到先前只能在高性能计算平台上才能实现的高级图像处理功能,这无疑将推动整个移动应用行业的发展。

参考资料

Github

https://github.com/chongzhou96/EdgeSAM

AI快站模型下载

https://aifasthub.com/models/chongzhou/EdgeSAM

标签:编码器,EdgeSAM,SAM,40,图像处理,移动,设备
From: https://blog.51cto.com/u_16323307/8926224

相关文章

  • samba服务
    实现的目标:通过samba服务将文件共享出去,能够通过linux和windows访问;还有一个就是多用户去访问多用户访问:就是已经挂载了这个服务(有一个a账号登录了),但是还添加一个b账号,拥有的是b账号的权限,没有a账户的权限用户a有读写的权限,用户b只有读的权限 samba服务搭建的流程:1:安装软件......
  • 计算机408
    各科参考书推荐数据结构:参考书《数据结构(C语言版)》严蔚敏,复习资料《数据结构考研复习指导》王道。啰嗦一句,数据结构我个人感觉是四门中最难的一门的。完全零基础跨考的,数据结构看严蔚敏的书理解起来很困难的同学,可以看《大话数据结构》这本书。计算机组成原理:参考书《计算......
  • 408---必须能手搓的算法
    一、快速排序无需多言//2023-12-19#include<iostream>#include<cstring>usingnamespacestd;voiddebug(intA[],intn){for(inti=0;i<n;i++)printf("%d",A[i]);puts("");}voidQsort(intA[],intleft,intright){......
  • 世微 APS54085 22W高辉度调光降压恒流芯片 LED驱动IC
    产品描述       APS54085是一款PWM工作模式,简单、内置功率MOS管,适用于5-100V输入的高精度降压LED恒流驱动芯片。电流2.0A。APS54085可实现线性调光和PWM调光,线性调光有效电压范围0.52-2.55V.PWM调光频率范围100HZ-30KHZ。APS54085工作频率可以通过......
  • CSP-S 400分 题单总结
    CSP-S400分题单总结(未完待续)洛谷题号CSP-S400分题单总结(未完待续)洛谷题号知识点/类型T2T3T4T5T6知识点/类型T2T3T4T5拓扑排序 180710387077 树形DP 862530474362 241971132899   874440843177 271219833243  ......
  • 240-jquery 正则匹配的2种写法
    $('#textInput').on('input',function(){//获取输入框的值varinputValue=$(this).val();//定义正则表达式varregex=/^[a-zA-Z0-9]+$/;//使用正则表达式进行匹配if(regex.test(inputValue)){......
  • 20岁的你、30岁的我、40岁的他都在焦虑
    当下这个环境大家仿佛都在一种莫名的焦虑中度过,这也许就是我们常常在网上听到的信心堪比黄金。20岁的你前几天和几一个刚毕业1年的(00后)同事吃饭,说自己每天很焦虑,我问你焦虑啥呢?年纪轻轻没有车贷、房贷,自己吃饱全家不饿,父母现在也不用你管,就你目前的工作无非就是执行,领导让干啥干好......
  • Vision Transformer with Super Token Sampling
    VisionTransformerwithSuperTokenSampling*Authors:[[HuaiboHuang]],[[XiaoqiangZhou]],[[JieCao]],[[RanHe]],[[TieniuTan]]Locallibrary初读印象comment::ViT在捕捉浅层局部特征时可能会出现高冗余度的问题,使用strongsupertoken提供具有语义意义的视......
  • jz2400向内核申请中断
    /iqr_testirq_traditional/#include<linux/module.h>#include<linux/init.h>#include<linux/kernel.h>#include<linux/irq.h>#include<linux/interrupt.h>#include<linux/gpio.h>#include<linux/delay.h>#inc......
  • 世微 AP2400 降压恒流驱动ic 全亮 半亮 爆闪三功能循环模式
    产品描述       AP2400是一款PWM工作模式,高效率、外围简单、外驱功率管,适用于5-100V输入的高精度降压LED恒流驱动芯片。外驱MOS,输出电流可达6A。AP2400可实现三段功能切换,通过MODE1/2/3切换三种功能模式:全亮,半亮,爆闪,全亮/半亮/爆闪循环模式。AP2400工作频......