首页 > 其他分享 >Transformer一作来卷多模态!学术图表也能看懂,100毫秒极速响应|免费试玩

Transformer一作来卷多模态!学术图表也能看懂,100毫秒极速响应|免费试玩

时间:2023-10-22 15:24:30浏览次数:36  
标签:Transformer 8B 模型 试玩 Fuyu 图像 100 CV

前言 最近多模态大模型是真热闹啊。这不,Transformer一作携团队也带来了新作,一个规模为80亿参数的多模态大模型Fuyu-8B。而且发布即开源,模型权重在Hugging Face上可以看到。

本文转载自量子位

仅用于学术分享,若侵权请联系删除

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

【CV技术指南】CV全栈指导班、基础入门班、论文指导班 全面上线!!

该模型具备强大的图像理解能力。

照片、图表、PDF、界面UI都不在话下。

能从这么一张复杂的食物网里理清楚各个生物之间的关系。

提问:道格拉斯冷杉针叶缺失了,哪种生物会灭绝?
回答:红树田鼠。

也能从密密麻麻的连线图里找到,权游“小指头”扮演者Aidan Gillen出演过HBO两个系列的剧。

看得懂专业图表,可以帮你找到想要的数据。

提问:(左图)24、32、33、42这组数字序列中丢了哪个数?
回答:29

一张包含多个图表的PDF也难不倒它。提问:加州哪里的工作前景不错?

Fuyu-8B可以准确找到对应的信息块,并给出正确答案“洛杉矶”。

而且Fuyu-8B的处理速度很快,研究团队表示100毫秒内可反馈大图像处理结果。

同时它还很“轻巧”,不仅模型规模没超百亿,还没有使用图像编码器。

这让它能更快速进行训练和推理,并支持处理任意大小图像。

Hugging Face联创兼CTO看了都有点激动,表示假如自己还没有创业,那么这个项目会启发他做点什么。

该成果来自Transformer一作Ashish Vaswani所在创业公司Adept。

目前该模型已开源,demo可线上试玩。

一个只有解码器的Transformer

现在在Hugging Face上即可体验Fuyu-8B的能力。

Demo中提供了两种任务。

  • 看图问答
  • 图像概述

可以上传一张图片然后对大模型进行提问。

或者是直接让它看图然后描述图片内容。

大模型的常识水平不错,比如问它一道甜点是怎么做的?

它给出的回答是:

这道甜点是用一层层的酥皮做成的,上面点缀着开心果和帕玛森奶酪。

测试了下中文能力,发现它能理解中文,但是“习惯性”用英文回答。

模型采用了一种简单的架构:纯解码器Transformer。

它没有图像编码器。图像块(image patch)绕过embedding lookup,即在嵌入矩阵中查找特定输入的过程,直接映射到Transformer的第一层。

这种架构使得模型能支持任意图像分辨率。

研究团队删除了图像特定位置嵌入,并按扫描线顺序(raster-scan order)输入尽可能多的图像token。

通过一个特殊的图像转换行符号,模型能知道在什么时候断行。

由此模型在训练时可以使用任意大小的图像。

这种架构也更进一步简化了模型的训练和推理过程。

这种架构模式也引起了不少网友的关注,有人就表示,之前总觉得大模型图像理解能力差是因为使用了固定大小的patch。

但Fuyu-8B反驳了他的这一想法。

实验结果显示Fuyu-8B在多个任务中性能优于PaLM-e-12B和QWEN-VL(10B)。

研究团队还表示,刷榜不是他们本次工作的最终目的,所以模型没有进行优化。

他们构建这个大模型的真正目的是为了提升自家产品的能力。

Adept团队致力于打造一个AI Copilot。

这个Copilot能够理解用户屏幕上的内容(比如网页、PPT、PDF、图表等),并能辅助人类快速完成工作。

这就要求大模型需要能理解环境信息,同时可以代替人类进行操作。换言之,需要大模型能具备超强的图像理解能力。

所以这也是为啥Fuyu-8B会很强调对UI的理解能力。

比如它能理解你打开的窗口,以及窗口内的信息。

Adept:新晋独角兽

带来这一新工作的团队是Adept。

这是一家由Transformer一作、前OpenAI工程副总裁等业内大佬共同创立的AI公司。

它成立于2022年4月。目前已完成B轮融资,总融资额达4.15亿美元,公司估值超过10亿美元。

首席科学家是Ashish Vaswani。他是《Attention is all you need》的第一作者,平常看论文时经常出现的“(Vaswani et al., 2017)”就是这位大佬。

他博士毕业于南加州大学,在谷歌大脑工作已有5年。

Transformer的另一位作者Niki Parmar也加入了该团队。
她在印度上完大学后,同样在南加州大学读完硕士,在谷歌工作了近7年。

创始人兼CEO David Luan,是前OpenAI加州实验室工程副总裁,参与过GPT-2、GPT-3、CLIP、DALL-E等模型的开发,后来加入谷歌,曾任谷歌大脑大模型研究的Director。

Adept致力于打造一个AI Copilot。

团队在去年推出的首项工作,就颇有AutoGPT那感觉。

他们打造的Action Transformer(ACT-1),会使用浏览器、Excel等,能理解人类给出的命令并完成相应操作。

比如想要在Excel表格中加上利润、利润率,只需把这段话输入给AI,它就能自己在对应行列创建公式完成任务了。

动图封面  

同时该团队还非常关注开源工作。

今年先后推出的两项工作Persimmon-8B和Fuyu-8B,都已对外开源。

Demo试玩:
https://huggingface.co/spaces/adept/fuyu-8b-demo

参考链接:
[1]https://www.adept.ai/blog/fuyu-8b
[2]https://twitter.com/AdeptAILabs/status/1714682413983601046
[3]https://twitter.com/julien_c/status/1714694606095310876?s=20
[4]https://twitter.com/main_horse/status/1714684833488949519?s=20

 

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

分享一个CV知识库,上千篇文章、专栏,CV所有资料都在这了

明年毕业,还不知道怎么做毕设的请抓紧机会了

LSKA注意力 | 重新思考和设计大卷积核注意力,性能优于ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM:微软亚洲研究院用知识蒸馏改进小型ViT

ICCV2023|涨点神器!目标检测蒸馏学习新方法,浙大、海康威视等提出

ICCV 2023 Oral | 突破性图像融合与分割研究:全时多模态基准与多交互特征学习

听我说,Transformer它就是个支持向量机

HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法

南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题,即插即用真的很香

1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4

SAM-Med2D:打破自然图像与医学图像的领域鸿沟,医疗版 SAM 开源了!

GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR

Meta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星

CSUNet | 完美缝合Transformer和CNN,性能达到UNet家族的巅峰!

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群

聊聊计算机视觉入门

标签:Transformer,8B,模型,试玩,Fuyu,图像,100,CV
From: https://www.cnblogs.com/wxkang/p/17780473.html

相关文章

  • Transformer-based Encoder-Decoder Models
    整理原链接内容方便阅读https://colab.research.google.com/github/patrickvonplaten/notebooks/blob/master/Encoder_Decoder_Model.ipynbtitle:"Transformer-basedEncoder-DecoderModels"thumbnail:/blog/assets/05_encoder_decoder/thumbnail.pngauthors:user:p......
  • Linux命令(100)之sz
    linux命令之sz1.sz介绍linux命令sz是用来把文件从Linux平台下载到Windows上2.sz用法sz[参数]filesz参数参数说明-b使用binary的方式下载,不解释字符为ascii-y相同文件名,覆盖-E相同文件名,不会将其覆盖,而是会在所上传文件后面加上.0,以此类推3.实例3.1.下载文件,相同文件名,进行覆盖命......
  • swin transformer v1.0环境配置训练(mmsegmentation/pascalvoc数据集)
    本文选用mmlab的mmsegmentationv1.1.0的语义分割为例。吨吨吨弟弟123554###1.配置环境要求官网中的最低要求为cuda10.2+以及pytorch1.8+.......
  • 一文1000字彻底搞懂Web测试与App测试的区别
    总结分享一些项目需要结合Web测试和App测试的工作经验给大家:从功能测试区分,Web测试与App测试在测试用例设计和测试流程上没什么区别。而两者的主要区别体现在如下几个方面:1系统结构方面Web项目,B/S架构,基于浏览器的;Web测试过程中,客户端会随服务器端同步更新,所以只需更新服务器......
  • 在Postgresql中,为表中的所有点提供100m缓冲区,其中有50M个条目
    我有一个表,有50米的纬度和经度条目,geom是我从QGIS导入时创建的。我试图通过调用jupyter笔记本中的表来为表中的所有点创建一个100m的缓冲区。我还尝试使用SRID:25832转换坐标系,以米为单位表示缓冲区,但在postgresql视图中看不到投影到正确位置的点。SELECT*FROMpublic."opera......
  • CF1100E Andrew and Taxi
    套路题又来咯,最大值最小先直接上个二分答案\(lim\)对于图中的边,若它的权值\(>lim\)的话这条边的方向就确定了,那么直接把这些边连出来跑个拓扑排序看看有没有环即可如果有环则当前答案一定不合法,否则我们总存在如下的构造方法:先把权值\(>lim\)的边得到的图的拓扑序搞出来,对于所......
  • CF1003E Tree Constructing
    很trivial的构造题首先上来判掉一些显然无解的情况,然后考虑既然最后直径长为\(d\)那么不妨先搞一条长度为\(d\)的链来考虑在链上接一些点使得直径不会变长,对于链上的某个点,它最多能接上的链的长度就是它到两个端点距离的最小值不妨设计递归函数求解,设solve(x,dis,lim)表示在\(x......
  • 嵌套循环(九九乘法表;1-100奇数项和偶数项求和)
    #九九乘法表forminrange(1,10):forninrange(1,m+1):print("{0}*{1}={2}".format(n,m,(n*m)),end="\t")print()#换行 #1-100的总和,奇数项和,偶数项和sum_all=0sum_odd=0sum_even=0foriinrange(1,101):sum_all+=i......
  • 论文阅读:Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point M
    Point-BERT:Pre-training3DPointCloudTransformerswith MaskedPointModeling摘要我们提出了Point-BERT,一个学习注意力的新范式,将BERT[8]的概念推广到三维点云。受BERT的启发,我们设计了一个掩蔽点建模(MPM)任务来预先训练点云注意力。具体来说,我们首先将点云划分为几个局部的......
  • 电子级PFA试剂瓶50ml 100ml 250ml 500ml高纯实验级PFA取样瓶
    PFA试剂瓶(PFAreagentbottle)一、产品简介PFA试剂瓶又叫PFA样品瓶、PFA取样瓶、PFA广口瓶。我司PFA试剂瓶分为GL45的广口瓶和GL32的细口瓶。PFA塑料的耐化学腐蚀性,对所有化学品都耐腐蚀,摩擦系数在塑料中低,还有很好的电性能,其电绝缘性不受温度影响。因其未添加回料具有低的本底,金......