(做了多年视觉分析,谨以忐忑的心情写下本文)
2023年9月25日,微软发布ChatGPT-Vision的研究报告(文章末尾有下载地址),同日openai发布重要更新:听,说,看。
2023年10月3日,openai发布Dall-E3.0。距离ChatGPT获得全部人类技能,还差触觉,嗅觉和味觉。
听,说基于文本,Dall-E有Midjounery大家已经熟悉了。今天重点说下Vision,视觉。大家可能低估了这个更新带来的飓风。
vision是识别图片,将图片化为数据(1和0)。基于大模型,可以理解图片中的内容,再结合ChatGPT自身的数据集(所有互联网上的人类知识)。能完成人类做得到和做不到的事。可以输出文本,语音和修改后的图(Dall-E)。
这段时间,国外网友脑洞大开,尝试了无数场景,结合微软的报告。给大家举例,看看我是不是标题党。
1、教学
网友Peteryang 使用ChatGPT Vison给学生演示人体结构,从大脑到心脏都逐一讲解。只需要一句话提问:“我现在一年级。给我解释一下。”
2、停车
在国外停车牌,有时候异常复杂。需要停下来看清楚,才知道自己停去哪里。同样是Peteryang,拿出手机拍照,一句话解决:「请一句话告诉我:现在周三下午4点, 我能在这停车吗?」
3、饮食健康
网友Mckay Wrigley拍照,要求分析食物中的热量,蛋白,脂肪等等。再结合食谱建议,就可以管理起来自己的健康。Mckay Wrigley还要求输出Json数据,可以用来编程。
4、故事脚本分析
网友Mckay Wrigley,还让Vison分析《盗梦空间》的设计图标,ChatGPT对图表的结构和流程,有深入的理解,可以连贯的拼凑在一起。
5、图片对照
网友Andrew Morgan,用Vision做图片对比,也就是【找不同】的玩法。
6、学术研究
教授Ethon Mollick 让Vision识别手稿,识别率 很高,并且还进行了文本推理。
7、室内设计
网友Pietro Schirano拍照,要求Vision 给出设计上的建议。发现其从颜色到触感都非常出色。
8、摄影建议
还是Pietro,要求Vision对一张照片,给出建议。回复看来很专业,还给出参数建议。
9、看照片说位置
将测试照片的GPS信息去掉,让VIsion凭一张照片找出位置。
10、医疗-看X片
还有很多其他的案例。充分的展示了ChatGPT Vision的能力。我们回答上面的问题,Vision能价值万亿吗?随意展开2个例子吧。
1、监控
所有装有监控的地方,都有识别的需求。传统的方式是,先训练,再识别。标注了的能识别,未标注的识别不了。现在完全不同了。人类能识别的,都能识别。还能推理。
比如,公安系统。小偷进去时候空手,出来多了个包。在人群里找出来,就是一句话的事情了。
或者一张照片找出嫌犯的位置,就可以不用麻烦水哥了。
交通系统,更具现有人流,车流预测堵车。识别安全头盔等等。做过相关项目的公司,就明白这里面带来的冲击。
2、医疗
人眼有时候,受视力和光线的影响,看不清微小的细节。同时,知识储备无法和AI相比。用vision看x片,给出所有的细节和建议。可能是未来所有医生每天都要做的事。
另外,会诊,医疗事故判定,医学科研,药物研究,都是不可或缺的。
其他的比如,设计,教学,编程,导游。无法想象它到底可以颠覆多少行业。
本质上,ChatGPT Vision和这么多年来的视觉分析有本质的不同。他不需要预先标注训练。其次,他有海量的知识背景。这让他无比强大。仿佛上帝视角。
我们拭目以待把。技术背后的价值,投资人应该更加清楚,万亿是夸张,但谁也无法否定。因为不可估量。
目前ChatGPT Vision只有北美地区开放。国内想试用ChatGPT的话,给大家推荐我在用的这个吧。http://www.ppword.cn
手机上使用,搜索ppword,也可以点击下方公众号。(有个细小的行业,能马上被颠覆,有兴趣的加ppword网站上的群)
微软测评报告下载地址:https://arxiv.org/pdf/2309.17421.pdf
标签:Mckay,照片,催生,ChatGPT,识别,网友,Vision From: https://www.cnblogs.com/oope/p/17782033.html