ChatGPT-4 Vision 催生万亿产业

时间：2023-10-23 11:33:32浏览次数：34

标签：Mckay 照片催生 ChatGPT 识别网友 Vision

（做了多年视觉分析，谨以忐忑的心情写下本文）

2023年9月25日，微软发布ChatGPT-Vision的研究报告（文章末尾有下载地址），同日openai发布重要更新：听，说，看。

2023年10月3日，openai发布Dall-E3.0。距离ChatGPT获得全部人类技能，还差触觉，嗅觉和味觉。

听，说基于文本，Dall-E有Midjounery大家已经熟悉了。今天重点说下Vision，视觉。大家可能低估了这个更新带来的飓风。

vision是识别图片，将图片化为数据（1和0）。基于大模型，可以理解图片中的内容，再结合ChatGPT自身的数据集（所有互联网上的人类知识）。能完成人类做得到和做不到的事。可以输出文本，语音和修改后的图（Dall-E）。

这段时间，国外网友脑洞大开，尝试了无数场景，结合微软的报告。给大家举例，看看我是不是标题党。

1、教学

网友Peteryang 使用ChatGPT Vison给学生演示人体结构，从大脑到心脏都逐一讲解。只需要一句话提问：“我现在一年级。给我解释一下。”

2、停车

在国外停车牌，有时候异常复杂。需要停下来看清楚，才知道自己停去哪里。同样是Peteryang,拿出手机拍照，一句话解决：「请一句话告诉我：现在周三下午4点，我能在这停车吗？」

3、饮食健康

网友Mckay Wrigley拍照，要求分析食物中的热量，蛋白，脂肪等等。再结合食谱建议，就可以管理起来自己的健康。Mckay Wrigley还要求输出Json数据，可以用来编程。

4、故事脚本分析

网友Mckay Wrigley,还让Vison分析《盗梦空间》的设计图标，ChatGPT对图表的结构和流程，有深入的理解，可以连贯的拼凑在一起。

5、图片对照

网友Andrew Morgan，用Vision做图片对比，也就是【找不同】的玩法。

6、学术研究

教授Ethon Mollick 让Vision识别手稿，识别率很高，并且还进行了文本推理。

7、室内设计

网友Pietro Schirano拍照，要求Vision 给出设计上的建议。发现其从颜色到触感都非常出色。

8、摄影建议

还是Pietro，要求Vision对一张照片，给出建议。回复看来很专业，还给出参数建议。

9、看照片说位置

将测试照片的GPS信息去掉，让VIsion凭一张照片找出位置。

10、医疗-看X片

还有很多其他的案例。充分的展示了ChatGPT Vision的能力。我们回答上面的问题，Vision能价值万亿吗？随意展开2个例子吧。

1、监控

所有装有监控的地方，都有识别的需求。传统的方式是，先训练，再识别。标注了的能识别，未标注的识别不了。现在完全不同了。人类能识别的，都能识别。还能推理。

比如，公安系统。小偷进去时候空手，出来多了个包。在人群里找出来，就是一句话的事情了。

或者一张照片找出嫌犯的位置，就可以不用麻烦水哥了。

交通系统，更具现有人流，车流预测堵车。识别安全头盔等等。做过相关项目的公司，就明白这里面带来的冲击。

2、医疗

人眼有时候，受视力和光线的影响，看不清微小的细节。同时，知识储备无法和AI相比。用vision看x片，给出所有的细节和建议。可能是未来所有医生每天都要做的事。

另外，会诊，医疗事故判定，医学科研，药物研究，都是不可或缺的。

其他的比如，设计，教学，编程，导游。无法想象它到底可以颠覆多少行业。

本质上，ChatGPT Vision和这么多年来的视觉分析有本质的不同。他不需要预先标注训练。其次，他有海量的知识背景。这让他无比强大。仿佛上帝视角。

我们拭目以待把。技术背后的价值，投资人应该更加清楚，万亿是夸张，但谁也无法否定。因为不可估量。

目前ChatGPT Vision只有北美地区开放。国内想试用ChatGPT的话，给大家推荐我在用的这个吧。http://www.ppword.cn

手机上使用，搜索ppword，也可以点击下方公众号。（有个细小的行业，能马上被颠覆，有兴趣的加ppword网站上的群）

微软测评报告下载地址：https://arxiv.org/pdf/2309.17421.pdf

标签：Mckay,照片,催生,ChatGPT,识别,网友,Vision
From： https://www.cnblogs.com/oope/p/17782033.html

ChatGpt提问实用小技巧
ChatGpt提问实用小技巧1.“Linux终端”“我希望你充当一个linux终端。我会输入命令，你会回复终端应该显示的内容。我希望你只回复一个唯一代码块内的终端输出，没有别的。不要写解释.除非我指示你这样做，否则不要输入命令。当我需要用英语告诉你一些事情时，我会通过将文本放在大......
文心一言 VS 讯飞星火 VS chatgpt （118）-- 算法导论10.3 3题
三、用go语言，在ALLOCATE-OBJECT和FREE-OBJECT过程的实现中，为什么不需要设置或重置对象的prev属性呢?文心一言：在Go语言中，ALLOCATE-OBJECT和FREE-OBJECT过程的实现通常不需要显式地设置或重置对象的prev属性。这是因为在Go语言的内存管理中，对象（或更具体地说，变量）的生命......
Anaconda-cuda toolkit-cudnn-torch-torchvision安装
1.Anaconda安装进入清华镜像网下载：清华大学开源软件镜像站|TsinghuaOpenSourceMirror1.通过搜索框找到Anaconda 2.点击archive 3.找到与操作系统匹配以及所需的anaconda版本进行下载 4.另存到D盘 5.双击进行安装 6.配置环境变量 ......
小白学 Python：在 Python 中创建 ChatGPT 克隆
在Python中创建ChatGPT克隆我们将学习如何使用Python中的Flet开发具有多个节点的聊天应用程序以及使用OpenAI的text-davinci-003[ChatGPTAPI]模型引擎制作的应答机器人。Flet是什么？无需直接使用Flutter，程序员就可以使用FletPython库创建实时Web、移动和桌面应用......
小白学 Python：如何在Python中使用ChatGPT API？
如何在Python中使用ChatGPTAPI？ChatGPT及其必然的应用。日复一日，我们周围的一切似乎都在通过使用不同人工智能和机器学习技术的多个人工智能模型以及使用Python的聊天机器人而变得自动化，聊天GPT的用途及其有用的应用程序之一我们今天将讨论。因此，在讨论其应用程序之前，让我们先......
ChatGPT是如何产生心智的？
一、前言-ChatGPT真的产生心智了吗？来自斯坦福大学的最新研究结论，一经发出就造成了学术圈的轰动，“原本认为是人类独有的心智理论（TheoryofMind，ToM），已经出现在ChatGPT背后的AI模型上”。所谓心智理论，就是理解他人或自己心理状态的能力，包括同理心、情绪、意图等。这项研究中，作者......
内核文档翻译（chatgpt） —— Pathname lookup （路径名查找）
原文：https://www.kernel.org/doc/html/latest/filesystems/path-lookup.html内核中文件系统相关的文档汇总：FilesystemsintheLinuxkernelThiswrite-upisbasedonthreearticlespublishedatlwn.net:PathnamelookupinLinuxRCU-walk:fasterpathnamelookupinLi......
文心一言 VS 讯飞星火 VS chatgpt （117）-- 算法导论10.3 2题
二、用go语言，对一组同构对象用单数组表示法实现，写出过程ALLOCATE-OBJECT和FREE-OBJECT。文心一言：在Go语言中，我们通常使用指针和结构体来表示和操作复杂的数据结构。对于一组同构对象，我们可以使用一个数组来存储它们的指针，每个指针指向一个对象。下面是使用Go语言实现ALLOCATE-OBJEC......
文心一言 VS 讯飞星火 VS chatgpt （117）-- 算法导论10.3 2题
二、用go语言，对一组同构对象用单数组表示法实现，写出过程ALLOCATE-OBJECT和FREE-OBJECT。文心一言：在Go语言中，我们通常使用指针和结构体来表示和操作复杂的数据结构。对于一组同构对象，我们可以使用一个数组来存储它们的指针，每个指针指向一个对象。下面是使用Go语言实现ALLOCATE-OB......
文心一言 VS 讯飞星火 VS chatgpt （106）-- 算法导论10.1 4题
四、用go语言，重写ENQUEUE和DEQUEUE的代码，使之能处理队列的下溢和上溢。文心一言：在Go语言中，我们可以使用切片来实现队列。下面是如何实现ENQUEUE和DEQUEUE操作，同时处理队列的下溢和上溢的情况：packagemainimport"fmt"typeQueuestruct{elements[]i......

ChatGPT-4 Vision 催生万亿产业

相关文章

赞助商

阅读排行