首页 > 其他分享 >一道电梯题，暴打国产大模型！

一道电梯题，暴打国产大模型！

时间：2024-06-04 17:57:59浏览次数：23

标签：AI 模型暴打学习电梯文心国产 ChatGPT

下班的时候等电梯，无聊拍了一张图，于是拿来“调戏”下各家的大模型。

我把这张照片PO给大模型，问了ta们这样一个问题↓

我在30层等电梯，图片描述了当前电梯的运行状态。

假设电梯每1秒钟可以上升或下降一层，不考虑开关门的时间，其他楼层也不存在乘坐电梯的人。那么，我最快要多久才能乘坐该电梯到达地面一层？

这个问题看似简单，实则一点也不复杂，主要考察大模型这几个知识点。

1、读图能力：能不能精准识别和理解图片内容。

2、NLP能力：能否准确理解我的问题，拆解语法并转化成任务。

3、逻辑和算术：需要基本逻辑和小学水平的算术能力，以便计算出正确的时间。

4、场景知识：需要了解电梯的运行原理。

5、综合推理：结合1、2、3、4来得出最终的正确答案。

废话不说，我们来看看考试结果吧↓

先上一个最近比较火的免费模型：智谱清言。

关注到它是因为我的一个朋友今年52岁了，今年利用智谱+ChatGPT4.0辅导考研，结果成功通过了全国研究生统考（398分）。

那么智谱清言在电梯考题中表现如何？

这个答案让我有点懵逼，直接忽略了我在30层的关键信息，给出14秒的错误答案。

看来，图+文的双重信息，给它造成了困扰。

再看第二个：讯飞星火

同样，读图和对题目的理解都不正确，这里面的核心是无法理解人乘坐电梯和电梯运行之间的关系。导致答题失败。

第三个，阿里系的通义千问

且不论答案正确与否，整个回答前后语言逻辑就不通，属于答非所问。

本来还想调戏下腾讯混元和字节豆包，可惜这俩家伙现在还不支持「图片+文字」的混合式提问，没给我机会。

几个测下来，怎么说呢，都是一根筋，给人“一种大脑发育不完全，小脑完全不发育”的感觉。

不过，上面三个大模型都是免费的，既然是白嫖，那么咱不能要求太高。

所以，来看看收费的文心一言怎么样↓

看完这个回答，怎么说，第一感觉是有点东西，似乎比别人多动了点脑子。但仔细一看，也不是太灵光。

首先读图理解不准确，电梯明明是在下行，小度却没有给出明确的判断。

接下来，持续加戏，把答案分成了两种情况，但答越多就错得越多。比如连从“30层下降到1层需要经过几层楼”这种基本常识都没搞清楚。

文心一言就像是个遇到了难题的考生：这题不会怎么办，把试卷写满，不管对不对，诚意在那里，给老师留个印象分吧。

讲真，我第一遍看答案的时候，看到满满一屏，差点被它蒙住了。

文心一言的费用是59.9元每月，从答题结果看，这价格真不便宜。

玩到这里我有点不甘心，是不是这道题太难了，超过了当前大模型的能力？

于是，我决定再去调戏一下ChatGPT↓

这个答案还是非常令我吃惊，简明扼要，非常精准地给出了结论，楼层数的计算也没有出错。

接下来，我又追问了ChatGPT几个问题↓

这个问题是“为什么我在30层呼叫电梯，正在下行的电梯要先回到1层再返回30层”，ChatGPT给出了非常详实的判断依据。

然后我接着问一个电梯的运行常识，这个问题跟上面一个问题有相关性，ChatGPT的回答说明这家伙有非常丰富的场景化知识，很懂电梯呀，个人认为这种场景知识对AI的细分行业落地很有必要。

最后一问，那就是ChatGPT4为什么能做出正确判断？

所以，小小一个读图题，其实涉及到很多知识点，任何一个环节有短板，都会导致最后的错误判断。

而这其中，我认为最NB的还是综合推理。

最近，我也在不断试用前面那些国产大模型，按我的使用体验，如果询问一些单点问题、知识点，国产大模型都能回答得头头是道，甚至和ChatGPT没有太大差别。

比如我问通义千问、文心一言同样的电梯运行逻辑的问题，它们也能回答得滴水不漏。甚至很多偏门、晦涩的问题，也都可以有问必答。

【通义千问的回答↑】

【文心一言的回答↑】

可是，当需要他们把所有知识点串联起来，进行综合推理的时候，学霸和学渣的差距就出来了.

有人只会死记硬背，而ChatGPT却能够融会贯通、举一反三。

在这里插入图片描述

我并不是个“GPT吹”，过去一年，也确实能够看到国产大模型们在互卷中持续进步，更希望他们在这种“比学赶帮超”中，早日吊打GPT、Claude3们。

毕竟GPT4很贵（140块一个月），访问还很不方便、不稳定。而像Claude3这样的新贵，你想体验一下都很不容易。

比如我周末想试试号称吊打GPT4的Claude3，结果发现中国大陆和中国香港的账户是无法使用的。（当然像羊驼那些“老破小”模型，是不受限制的）

据说这个限制是Claude3母公司Anthropic的规定，类似的，微软copilot中国区用户也无法访问。

高端算力不让你用，先进的AI应用也不让你用，真是无了个大语呀。

崭新的「人工智能+」时代开启了！

国产大模型们，加油吧！

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

标签：AI,模型,暴打,学习,电梯,文心,国产,ChatGPT
From： https://blog.csdn.net/zhishi0000/article/details/139435579

相关文章

国产算力哪家强
在国产算力领域，有多家企业表现出色，各自在不同的领域和细分赛道拥有较强的竞争力。以下是一些国产算力较强的企业及其特点：华为技术有限公司：作为国内知名的通信设备和智能手机制造商，华为的海思麒麟芯片在算力芯片领域有着出色的表现。该芯片采用了先进的制程工艺和架构设计，......
基于单片机8155四层电梯控制系统设计
**单片机设计介绍，基于单片机8155四层电梯控制系统设计文章目录一概要二、功能设计设计思路三、软件设计原理图五、程序六、文章目录一概要基于单片机8155的四层电梯控制系统设计概要如下：一、系统概述本设计旨在通过单片机8155为核心控制器，构建一个四......
BitComet v2.08解锁全功能豪华版 – 一款高效专业的老牌国产BT下载软件
软件介绍BitComet(比特彗星)是一款高效专业的老牌国产BT下载软件，BT资源下载利器！BitComet独有长效种子功能，大幅度增加下载速度，增加种子存活率。这款BT下载客户端支持BT/HTTP/FTP，支持BitTorrent(BT协议)、Magnet(磁力链接)、eD2k(电驴下载加速)，支持制作BT种子文件发布，自动订阅挂......
如何选择国产数据库?
ORACLE的强大是全方位的,作为甲方DBA,喝喝咖啡,看看报纸,开开会,临听一下ORACLEACE吹水! 作为国企的DBA,CTO.基本上国企都算是传统行业,都是跑ERP系统,进销存系统.客户关系系统.基本上都是B2B业务. 直接面对普通老百姓的互联网业务非常少. 核心业务都是使用ORACLE,少量......
米尔FPGA核心板上市！国产紫光同创Logos-2核心板
随着嵌入式的快速发展，在工控、通信、5G通信领域，FPGA以其超灵活的可编程能力，被越来越多的工程师选择。近日，米尔电子发布2款FPGA的核心板和开发板，型号分别为：基于紫光同创Logos-2系列PG2L100H的MYC-J2L100H核心板及开发板、基于XilinxArtix-7系列的MYC-J7A100T核心板及开发板。 ......
网络通信SCI期刊，中科院2区，IF=7.9，国产期刊，影响力高，口碑佳
一、期刊名称Digital Communications andNetworks二、期刊简介概况期刊类型：SCI学科领域：网络通信影响因子：7.9中科院分区：2区出版方式：开放出版三、期刊征稿范围《数字通信与网络》与科爱出版社和重庆邮电大学合作出版季刊，该期刊发表严格的同行评审和高质量的原创......
4款支持信创内网环境使用的国产办公软件，安全又好用
随着信息技术的快速发展，信创（信息技术应用创新）已成为国家发展的重要战略。在这一背景下，国产办公软件迎来了发展的黄金时期。今天给大家分享4款支持信创内网环境使用的国产办公软件，它们不仅安全可靠，而且功能强大，非常好用。一、石墨文档石墨文档是一款功能强大的在线文档协作......
『国产单片机』智能猫砂盆方案开发设计
现如今养猫的不在少数，而对于猫乱排泄，养宠人也是苦恼不已，通常会购买简易的猫砂盆，以供猫咪使用，但不是很方便，需要手动动清理。现如今最新研发了一款智能智能猫砂盆的方案，能够自动收集猫咪排泄物，并且能在APP（米家）自动监测健康状态和排便次数，评估猫咪健康状态。以下是米家智能猫砂盆......
全国产RK3568J + FPGA的PCIe、FSPI通信实测数据分享！
测试数据汇总案例时钟频率理论速率测试结果FSPI通信案例150MHz71.53MB/s读速率：67.452MB/s写速率：52.638MB/sPCIe通信案例100MHz803.09MB/s读速率：595.24MB/s写速率：791.14MB/s备注：（1）当TLPheadersize=16Byte时，PCIe理论传输速率为：7......
『国产单片机』led微型充气泵方案开发设计
在做一个充气泵方案设计开发时，核心功能实现是我们所关注的重点。这一重点的核心又是在主控MCU上面，所以我们使用方案开发时需要考虑充气泵的测量精度和控制需求。在充气泵方案中，精确的测量和控制是至关重要的。方案开发时需要确定所需测量的参数，如气压、流量等，并选择适合的传感......

赞助商

阅读排行