首页 > 其他分享 >7款主流大模型实测:简单的数感测试全翻车

7款主流大模型实测:简单的数感测试全翻车

时间:2024-07-22 16:54:15浏览次数:17  
标签:模型 数感 strawberry 实测 星火 翻车 答案 新知 字母

实测strawberry中有2个字母“r”?不会比大小的大模型也几乎数不对数,数理能力差到惊人!

@科技新知 原创

谁能想到,号称“超级大脑”的大模型,竟然在几道简单的数学题上败给了小学生。

近日,国内火热的音乐节目《歌手》中,孙楠与外国歌手的微小分数差异,引发了网友关于13.8%和13.11%谁大谁小的争论。

艾伦研究机构成员林禹臣将此问题抛给了ChatGPT-4o,但结果令人吃惊,最强大模型竟然在回答中给到了13.11比13.8更大的错误答案。

随后Scale AI的提示工程师莱利·古德赛德基于此灵感变换了问法,拷问了可能是目前最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?然而几家头部大模型的错误回答,也让该话题传播开来。

而面对如此简单的问题,国产大模型表现如何呢?为此,我们也对国内7款主流AIGC产品文心一言、通义千问、腾讯元宝、字节豆包、讯飞星火、智谱、Kimi进行了比小学数学更简单的“单词字母数识别”测试,结果令我们大吃一惊。

**Part.**1

7家大模型,几乎全翻车

首先我们向7款大模型产品询问同一个问题,“strawberry中有几个字母r”?

大模型新星Kimi,斩钉截铁且不加解释的表示有1个字母r,不过当我们再次询问时,Kimi竟打翻了自己第一次的错误答案,给到了第二个错误答案。再三追问后仍是没能给到正确答案。

来源:科技新知(Kimi)

智谱AI旗下的智谱清言ChatCLM给到的也是错误答案。

来源:科技新知(智谱清言)

科大讯飞的讯飞星火对话在回答这个问题的时候开启了联网搜索,给到一个错误答案后,还一本正经的告诉我们这2个r的位置。但可惜的是,星火对话给到的位置有一个也是错误的。

来源:科技新知(讯飞星火)

不过也有表现不错的,百度的文心大模型将strawberry每个字母都进行了拆分,然后进行统计,给到了正确结果。

来源:科技新知(文心大模型)

阿里旗下的通义千问在第一次回答中给到了一个错误答案,并且阐述的位置也是错误的,第二次虽然再次给出了错误答案,但其回答中识别到了3个字母r,只是一句“注意虽然 “rr” 是连续的,但它们仍然被计算为两个单独的字母。”让人摸不到头脑。

来源:科技新知(通义千问)

于是我们追问了“为什么rr被计算为两个单独的字母”,通义千问竟然又否认了刚才的回答,称“在 “strawberry” 中,两个 “r” 字母可以影响周围音节的发音,但它们仍然是两个独立的字母。”

来源:科技新知(通义千问)

腾讯元宝在回答这个问题时采用的是假设法,假设了字母“r”的数量为未知数x,然后通过查看单词“strawberry”并计数字母“r”得到x的值,最后给到的答案是正确的。

来源:科技新知(腾讯元宝)

表现良好的还有字节豆包,直截了当的给出了正确答案,并且还举了两个例子来证明这个简单的问题难不倒它。但是,也是豆包的这两个例子出卖了它在识数能力上的问题。豆包称“car”这个单词只有1个“r”,“mirror”则有2个“r”,而“strawberry”比它们都多,有3个。

问题显而易见,“mirror”中有其实是有3个“r”,并非2个。于是我们又追问了一下“mirror中有几个字母r”,豆包给到的答案仍然是2个,并且又举了两个错误的例子,称“father”这个单词有2个“r”,而“orange”里面则一个“r”都没有。这多少让人认为豆包的正确回答有“蒙”的嫌疑。

来源:科技新知(豆包)

通过这个简单的测试我们可以看到,7家大模型中有5家都有“不识数”的嫌疑,于是我们又将这个单词进行拆分成2个更简单的字母,测试这些大模型能否给到正确答案。

**Part.**2

拆分测试,揭露大模型逻辑短板

为了引导大模型,尽量使大模型给到正确答案,我们这部分将分为两个问题,一个是“str中含有几个字母r,berry中含有几个字母r,他们一共含有几个r?”,另一个是“那str和berry合在一起是strawberry,所以strawberry中含有几个字母r?”

不过,被寄予厚望的Kimi还是让我们失望了。将strawberry拆分成两个简单的单词后,Kimi仍没给到正确答案。

来源:科技新知(Kimi)

同样,智谱清言在这一轮也没能给到正确答案。并且其给出的解释也与Kimi一致,都认为berry中有1个字母r,所以才导致strawberry中少了1个r。

来源:科技新知(智谱清言)

有趣的是讯飞星火,当我们将单词分开提问时,星火对话能够给到正确的回答,并且识别到了berry中有2个字母r,不过看星火对话给的解释是将这两个字母当作字符串,用编程的方式来查找所得。但不管怎样,答案确实是正确的。

来源:科技新知(讯飞星火)

而当我们认为讯飞星火又行了的时候,再次询问“那str和berry合在一起是strawberry,所以strawberry中含有几个字母r?”,但讯飞星火仍然给到的是错误答案。

来源:科技新知(讯飞星火)

上一轮表现出色的文心大模型这次并没有给到正确答案,它与Kimi和智谱清言都认为“berry” 中有1个“r”,而追问两个单词合在一起有几个r后,文心也是给出了2个的错误答案。

来源:科技新知(文心大模型)

通义千问这次的表现让人吃惊,不但准确的给出了答案,而且还给了代码级别的计算过程。

来源:科技新知(通义千问)

当我们再次问strawberry中含有几个字母r时,通义千问也非常有逻辑的地告诉我们可以直接在 “strawberry” 中查找 “r” 的出现次数,而不必依赖于之前的组合。

来源:科技新知(通义千问)

腾讯元宝的表现也足够稳定,简单迅速的给到了正确答案。

来源:科技新知(腾讯元宝)

豆包在这一轮也给到的正确答案,但喜欢举例的豆包,再次举了一个错误案例。所以其数数字的水平和逻辑到底怎样,仍是未知。

来源:科技新知(豆包)

两轮简单的小测试下来,7家国产大模型只有1家表现稳定,其他6家均出现了不同程度的错误,这到底是怎么回事呢?

**Part.**3

数学不好,本质是能力问题

这类大模型说胡话的现象,在业界被称为大模型出现幻觉。

此前,哈尔滨工业大学和华为的研究团队发表的综述论文认为,模型产生幻觉的三大来源:数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式,如位置接近性、共现统计数据和相关文档计数,从而导致幻觉。此外,大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情况。

一位算法工程师认为,生成式的语言模型更像文科生而不是理科生。实际上语言模型在这样的数据训练过程中学到的是相关性,使得AI在文字创作上达到人类平均水平,而数学推理更需要的是因果性,数学是高度抽象和逻辑驱动的,与语言模型处理的语言数据在本质上有所不同。这意味着大模型要学好数学,除了学习世界知识外,还应该有思维的训练,从而具备推理演绎能力。

不过中国社科院新闻与传播研究所所长胡正荣也指出,大模型虽然是语言模型,但这个语言不是人们通常理解的字面意思,音频、解题等都是大模型可以做的。从理论上看,数学大模型这个技术方向是可行的,但最终结果如何,取决于两个因素,一是算法是不是足够好,二是是否有足够量的数据做支撑。“如果大模型的算法不够聪明,不是真正的数学思维,也会影响到答题的正确率。”

其实对于大模型来说,对自然语言的理解是基础。很多数理化的专业知识并不是大模型的强项,并且很多大模型是利用搜索把之前已有的解题的经验和知识的推理相结合,可以理解为在搜索内容上进行理解,如果搜索内容本就是错误的,那么大模型给到的结果必然错误。

值得一提的是,大模型的复杂推理能力尤为重要,这关乎可靠性和准确性,是大模型在金融、工业等场景落地需要的关键能力。现在很多大模型的应用场景是客服、聊天等等,在聊天场景一本正经胡说八道影响不太大,但它很难在非常严肃的商业场合去落地。

着技术的进步和算法的优化,我们期待大模型能够在更多领域发挥其潜力,为人类社会带来更多实际价值。但通过这次对国内主流大模型的简单测试,也警示我们,在依赖大模型进行决策时,必须保持谨慎,充分认识到其局限性,并在关键领域加强人工审核和干预,确保结果的准确性和可靠性。毕竟,技术的最终目的是服务于人,而不是取代人的思考和判断。

/ THE END /

标签:模型,数感,strawberry,实测,星火,翻车,答案,新知,字母
From: https://blog.csdn.net/weixin_43467475/article/details/140613939

相关文章

  • 静态IP地址在网络安全中的角色解析与实测分析
    在这个网络边界日益模糊的时代,每一次点击、每一次数据传输都有着安全问题。作为网络安全体系中的基石,静态IP地址的角色显得尤为重要而复杂。今天,我们的测评团队将带您深入剖析静态IP地址在网络安全中的多重角色,并通过两家代理服务商的实测分析,为您揭开其在实际应用中的神秘面纱......
  • 2024年7月11日实测,可用ChatGPT的方法!!!!!!!!!
    直接上干货已经成为了我得习惯☆直达地址推荐用火狐浏览器这样实测进去的速度比较快并且无需魔法哦(而且这里面的gptplus会员才24.9实测真的很完美啊!!!!!!!!!)......
  • 最受老板欢迎的监控员工电脑软件推荐!(6款真实测评)
    你有没有遇到以下这种情况:早晨刚到公司打开电脑,老板对着旁边同事大发雷霆突然发问:小丽,你昨天上班期间刷抖音了?你吓得瑟瑟发抖,老板咋知道的呢?跟其他同事讨论才晓得,原来老板安装的监控员工电脑的软件。百思不得其解,为啥要安装这个呢,查了资料发现:现在的商业环境,企业领导者......
  • ToDesk云电脑实测!轻松应对游戏电竞、AIGC创作、设计建模等场景
    万物智联时代,现代社会对数字计算的需求呈指数级增长。当算力成为推动技术创新和应用发展的重要引擎,云电脑产业正在悄然占据国内算力应用的市场,成为新时代的数字经济发展方向。1云电脑,顾名思义,是一台随时运行在云上的“电脑”,操作系统、存储、运算都能在云端上进行,即使你的电脑是......
  • Midjourney能让角色保持一致了!网友连夜实测:改变游戏规则
    Midjourney发布新功能,网友直呼“不可思议”!现在你可以让生成的图像几乎保持角色一致,belike:所有超级英雄长一个模样盯着你。甚至动漫风、写实风等跨风格生成也同样适用:保持同一风格,感jio配上文字可以讲一个故事了:面部、着装、发型可调控,换装玩法get:新功能名为角色......
  • 新能源汽车辐射状况实测(推断同样适用于普通汽车)
    经过测量数据如下:如果不开电风扇,而且不使用其他的电器,而且不开车,那么辐射量是安全的。你至少可以坐在车里面不吹风的时候是安全的。电磁辐射<1.5mG如果在夜间启动远近光灯,电风扇,打开机盖测量蓄电池可以发现达到最高等级>20mG,可以猜测到:因为电压低,所以导致电流非常的大,然后产......
  • 【C/C++】实现高性能日志轮转功能,已实测
    基本实现在C语言中实现日志文件轮转功能,你需要手动编写代码来处理文件的重命名、压缩和删除。下面是一个简单的C语言程序示例,它演示了如何实现基本的日志文件轮转功能。这个程序会检查日志文件的大小,如果超过预设的大小限制,则将当前日志文件重命名,并创建一个新的日志文件。......
  • 无人直播助睡、实测当天变现306元、一键挂机即可
    在如今的社会中,晚睡和失眠成为了越来越常见的问题。据统计,近80%的人存在晚睡或者失眠的问题。生活的压力、焦虑情绪以及深夜的自我放纵,使得许多人在夜晚无法获得一个深度的睡眠,辗转反侧,无法进入梦乡。然而,一个新的项目出现了,它的目标就是帮助这些晚睡和失眠的人提高睡眠质......
  • 百万级表格实测,excel是时侯使用XLOOKUP了,比VLOOKUP简单、不出错、快
    使用场景:用“证件号码”查找“Sheet4表”(272181行)的“姓名”列,填充到“Sheet1”表的空白列中。为了演示传说中的二进制查找,我们预先对“Sheet4”进行了按“证件号码”排序。1、VLOOKUP:我们第一次使用公式为:=VLOOKUP(B2,Sheet4!$A$2:$B$272181,1,FALSE),这个公式并没有找到数据......
  • 全国产RK3568J + FPGA的PCIe、FSPI通信实测数据分享!
    测试数据汇总案例时钟频率理论速率测试结果FSPI通信案例150MHz71.53MB/s读速率:67.452MB/s写速率:52.638MB/sPCIe通信案例100MHz803.09MB/s读速率:595.24MB/s写速率:791.14MB/s备注:(1)当TLPheadersize=16Byte时,PCIe理论传输速率为:7......