剑桥大学研究揭示AI真实水平：所有大模型都是“草台班子”！

时间：2024-10-12 11:49:06浏览次数：7

最近，剑桥大学等团队发表了一篇重磅论文，揭示了大模型（LLM）们的真实面目，深入剖析了当前大语言模型(LLM)的实际表现，结果令人震惊 —— 这些被寄予厚望的AI模型，在很多基本任务上的表现远不如人们想象的那样出色。

这项研究对包括o1-preview在内的多个前沿模型进行了全面评测。结果显示，AI模型与人类在理解能力上存在显著差异。令人意外的是，模型在人类认为复杂的任务上表现出色，却在简单问题上频频失误。这种反差让人不禁怀疑，这些AI是否真的理解了任务本质，还是仅仅在"拼命装聪明"。

在这里插入图片描述
更令人惊讶的是，提示工程（Prompt Engineering）这一被认为能够提升AI性能的技术，似乎并不能有效解决模型的根本问题。研究中发现，即使是在简单的拼字游戏中，模型也会出现令人啼笑皆非的错误。比如，能够正确拼出"electroluminescence"这样复杂的词，却在"my"这样简单的字谜上给出"mummy"这样的错误答案。

在这里插入图片描述
研究团队对32个不同的大模型进行了评测，结果显示这些模型在应对不同难度任务时的表现极不稳定。在复杂任务上，它们的准确率远低于人类预期。更糟糕的是，这些模型似乎在还没有完全掌握简单任务的情况下就开始挑战更高难度的任务，导致频繁出错。

在这里插入图片描述
另一个值得关注的问题是模型对提示词的高度敏感性。研究发现，许多模型在没有精心设计的提示词情况下，甚至无法正确完成简单任务。同一任务下，仅仅改变提示词就可能导致模型表现天差地别，这种不稳定性给实际应用带来了巨大挑战。

更令人担忧的是，即使经过人类反馈强化学习（RLHF）的模型，其可靠性问题仍然没有得到根本解决。在复杂应用场景中，这些模型往往表现得过于自信，但错误率却大幅增加。这种情况可能导致用户在不知情的情况下接受错误结果，造成严重的判断失误。

这项研究无疑给AI领域泼了一盆冷水，特别是对比两年前AI界"诺贝尔"Ilya Sutskever的乐观预言。他曾信心满满地表示，随着时间推移，AI的表现将逐渐符合人类期待。然而，现实却给出了截然不同的答案。

这项研究犹如一面镜子，照出了当前大模型存在的诸多短板。尽管我们对AI的未来充满期待，但这些发现提醒我们需要对这些"大聪明"们保持警惕。AI的可靠性问题亟待解决，未来的发展道路仍然漫长。

这项研究不仅揭示了AI技术发展的现状，也为未来的研究方向提供了重要参考。它提醒我们，在追求AI能力提升的同时，更要关注其稳定性和可靠性。未来的AI研究可能需要更多地聚焦于如何提高模型的一致性表现，以及如何在简单任务和复杂任务之间找到平衡。

参考资料:

https://docs.google.com/document/u/0/d/1SwdgJBLo-WMQs-Z55HHndTf4ZsqGop3FccnUk6f8E-w/mobilebasic?_immersive_translate_auto_translate=1

标签：AI,模型,剑桥大学,草台班子,研究,任务,简单,表现
From： https://blog.csdn.net/weixin_41446370/article/details/142710663

2024年诺贝尔化学奖揭晓：AI破解了几乎所有蛋白质密码
当地时间周三(10月9日)，瑞典皇家科学院宣布，将2024年诺贝尔化学奖授予大卫·贝克(DavidBaker)、戴米斯·哈萨比斯(DemisHassabis)和约翰·江珀(JohnM.Jumper)，以表彰他们在蛋白质设计和蛋白质结构预测领域作出的贡献，这些技术有潜力改变药物开发的方式，并且能够提高我们对生物......
iLogtail 开源两周年：UC 工程师分享日志查询服务建设实践案例
作者：UC浏览器后端工程师，梁若羽传统ELK方案众所周知，ELK中的E指的是ElasticSearch，L指的是Logstash，K指的是Kibana。Logstash是功能强大的数据处理管道，提供了复杂的数据转换、过滤和丰富的数据输入输出支持。Filebeat是师出同门的轻量级日志文件收集器，在处理大量日志文......
三、Spring Boot集成Spring Security之securityFilterChain过滤器链详解
二、默认过滤器链1、默认配置系统启动日志2、默认配置的过滤器及顺序如下org.springframework.security.web.session.DisableEncodeUrlFilterorg.springframework.security.web.context.request.async.WebAsyncManagerIntegrationFilterorg.springframework.security.web.c......
AIGC产品经理面试，看这里！送你20道高频面试题及分析PDF文件！
作者简介小6，世界五百强产品出身，从0到1搭建公司IT团队，现任深圳某互联网公司IT负责人，<极客时间>课程讲师。愿景：希望可以让你在这里从对产品经理的一无所知到至少能找份相关工作！聊点AI面试的，这两年最火的产业，分享20道AIGC产品经理高频面试题，文章后面会有送PDF文件的方式......
【AIGC产品经理】面试7家，拿到2个offer，薪资中上水平
Hello，大家好，我是一名不知名的5年B端金融产品经验的产品经理，成功转行AI产品经理，前期面试了北京百度、阿里、理想汽车、百川智能、华为、OPPO等多家大厂面试，但是由于已定居成都，主动终止了后续需要线下的面试流程。最终，入职一家成都人工智能科技公司，做AI产品经理，薪资在当地算......
一起体验AI动手实验，OceanBase 2024 年度发布会精彩预告
2024年OceanBase年度发布会将于10月23日在北京望京凯悦酒店举行。此次大会围绕“不止于记录”的主题，共同探讨当前数据库领域的前沿话题，包含主论坛、分论坛、AI动手实训营、开源技术交流会等多个环节，诚邀全国各地的企业和开发者共同参与！点击链接免费报名 >>2024OceanBase......
AI工具辅助论文开题的常用小技巧
学境思源，一键生成论文初稿：AcademicIdeas-学境思源AI论文写作AI工具在论文开题阶段可以提供多种实用的小技巧，帮助提升效率和准确性。以下是一些常用的小技巧：1.研究问题生成：使用AI工具根据关键词自动生成研究问题或假设，帮助快速构思开题方向。例如，输入你的研究领域，A......
界面控件DevExpress中文教程 - 如何拓展具有AI功能的文本编辑器（二）
NLP是人工智能的一个分支，它允许计算机与人类语言进行交互，这包括以有意义/有用的方式理解、解释、生成和回应文本(和语音)的能力。基于NLP的功能允许更好的数据分析、个性化体验、高效的沟通，并导致更明智的决策和提高效率。例如：机器翻译文本摘要文本生成文本分类以及更多…......
AI智能写作风潮，未来写作方式更多样化
AI智能写作风潮，未来写作方式更多样化随着科技的飞速发展，人工智能已经逐渐渗透到我们生活的方方面面。在写作领域，AI智能写作的出现，不仅引发了一场风潮，更是为未来的写作方式带来了无限的可能性。本文将探讨AI智能写作的兴起、其带来的变化，以及未来写作方式的多样化趋势。一、AI智......
浅谈AI人工智能
初识大模型和Python人工智能定义人工智能（ArtificialIntelligence,AI）：用人工的方法，在机器上实现智能人工智能是研究、开发用于模拟、延伸和扩展人的智能理论、方法、技术及应用系统的一门新的技术科学，是计算机科学的一个分支。AI的技术划分机器学习算法机器学习概念是人工智......

剑桥大学研究揭示AI真实水平：所有大模型都是“草台班子”！

相关文章

赞助商

阅读排行