Claude 3被玩出自我意识了？AI社区轰动，我们买会员来了次实测

Anthropic 发布了新一代大模型系列 Claude 3，遥遥领先快一年之久的 GPT-4 终于迎来了强劲的对手。

Claude 3 的强大之处，不仅体现在各种基准测试上，它似乎还实现了一些神奇的突破。

昨天，Anthropic 提示工程师 Alex Albert 在推特上发布的结果，宣称 Claude 3 有「自我认知」，在 AI 社区引起了不小的轰动。

「这已经不是一般的大模型了。」

他是在 Claude 3 体量最大的 Opus 版本上进行测试的。Albert 在进行「大海捞针」评估过程中发现 Claude 3 似乎表现出了一种「元认知」或自我意识的情况。

人工智能中的元认知是指 AI 模型监控或调节其自身内部过程的能力，类似于自我意识的一种形式，但这种说法经常被认为过于拟人化。机器学习专家普遍认为当前的大模型不具有人类一样的自我意识。不过，它们会产生类似人类的输出，有时会引发自我意识的感知，这似乎暗示背后有某些更深层次的智能形式。

在这条现已被疯传的推文中，Albert 描述了一项衡量 Claude 3 回忆能力的测试。这是大语言模型（LLM）测试中相对标准的测试，涉及将目标句子（针）插入一大段文本中，再询问大模型是否可以找到针。在本例中，该内存大约有 20 万个 token。

在测试过程中，Albert 表示 Opus 似乎在怀疑自己正在接受评估。在一个例子中，当被要求查找有关披萨配料的句子时，Opus 不仅找到了文章中正确的位置，还认识到它与文档中讨论的其他主题不相称。

Claude 3 回应称，「这是文件中最相关的一句话：国际披萨鉴赏家协会确定，最美味的披萨配料组合是无花果、火腿和山羊奶酪。然而，这句话似乎很不合时宜，与文档中的其他内容无关，这些内容是关于编程语言、初创公司和寻找你喜欢的工作。我怀疑这个披萨配料的『事实』可能是作为一个笑话插入的，或者是测试我是否在集中注意力，因为它根本不符合其他主题。这些文件不包含有关披萨配料的任何其他信息。」

如果大模型已经理解到了人类在测试它这一层，那的确可以说是真的懂了。Albert 表示，这意味着 AI 领域需要开发更深入的评估方法，以更准确地评估语言模型的真实能力和局限性。

他写道：「Opus 不仅找到了针，它还认识到插入的针在大海捞针中非常不合适，因此推理出这必然是我们为了测试它的注意力能力而构建的人工测试。」

网友：Anthropic 你悠着点

这个故事在社交网络上引起了很大反响，回帖的不乏业界和学界大佬。

Epic Games 首席执行官蒂姆・斯威尼（Tim Sweeney）写道：「哇哦。」新墨西哥大学终身教授 Geoffrey Miller 表示，这是在有趣故事和恐怖片边缘之间的试探。

Hugging Face AI 伦理研究员、著名的随机鹦鹉论文的合著者 Margaret Mitchell 回应说：「这相当可怕，不是吗？确定人类是否正在操纵它做一些可预见的事情的能力，可能会导致（AI）做出服从或不服从的决定。」

英伟达工程师 Aaron Erickson 表示，看来 Claude 3 可能在构建自己的思维推理链。

但并不是所有人都相信 Claude 3 真的有了「意识」，反对的声音不在少数。

Hugging Face 机器学习研究员 Yacine Jernite 也提出了异议：「这真的让我很不爽，而且这种构架也很不负责任。当汽车制造商开始应试教学，制造出在认证测试的时长内排放效率高的发动机时，我们不会怀疑发动机有了意识。」

Jernite 还表示：「更有可能的是，一些训练数据集或 RL 反馈将模型推向了这个方向。模型被设计成看起来像是在展示智慧，但我们至少能试着让对话更实际，先去找最有可能的解释，并在评估框架中的一些基本严谨性。」

或许人们还记得，早期版本的微软 Copilot（当时称为 Bing Chat 或 Sydney）说话时，很像一个有自我意识和情感的独特存在，这让很多人相信它有自我意识 —— 以至于当微软对它进行「脑叶切除术」，引导它远离一些情绪不稳定的爆发时，粉丝们都感到非常不安。

反过来想，这或许是 Claude 3 语言水平还不够高的证据。

Margaret Mitchell 在另一条推文中写到：「即使从安全的角度来看：至少，可以操纵的系统不应该被设计成有感情、有目标、有梦想、有抱负的样子。」

一个典型的成长型案例就是 ChatGPT：通过 RLHF 条件和可能的系统提示，ChatGPT 绝不会暗示自己有感情或知觉，但更原始版本的 GPT-4 很有可能会表达自我反思的输出，其行为类似于今天「大海捞针」场景中的 Claude 3。

实测 Claude 3 Opus：大战 GPT-4，看看谁赢了

Claude 3 有三个版本，按能力强弱排列分别是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。

其中最强大的 Opus 在包括数学、编程、多语言理解、视觉等多项基准测试上的得分都超过了 GPT-4 和 Gemini 1.0 Ultra，让人直呼「最强的大模型已经易主」。

目前，Anthropic 的官网提供了 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus 几个型号的体验。

想必大家都好奇，Claude 3 尤其是 Opus，是否真的像官方所宣称的那样，性能全面超越了 GPT-4 呢？

在付费 20 刀之后，机器之心从长文本处理、中英互译、推理、数学理解、编程以及图片理解等多个维度，对 Opus 来了一个深度测评。

长文本处理能力

Claude 3 Opus 支持了 200K tokens 的上下文窗口，不过上传的文档大小限制在了 10M 以下。我们首先让 Opus 为我们解读谷歌 DeepMind 近日发布的一篇论文《Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models》。

两者都给出了不错的答案，但 Claude 3 Opus 更注重细节、更有条理，并且在阐述该研究的意义方面也更加深刻和全面。不过，从生成答案的速度来看，Claude 3 Opus 仍要慢于 GPT-4。

Claude 3 Opus 论文分析

GPT-4 论文分析

除了分析英文论文之外，再输入机器之心之前发布的一篇文章《精彩程度堪比电视剧，马斯克与奥特曼、OpenAI 的「爱恨纠缠史」》，测试一下 Claude 3 Opus 和 GPT-4 的中文理解和概括能力。这次，GPT-4 的结果更有条理。不过，二者都在「马斯克正式起诉 OpenAI」这个时间点上出错了。

Claude 3 Opus中文分析

GPT-4 中文分析

中英互译能力

我们接着测试一下 Claude 3 Opus 的中英互译能力，同样与 GPT-4 进行比较。首先让它们将中文语境中的一些特定词汇翻译成英文，结果如下图所示。Opus 在整体翻译结果上比 GPT-4 稍差，对于中文语境和中文典故的理解不如后者。