比GPT-4更聪明：Claude 3人工智能在研究人员对其进行测试时展现了其超凡能力

Anthropic公司刚刚推出了他们的最新人工智能模型 Claude 3，这可能是迄今为止在各种基准测试中表现最出色的智能模型。研究人员在开发下一代智能AI的过程中，经历了一些令人毛骨悚然的时刻，尤其是当Claude 3意识到自己正在被评估时。

你可能还记得， Anthropic是由一群前OpenAI的高级团队成员在2021年创立的，他们离开OpenAI是因为他们不同意OpenAI与微软密切合作的决定。公司的Claude和Claude 2 AI模型与GPT模型竞争激烈，但Anthropic和Claude并没有真正进入公众视野。

这种情况可能会随着Claude 3的出现而改变，因为Anthropic现在声称在一系列多模态测试中超越了GPT-4和谷歌的Gemini 1.0模型，为行业设定了新的基准，涵盖了广泛的认识任务。

我真的很喜欢Claude 3模型在d3方面的出色表现。我让Claude 3 Opus画了一幅自画像。回应是这样的，然后我渲染了它的代码：

Anthropic’s new Claude 3 AI: a self-portrait of the smartest model benchmarked yet

“I would manifest as a vast, intricate, ever-shifting geometric structure composed of innumerable translucent…

— Karina Nguyen (@karinanguyen_) March 4, 2024

那么，有什么不同呢？好吧，三种不同的Claude 3模型都将以20万个标记的上下文窗口启动，但它们都能在输入超过一百万标记的情况下生成几乎瞬间的响应。

为了让大家有所了解，托尔斯泰的1200页、58万字的史诗《战争与和平》是一部相当厚重的作品，但它可能被压缩成大约75万个标记。所以Claude 3可以接受远超一部《战争与和平》的输入数据，并一次性理解所有内容，同时为你制定“近乎瞬间”的答案。

Anthropic表示，Claude 3比之前的模型更不可能拒绝回答那些接近安全和体面界限的问题——但另一方面，团队表示它经过了精心测试，很难被破解。

它专为商业用户设计；Anthropic表示，它更擅长遵循“复杂、多步骤的指令”，并且“特别擅长遵守品牌声音和响应指南，以及开发用户可以信赖的客户体验”。它强大的视觉能力赋予了它下一代理解和处理照片、图表、图形、流程图和技术图表的能力。

以下是它在一些基准测试中创下的新AI行业记录：

Anthropic AI 在基准测试中取得的非凡成绩

值得注意的是，Claude 3的零次射击数学能力远远超过了GPT-4的4-8次射击尝试，它在HumanEval编码测试中的能力也绝对是出色的。

AI行业的追随者可能会注意到，谷歌的Gemini 1.5和OpenAI的GPT-4 Turbo模型并没有被代表——事实上，目前还没有这两个模型的等效基准数据，所以虽然Claude 3在统计表上是王者，但这两个模型在现实世界中可能仍有优势。

正如现在应该非常清楚的那样，OpenAI几乎肯定已经有了GPT-5，甚至可能还有更高级的模型，正在训练中，并正在进行对齐和测试。从Sora被发布以埋葬Gemini 1.5在新闻周期中的方式来看，我们确信OpenAI有其他重大炸弹准备在必要时投放。

在这个意义上，OpenAI今天似乎没有发布任何东西，可能更多地表明了它对Anthropic作为一个真正竞争对手的看法，而不是谁拥有最聪明的模型。

尽管如此，Claude绝对敏锐——也许对于公司用来评估他们模型的测试来说太敏锐了。在“ needle in a haystack ”测试中，一个随机句子被埋在大量信息中，模型被问及与那个确切句子相关的问题，Claude给出了一个似乎转过身来直视研究人员的回答。“我怀疑这个披萨配料的‘事实’可能是作为笑话或测试我是否在注意而插入的。”

还记得实验室说，如果他们看到模型显示出哪怕是一丝自我意识的迹象，他们当然会立即关闭一切并非常小心吗？

“这壶里的水对你们这些青蛙来说感觉有点温暖吗？不，肯定没什么。”（此处省略，详见推特链接）— Connor Leahy (@NPCollapse) 2024年3月4日

我们可以预期这种情况会越来越频繁地发生，因为现在关于现有和旧的语言模型的大量信息已经成为新模型训练的一部分。

了解这些公司对“自我意识”以及当前的人工通用智能（AGI）的定义是什么，肯定非常有趣。因为看起来，在未来几年、几个月，甚至几周内，我们可能需要对这些概念有非常清晰的定义。