多项研究揭示推理错觉:谜题越复杂准确率越低 AI逻辑测试不及格
haoteby 2025-09-13 00:13 14 浏览
越来越多的人工智能公司声称他们的模型能够推理。但最近的两项研究却得出了相反的结论。当被要求展示它们的逻辑时,大多数模型都失败了——这证明它们与其说是在推理,不如说是在重复模式。结果是答案虽然自信满满,但并不智能。
苹果研究人员发现了当今最受热捧的人工智能系统的一个关键弱点——它们在解决需要逐步推理的难题时表现不佳。在一篇新论文中,该团队在古老的逻辑谜题“汉诺塔”上测试了几个领先的模型,发现随着复杂性的增加,性能会下降。
汉诺塔谜题很简单:将一叠圆盘从一个桩子移到另一个桩子,同时遵循有关顺序和圆盘大小的规则。对于人类来说,这是一项经典的规划和递归逻辑测试。对于经过训练以预测下一个标记的语言模型来说,挑战在于如何在多个步骤中应用固定的约束,同时又不偏离目标。
苹果的研究人员不仅要求模型解答谜题,还要求它们解释解题步骤。虽然大多数模型只处理了两三个圆盘,但随着圆盘数量的增加,它们的逻辑开始瓦解。模型会错误地陈述规则,与之前的步骤相矛盾,或者自信地做出无效的移动——即使在思路链提示下也是如此。简而言之,它们不是在推理,而是在猜测。
这一发现与今年4月的一项研究相呼应。当时,苏黎世联邦理工学院(ETH Zurich)和INSAIT的研究人员对顶尖的人工智能模型进行了测试,以解决2025年美国数学奥林匹克竞赛(一项要求提供完整书面证明的竞赛)的题目。在近200次尝试中,没有一个模型能给出完美的解决方案。其中表现较强的GoogleGemini 2.5 Pro获得了总分的24%——这并非通过解决24%的题目,而是通过每次尝试都获得部分分数。OpenAI的o3-mini仅勉强获得了2%的分数。
这些模型不仅会错过答案,还会犯一些基本错误,跳过一些步骤,甚至在自信满满的同时自相矛盾。在一个问题中,一个模型一开始表现很好,但却在没有任何解释的情况下排除了有效案例。其他模型则根据训练的怪癖设计了一些约束条件,比如始终将最终答案框起来——即使它与上下文不符。
长期以来一直批评人工智能炒作的加里·马库斯 (Gary Marcus)称苹果的发现“对大型语言模型具有毁灭性的影响”。
他写道:“大语言模型无法可靠地解决河内问题,这真是令人尴尬。如果你不能用一个价值数十亿美元的人工智能系统来解决一个问题,而这个问题正是‘人工智能教父’之一赫伯·西蒙在1957年用人工智能解决的,而且也是人工智能学生在第一学期就能解决的,那么像克劳德或o3这样的模型实现通用人工智能的可能性就显得微乎其微了。”
即使给出了明确的算法,模型性能也没有提高。该研究的联合负责人伊曼·米尔扎德(Iman Mirzadeh)直言不讳:“他们的流程不合逻辑,也不智能。”
结果表明,看似推理的往往只是模式匹配——统计上流畅,但没有逻辑依据。
并非所有专家都对此不屑一顾。专门研究人工智能系统的软件工程师 Sean Goedecke 认为这次失败具有启发意义。
“模型会立即认定‘手动生成所有这些步骤是不可能的’,因为这需要追踪一千多个步骤。所以它不停地寻找捷径,最终失败了,”他在对苹果研究的分析中写道。“这里的关键洞察是,超过一定的复杂度阈值后,模型会认为推理步骤太多,于是开始寻找巧妙的捷径。所以,超过八九个磁盘后,被考察的技能会悄无声息地从‘模型能否推理汉诺塔序列?’转变为‘模型能否提出一个通用的汉诺塔解决方案,从而跳过对序列的推理?’”
Goedecke 认为,这些发现并非证明模型在推理方面毫无希望,而是凸显了人工智能系统如何在压力下调整其行为——有时很聪明,有时则不然。失败不仅在于循序渐进的推理,还在于当推理变得过于复杂时就放弃任务。
科技公司经常强调模拟推理是一项突破。苹果的论文证实,即使是针对思维链推理进行微调的模型,一旦认知负荷增加,也往往会遇到瓶颈——例如,在汉诺塔游戏中追踪超过六个圆盘的移动时。这些模型的内部逻辑会瓦解,有些模型只能通过模仿理性解释来取得部分成功。很少有模型能够始终如一地理解因果关系或目标导向的行为。
苹果和苏黎世联邦理工学院的研究结果与各大公司宣传这些模型的方式形成了鲜明对比——这些模型被宣传为能够处理复杂、多步骤任务的强大推理器。实际上,所谓的推理通常只是带有额外步骤的高级自动完成功能。智能的假象源于流畅性和格式,而非真正的洞察力。
苹果的论文并未提出全面的解决方案。然而,它与日益增长的混合方法呼声相呼应,这些方法将大型语言模型与符号逻辑、验证器或特定于任务的约束相结合。这些方法或许无法让人工智能真正变得智能,但它们可以帮助防止将错误答案当作事实。
在这些进步真正实现之前,模拟推理很可能仍停留在名称所暗示的阶段:模拟。它很有用——有时甚至令人印象深刻——但远非真正的智能。
相关推荐
- Java多线程问题大揭秘:从底层原理到解决方案
-
并发编程为什么会出问题?现代计算机为了提高计算机的整体能力,操作系统做出了以下努力:CPU增加了缓存...
- 一文吃透ConcurrentHashMap的前世与今生
-
HashMap是线程不安全的类,k-v类型数据操作在多线程下推荐使用ConcurrentHashMap。本文将会延续HashMap的解读思路,对ConcurrentHashMap从关键成员变量,核心方...
- 一种文件转换器的设计与实现_一种文件转换器的设计与实现方法
-
摘要:随着计算机技术的飞速发展,数据和信息以各种文件格式被组织并存储在计算机系统中。为了提高对数据和信息的共享效率,需要进行文件格式转换,支持不同软件的处理和应用需要。采用经典的软件开发方法和技术...
- 聊聊Java8之后的JDK升级内容_jdk8之后的新特性
-
Java都已经更新到SE12了..公司用的还是Java8,觉得是应该了解下SE8之后的更新内容了,从网上搜集整理了一下核心的功能更新文章概览...
- 10分钟搭建Linux常用服务器《带视频教程》
-
详细教程资料+课件关注+后台私信;资料;两个字可以免费视频领取+文档+各大厂面试题资料内容包括:C/C++,Linux,golang,Nginx,ZeroMQ,MySQL,Redis,fastdf...
- JVM内存结构_jvm内存结构和内存模型
-
前言Java程序的运行是通过Java虚拟机来实现的。通过类加载器将class字节码文件加载进JVM,然后根据预定的规则执行。Java虚拟机在执行Java程序的过程中会把它所管理的内存划分为若干个不同...
- 阿里架构师整理的 Netty 学习笔记之:Java NIO 网络编程
-
本系列为Netty学习笔记,本篇介绍总结JavaNIO网络编程...
- JVM - CMS垃圾收集器(建议收藏)_java垃圾收集器
-
今天,继续给大家分享关于JVM的文章,今天给大家带来的是一篇关于JVMCMS垃圾收集器的文章,好了,不多说了,进入今天的正题。...
- [Maven]Eclipse插件之Maven配置及问题解析.
-
前言:今天在自己环境装了Maven环境,并且安装了Eclipse插件,在查找插件过程中确实遇到一些问题,好不容易找到一个却又有问题.装好了插件之后,用Eclipse创建Maven项目却出现两...
- 升级 JDK17 被这 8 个坑坑惨了!附解决方案,程序员必看
-
别再盲目升级JDK17了!最近帮三个项目从JDK8升到17,踩了一肚子坑,半夜改bug改到怀疑人生。这些坑看着不起眼,掉进去能让你加班到崩溃。今天把最致命的8个坑和解决方案整理出来,...
- JVM-垃圾回收算法和垃圾回收器_jvm 垃圾回收算法
-
一、GC-垃圾回收:stop-the-world(stw):他会在任何一种GC算法中发生。stw意味着jvm因为需要执行GC而停止了应用程序的执行。当stw发生时,出GC所需的线程外,所有的线程都进...
- JDK9~11版本和相关特性,建议收藏使用
-
JDK9(2017.09.21-2018.01.26)功能特性1、modularitySystem模块系统...
- MySQL 主从复制、读写分离理论分析+实战演示
-
引言在企业应用中,成熟的业务通常数据量都比较庞大,如果对MySQL数据库的读和写都在一台数据库服务器上操作,无论是在安全性、高可用性,还是高并发等各个方面都是不能满足实际需求的。因此,一般来说都是...
- 「年底备战」Java 高级面试题之Java基础(附答案详解)
-
前言好哥哥们,Redis系列文章可能会先不弄了,目前的话写到了第二十四篇深入理解Redis主从复制,有感兴趣的好哥哥可以翻翻这个系列的文章(看完记得点赞加关注哟)。后面的话应该是会整理一些面试相关...
- 搭建Java开发环境_搭建java开发环境的基本步骤是什么?
-
要开发Java程序首先必须要配置好环境变量,而Java的运行环境的配置比较麻烦。下面来看一下JDK的安装过程。在这里JDK选用的是jdk1.7.0_07版本。安装步骤:首先,...