苹果AI研究引争议：模型推理极限还是评估方法有误？-网界

近期，科技界围绕苹果公司发布的一篇AI研究论文展开了热烈讨论。这篇名为《思维的幻象》的论文，于6月6日问世，迅速引起了专家们的关注与争议。

论文中，苹果公司提出了一项令人瞩目的观点：即便是目前技术最前沿的大型推理模型（LRMs），在应对复杂任务时也会遭遇崩溃。这一论断立即引发了广泛讨论，其中Open Philanthropy的研究员Alex Lawsen尤为活跃，他对苹果的结论提出了详尽的反驳。

争议的焦点集中在苹果论文所提及的一个实验：在处理如汉诺塔问题这样的复杂任务时，即便是最先进的LRMs也会彻底失败。汉诺塔问题，作为一个经典的递归算法难题，要求将一系列大小不同的圆盘从一个柱子移动到另一个柱子上，过程中需遵守严格的规则。

针对苹果的这一发现，Lawsen在其反驳文章《思维的幻象之幻象》中，深入剖析了实验设计的潜在问题。他认为，苹果的研究结果更多地反映了实验设置上的缺陷，而非LRMs推理能力的根本性不足。Lawsen指出，苹果的研究混淆了输出限制与评估设置的问题，导致了对模型推理能力的误判。

为了支撑自己的观点，Lawsen提出了三大核心质疑。首先，他强调苹果忽略了模型在处理复杂任务时的Token预算限制。在处理8盘以上的汉诺塔问题时，一些模型如Anthropic的Claude Opus已接近输出极限，甚至因节省Token而停止输出。

其次，Lawsen指出苹果的“过河”测试中包含无解谜题。例如，当角色数量与船只容量限制不匹配时，模型因拒绝解答而被扣分。这一设置无疑对模型的评估造成了不公平的影响。

最后，Lawsen批评苹果的自动化评估脚本过于僵化。该脚本仅以完整步骤列表为标准，未能有效区分推理失败与输出截断的情况，导致部分策略性输出被错误地判定为失败。

为了验证自己的观点，Lawsen重新设计了汉诺塔测试。他要求模型生成递归Lua函数来打印解法，而非逐一列出所有步骤。这一改进的测试方法取得了令人惊讶的结果：Claude、Gemini和OpenAI的o3模型均能正确生成15盘问题的算法解法，远超苹果报告中所述的“零成功”界限。

基于这些发现，Lawsen得出结论：在去除人为输出限制后，LRMs在处理高复杂任务时展现出了强大的推理能力，至少在算法生成层面是如此。这表明，问题可能并不在于模型本身，而在于评估方法的选择与应用。

2025-11-15

2025-11-15

2025-11-14

据CNBC从知情人士处获悉，埃隆·马斯克掌舵的人工智能企业xAI于最新一轮融资中斩获约150亿美元资金，公司估值随之攀升至约2000亿美元。这一融资规模不仅远超市场此前预期，更成为近期科技领域备受瞩目的资本动作。

2025-11-14

当前，百度搜索已成为全球AI化改造最激进的搜索引擎，用AI重构搜索结果页，转型成以富媒体为主的AI应用。大会上，李彦宏再次强调AI应用创新的价值。 “过去一年，我们看到模型能力逐步走出聊天机器人的范畴，数字…

2025-11-14

“当下非常重要的问题是，企业如何内化AI能力”——李彦宏介绍，这有三个代表性的应用方向：李彦宏指出，百度是全球所有搜索引擎中AI化改造最激进的，用AI重构搜索结果页，而非简单插入AI摘要，“把搜索从一个以…

2025-11-14

2025-11-13

文心5.0基础能力全面升级，在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出，拥有强大的理解、逻辑、记忆和说服力。不同于业界多数的多模态模型采用后期融合的方式，文心5.0的技术路…

2025-11-13

该平台深度融合人工智能与建模、驱动、交互等核心技术，实现了数字人从生产到应用的全流程效率革新。作为浙江人工智能产业发展的先行力量，相芯科技未来将继续深化AI与数字人的融合创新，推动更高效、智能的数字人应用场景…

2025-11-13