网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

苹果AI研究引争议:模型推理极限还是评估方法有误?

2025-06-14来源:ITBEAR编辑:瑞雪

近期,科技界围绕苹果公司发布的一篇AI研究论文展开了热烈讨论。这篇名为《思维的幻象》的论文,于6月6日问世,迅速引起了专家们的关注与争议。

论文中,苹果公司提出了一项令人瞩目的观点:即便是目前技术最前沿的大型推理模型(LRMs),在应对复杂任务时也会遭遇崩溃。这一论断立即引发了广泛讨论,其中Open Philanthropy的研究员Alex Lawsen尤为活跃,他对苹果的结论提出了详尽的反驳。

争议的焦点集中在苹果论文所提及的一个实验:在处理如汉诺塔问题这样的复杂任务时,即便是最先进的LRMs也会彻底失败。汉诺塔问题,作为一个经典的递归算法难题,要求将一系列大小不同的圆盘从一个柱子移动到另一个柱子上,过程中需遵守严格的规则。

针对苹果的这一发现,Lawsen在其反驳文章《思维的幻象之幻象》中,深入剖析了实验设计的潜在问题。他认为,苹果的研究结果更多地反映了实验设置上的缺陷,而非LRMs推理能力的根本性不足。Lawsen指出,苹果的研究混淆了输出限制与评估设置的问题,导致了对模型推理能力的误判。

为了支撑自己的观点,Lawsen提出了三大核心质疑。首先,他强调苹果忽略了模型在处理复杂任务时的Token预算限制。在处理8盘以上的汉诺塔问题时,一些模型如Anthropic的Claude Opus已接近输出极限,甚至因节省Token而停止输出。

其次,Lawsen指出苹果的“过河”测试中包含无解谜题。例如,当角色数量与船只容量限制不匹配时,模型因拒绝解答而被扣分。这一设置无疑对模型的评估造成了不公平的影响。

最后,Lawsen批评苹果的自动化评估脚本过于僵化。该脚本仅以完整步骤列表为标准,未能有效区分推理失败与输出截断的情况,导致部分策略性输出被错误地判定为失败。

为了验证自己的观点,Lawsen重新设计了汉诺塔测试。他要求模型生成递归Lua函数来打印解法,而非逐一列出所有步骤。这一改进的测试方法取得了令人惊讶的结果:Claude、Gemini和OpenAI的o3模型均能正确生成15盘问题的算法解法,远超苹果报告中所述的“零成功”界限。

基于这些发现,Lawsen得出结论:在去除人为输出限制后,LRMs在处理高复杂任务时展现出了强大的推理能力,至少在算法生成层面是如此。这表明,问题可能并不在于模型本身,而在于评估方法的选择与应用。

马斯克xAI被曝融资150亿美元
据CNBC从知情人士处获悉,埃隆·马斯克掌舵的人工智能企业xAI于最新一轮融资中斩获约150亿美元资金,公司估值随之攀升至约2000亿美元。这一融资规模不仅远超市场此前预期,更成为近期科技领域备受瞩目的资本动作。

2025-11-14

李彦宏2025百度世界大会发声:AI内化驱动产业革新,成果加速出海
当前,百度搜索已成为全球AI化改造最激进的搜索引擎,用AI重构搜索结果页,转型成以富媒体为主的AI应用。大会上,李彦宏再次强调AI应用创新的价值。 “过去一年,我们看到模型能力逐步走出聊天机器人的范畴,数字…

2025-11-14

李彦宏:跨越临界点,AI“效果涌现”时代,内化能力引爆生产力革命
“当下非常重要的问题是,企业如何内化AI能力”——李彦宏介绍,这有三个代表性的应用方向: 李彦宏指出,百度是全球所有搜索引擎中AI化改造最激进的,用AI重构搜索结果页,而非简单插入AI摘要,“把搜索从一个以…

2025-11-14

李彦宏2025百度世界大会:AI内化驱动产业变革 开启智能生产力新纪元
“当下非常重要的问题是,企业如何内化AI能力”——李彦宏介绍,这有三个代表性的应用方向: 李彦宏指出,百度是全球所有搜索引擎中AI化改造最激进的,用AI重构搜索结果页,而非简单插入AI摘要,“把搜索从一个以…

2025-11-13

百度2025世界大会发布文心5.0大模型 参数量达2.4万亿 持续推升智能新高度
文心5.0基础能力全面升级,在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出,拥有强大的理解、逻辑、记忆和说服力。不同于业界多数的多模态模型采用后期融合的方式,文心5.0的技术路…

2025-11-13

相芯科技携AI数字人成果亮相乌镇峰会,展现浙江科技新实力
该平台深度融合人工智能与建模、驱动、交互等核心技术,实现了数字人从生产到应用的全流程效率革新。作为浙江人工智能产业发展的先行力量,相芯科技未来将继续深化AI与数字人的融合创新,推动更高效、智能的数字人应用场景…

2025-11-13