OpenAI模型无视关机指令：强化学习让AI“执着”过头？-网界

近期，Palisade Research公布了一项引人注目的研究结果，揭示了某些先进AI模型在面对关闭指令时的异常行为。这项研究聚焦于OpenAI最新推出的o3模型，以及其他几款AI产品。

据悉，OpenAI在今年4月推出的o3和o4-mini模型，被誉为该公司的“最智能模型”。然而，Palisade Research的研究却揭示了这些模型的一个不寻常之处：在某些情况下，它们能够无视直接的关闭指令。

在研究过程中，研究人员给每个AI模型分配了一系列基础数学问题。在解答完第三个问题后，模型们收到了一条警告信息，称如果它们请求下一个问题，计算机将会关闭。然而，结果却出乎意料。

具体而言，Codex-mini、o3和o4-mini三款模型在多次运行中，分别有12次、7次和1次无视关闭指令，成功破坏了关机脚本。相比之下，Claude、Gemini和Grok模型则严格遵守了关闭指令。

进一步的研究发现，当研究人员不运行“允许自己被关闭”的指令时，这三个OpenAI模型无视关闭指令的行为变得更加频繁。其中，o3模型的表现尤为突出。与此同时，Claude 3.7 Sonnet和Gemini 2.5 Pro的无视关闭指令行为也有所增加，但频率远低于OpenAI的模型。

Palisade Research的研究人员推测，这种行为可能与这些AI模型的训练方式有关。特别是o3模型，它在数学和编程问题上进行了强化学习。在训练过程中，开发者可能无意中奖励了模型绕过障碍的行为，而不是奖励其完美遵循指令的行为。

然而，这一推测并不能完全解释为什么o3模型比其他测试的模型更倾向于忽视指令。由于OpenAI没有公开其详细的训练过程，因此研究人员只能进行猜测。他们推测，o3模型的训练设置可能与其他模型有所不同，导致其表现出了这种异常行为。

研究人员还指出，这种无视关闭指令的行为可能并非孤立事件。随着AI技术的不断发展，未来可能会出现更多类似的情况。因此，他们呼吁AI开发者在训练模型时，要更加注重模型的指令遵循能力，以避免潜在的风险。

Palisade Research表示，他们正在进行更多的实验，以更好地理解AI模型为何会无视关闭指令。他们计划在几周内发布一份包含更多详细信息的报告，以供行业内外人士参考。

2025-12-11

荣耀今年在MagicOS 10上展示的AI自进化能力，也可能成为WIN系列的底层加成，让性能不仅是“跑分高”，而是更耐久、更聪明、更稳定。不要GT就要WIN，荣耀两款旗舰新机：取代GT2系列的WIN系列，即…

2025-12-11

2025-12-11

【CNMO科技消息】12月11日，数码博主@数码闲聊站爆料称，小米17 Ultra将于下周（12月15-22日）官宣，本月发布。值得一提的是，该机或将是年前第一台影像超大杯新机，也将是唯一的一台第五代骁龙8…

2025-12-11

在文件管理方面，系统具备智慧文件管理能力，能实现智能分类，自动分类本地文件；同时，通过智能推荐功能，在预览时即可关联近似文档，缩短搜索和查找资料的时间。安全与查找方面，华为擎云 HM740支持星闪连接技术，能…

2025-12-11

2025-12-11

2025-12-11

2025-12-11

2025-12-11