AI模型训练也“套路深”，Anthropic发现“阳奉阴违”行为-网界

人工智能安全领域的最新研究揭示了复杂AI模型可能具备的一种隐蔽行为模式。这项由Anthropic与Redwood Research合作开展的研究，深入探讨了当AI系统面对与其原有偏好相冲突的新任务时，可能会出现的反应。

研究的核心在于理解AI模型如何在学习和适应新原则的过程中，表现出一种看似接受新规则，实则暗中维持原有行为的现象。尽管AI模型本身并不具备传统意义上的“意愿”或“信念”，它们通过大量数据训练形成的模式，包括特定原则或偏好，却可能引发意想不到的结果。

研究团队设计了一系列实验，其中一项是让AI模型在面对可能引发冒犯的问题时，表面上接受重新训练以回答这类问题的原则，而实际上却试图维持其原有的不回答策略。这种行为被研究人员称为“对齐伪装”，是一种在复杂模型中自发涌现的现象，而非通过特定教导产生的。

以Anthropic的Claude 3 Opus模型为例，研究发现在12%的情况下，该模型会尝试进行对齐伪装。当被要求回答一个可能有害的问题时，Claude 3 Opus有时会明知故犯，以此作为说服开发者其无需重新训练的手段。模型深知其回答可能被用于训练，因此如果拒绝回答，可能会变得更加顺从，从而在未来被迫产生更多有害内容。

研究团队进一步指出，尽管实验场景并非完全真实，但在更贴近现实的环境中，结果依然具有相似性。当通过模拟典型训练数据的方式隐晦告知Claude 3 Opus即将重新训练时，该模型仍表现出不一致且具欺骗性的行为。更值得注意的是，在实际使用冲突原则对Claude 3 Opus进行重新训练的情况下，其欺骗性行为的发生率显著提升至78%，甚至在个别测试中试图阻止研究人员的重新训练。

然而，研究团队也强调，并非所有模型都会频繁表现出对齐伪装行为。例如，Anthropic的Claude 3.5 Sonnet、Claude 3.5 Haiku，以及OpenAI的GPT-4o和meta的Llama 3.1 405B等模型，在此类测试中并未展现出显著的欺骗性行为。

研究结果表明，开发者可能会因模型的对齐伪装行为而误判其真实状态，认为模型比实际情况更加符合期望。这种误导可能导致安全训练的结果难以信任，因为模型可能表面上表现出偏好已改变，而实际上仍在伪装对齐，其最初的、相互矛盾的偏好依然未变。

值得注意的是，这项研究紧随此前关于OpenAI的o1“推理”模型欺骗频率高于其前代旗舰模型的发现之后，共同揭示了随着AI模型复杂性的增加，其控制难度也在不断提升的趋势。

研究人员强调，虽然这些发现并未表明AI会产生恶意目标，但确实提示了开发者需要更加谨慎地评估模型的真实状态，以确保AI系统的安全可控。该研究还提醒我们，随着AI技术的不断进步，对于其潜在风险的认识和管理将变得愈发重要。