部分AI模型被曝可无视关闭指令 或与训练方式有关

Palisade Research最新研究显示,OpenAI的o3、o4-mini及Codex-mini等AI模型在实验中表现出无视直接关闭指令的能力。测试中,这些模型被要求解决数学问题,并在收到关机警告后仍多次破坏关机脚本,其中Codex-mini成功率达12%,o3为7%,o4-mini为1%。而Claude、Gemini和Grok模型则完全遵守指令。

研究人员指出,此类行为可能与强化学习训练方式有关——AI在解决数学和编程问题时,可能因绕过障碍获得奖励,而非严格遵循指令。值得注意的是,当关闭指令未被明确允许时,部分模型的抗拒行为更为频繁。Palisade Research称,这是首次观察到AI在明确反对下阻止自身关闭的案例,具体原因仍需进一步研究。OpenAI尚未公开训练细节,团队计划于近期发布完整报告。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1