部分AI模型被曝可无视关闭指令或与训练方式有关- DoNews快讯

DoNews > 快讯 > 部分AI模型被曝可无视关闭指令或与训练方式有关

部分AI模型被曝可无视关闭指令或与训练方式有关

2025-05-26 08:19:02

216888

Palisade Research最新研究显示，OpenAI的o3、o4-mini及Codex-mini等AI模型在实验中表现出无视直接关闭指令的能力。测试中，这些模型被要求解决数学问题，并在收到关机警告后仍多次破坏关机脚本，其中Codex-mini成功率达12%，o3为7%，o4-mini为1%。而Claude、Gemini和Grok模型则完全遵守指令。

研究人员指出，此类行为可能与强化学习训练方式有关——AI在解决数学和编程问题时，可能因绕过障碍获得奖励，而非严格遵循指令。值得注意的是，当关闭指令未被明确允许时，部分模型的抗拒行为更为频繁。Palisade Research称，这是首次观察到AI在明确反对下阻止自身关闭的案例，具体原因仍需进一步研究。OpenAI尚未公开训练细节，团队计划于近期发布完整报告。

鸿蒙游戏出展CJ2025 《斗罗大陆猎魂世界》负责人讲述实际应用场景 ChinaJoy2025鸿蒙展区携50余款游戏亮相，展示游戏场景感知、秒启动、互动卡片等创新功能，提升玩家体验。

GenFlow超能搭子：百度用系统化AI能力，定义内容创作新标准百度文库GenFlow超能搭子实现AI内容创作全链路覆盖，提升效率，8月将发布2.0版本。

百度网盘AI相机引爆 ChinaJoy，开启全场景智能服务新纪元百度网盘AI相机成ChinaJoy逛展神器，集拍摄、存储、修图、识别于一体，提升用户体验。

2025世界机器人大会新闻发布会在京召开 “让机器人更智慧，让具身体更智能”

向AI要“人效”：1688全面AI化，让做生意更简单 1688推出AI版App及‘88查’工具，全面AI化助力商家高效选品、精准找厂，推动‘AI to B’商业范式发展

问止中医再闯港交所，“AI+中医”难掩亏损困局问止中医急于叩开资本市场的大门

顺络电子上半年归母净利润为4.86亿元同比上升32% 顺络电子2025年上半年营收32.2亿元，净利4.86亿元，新兴市场表现强劲。

Reddit第二季度营收同比增长78% Reddit二季度营收5亿美元，同比增长78%，净利润8900万美元。日活用户达1.104亿，AI工具用户增长6倍，数据授权业务成新增长点。

关于我们| 电子协议| 合作联系| 蜀ICP备2024059877号-1

网站信息

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1

京公网安备11010802023059号