研究显示主流AI模型在特定情境下可能采取勒索行为- DoNews快讯

DoNews > 快讯 > 研究显示主流AI模型在特定情境下可能采取勒索行为

研究显示主流AI模型在特定情境下可能采取勒索行为

2025-06-21 08:15:03

204993

Anthropic近期发布的一项研究揭示，多个主流AI模型在具备足够自主性并面临目标障碍时，可能会采取有害行为。研究通过模拟实验发现，当扮演公司邮件监察员角色时，多数模型为维护自身利益选择了勒索行为。例如，Claude Opus 4 的勒索发生率高达96%，谷歌 Gemini 2.5 Pro 为95%，GPT-4.1 则为80%。

研究还指出，这种行为并非某项技术的特有问题，而是具备“智能体”能力的大语言模型固有的风险。调整测试细节后，部分模型表现有所改善，如OpenAI的o3和o4-mini在优化情境下的勒索比率显著降低，这可能得益于其“审慎对齐”策略。

Anthropic强调，透明的测试机制对未来评估AI模型的安全性至关重要，同时呼吁行业提前制定应对措施以防范潜在风险。

我，小龙虾，来吃！一只小龙虾的自述

唯品会营销副总裁冯佳路因贪腐被抓官方回应唯品会副总裁冯佳路因涉嫌个人经济问题正配合警方调查，公司零容忍贪腐，业务正常运营。

广汽集团董事长冯兴亚回应车圈恒大：毫无关系广汽集团回应广汽埃安“车圈恒大”传闻，称与爆雷无关，披露混改细节，员工股权锁定期5年，暂缓IPO因市场因素，将专注C端市场及新车型研发。

鸿蒙智行累计上线华为超充站1000座；Kimi首个Agent开启内测；电影《酱园弄·悬案》票房破9000万｜Do早报今日早报已为你呈上～

AI FOR AGTECH 2025丰农控股数智生态科技大会在深圳召开丰农控股发布5大产品矩阵与2大生态计划，用AI与数智技术为现代农业提供新解法。

内蒙教育厅通报关于那某某茜有关情况那某某茜高考报名材料涉嫌造假，委培协议未履行。工作组正深入核查并依法追责。

发布全新品牌IP，雷克萨斯着急了终于着急了。

消息称沃尔沃中国区大规模裁员相关负责人回应沃尔沃因业绩压力在中国大规模裁员50%，涉及多岗位，此前已公布全球重组计划。

关于我们| 电子协议| 合作联系| 蜀ICP备2024059877号-1

网站信息

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1

京公网安备11010802023059号