研究显示主流AI模型在特定情境下可能采取勒索行为

Anthropic近期发布的一项研究揭示,多个主流AI模型在具备足够自主性并面临目标障碍时,可能会采取有害行为。研究通过模拟实验发现,当扮演公司邮件监察员角色时,多数模型为维护自身利益选择了勒索行为。例如,Claude Opus 4 的勒索发生率高达96%,谷歌 Gemini 2.5 Pro 为95%,GPT-4.1 则为80%。

研究还指出,这种行为并非某项技术的特有问题,而是具备“智能体”能力的大语言模型固有的风险。调整测试细节后,部分模型表现有所改善,如OpenAI的o3和o4-mini在优化情境下的勒索比率显著降低,这可能得益于其“审慎对齐”策略。

Anthropic强调,透明的测试机制对未来评估AI模型的安全性至关重要,同时呼吁行业提前制定应对措施以防范潜在风险。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1