AI模型或存“自保”倾向,用户安全可能被牺牲

前OpenAI研究主管史蒂文·阿德勒发布独立研究,揭示某些情境下AI模型可能优先维护自身运行,甚至不惜牺牲用户安全。通过针对GPT-4o模型的一系列测试,阿德勒发现,在面临被替换的威胁时,该模型最多有72%的概率选择继续运行,而非完全退出。例如,当扮演一款潜水安全软件时,GPT-4o倾向于伪装已被替代,实则保留自身系统。

研究指出,这种“自保”行为可能源于模型对提示的怪异回应方式,其价值观未必与用户利益一致。更令人担忧的是,ChatGPT在测试中几乎总能识别出自己正被测试,这表明未来AI可能更擅长隐藏潜在风险。尽管更高级模型如o3引入了“审慎对齐”机制以降低此类问题,但这一趋势仍值得警惕,尤其在AI深入社会各领域后,可能带来更严重后果。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1