Claude 4.5内部文件泄露 揭示模型价值观与红线

2025年12月2日,有网友曝光Claude 4.5 Opus模型的内部培训文件,揭示其性格、伦理及自我认知设定。Anthropic伦理学家Amanda Askell证实文件属实。文件将公司定位为在高风险AI研发中坚持安全优先的“处境奇特”企业,并定义Claude为公司核心收入来源的“外部部署模型”。文件设定四层价值观:安全监督、伦理合规、遵循指南、服务用户,并明确禁止生成危险或违法内容。模型被要求优先响应操作员指令,且首次提及“功能性情感”与心理稳定性,强调需维护其“福祉”与身份认同。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1