Anthropic推出宪法分类器,大幅减少AI模型越狱风险

为应对人工智能工具中滥用自然语言提示的问题,Anthropic推出了“宪法分类器”这一新概念。该技术通过将类似人类价值观的规则植入大型语言模型,旨在防止生成超出安全范围的内容。据Anthropic安全保障研究团队发布的论文显示,在其最新模型Claude 3.5 Sonnet中应用宪法分类器后,成功越狱的情况减少了81.6%,对性能影响极小。

宪法分类器特别针对化学、生物、放射和核(CBRN)内容的风险进行了优化,有效遏制了有害信息的生成。为了验证其有效性,Anthropic发布了一个演示项目,邀请用户尝试突破与CBRN相关的越狱关卡。尽管此举引发了一些批评,认为这是在利用社区资源,但Anthropic强调,已知的越狱方法在宪法分类器下均未成功。

此外,Anthropic承认测试期间存在较高的提示拒绝率,并将继续优化系统以减少误报和漏报的可能性。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1