Anthropic推出宪法分类器，大幅减少AI模型越狱风险- DoNews

DoNews > 公司新闻 > Anthropic推出宪法分类器，大幅减少AI模型越狱风险

Anthropic推出宪法分类器，大幅减少AI模型越狱风险

2025-02-05 11:37:02

为应对人工智能工具中滥用自然语言提示的问题，Anthropic推出了“宪法分类器”这一新概念。该技术通过将类似人类价值观的规则植入大型语言模型，旨在防止生成超出安全范围的内容。据Anthropic安全保障研究团队发布的论文显示，在其最新模型Claude 3.5 Sonnet中应用宪法分类器后，成功越狱的情况减少了81.6%，对性能影响极小。

宪法分类器特别针对化学、生物、放射和核（CBRN）内容的风险进行了优化，有效遏制了有害信息的生成。为了验证其有效性，Anthropic发布了一个演示项目，邀请用户尝试突破与CBRN相关的越狱关卡。尽管此举引发了一些批评，认为这是在利用社区资源，但Anthropic强调，已知的越狱方法在宪法分类器下均未成功。

此外，Anthropic承认测试期间存在较高的提示拒绝率，并将继续优化系统以减少误报和漏报的可能性。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。

蓝标2025年上半年营收324亿：净利9644万同比降47% 蓝色光标2025年上半年营收323.6亿，增长4.87%；出海业务收入270亿，占80%以上。

百济神州上半年营收175亿：净利4.5亿百济神州2025年上半年营收175.18亿元，净利4.5亿元，首次扭亏。核心产品泽布替尼全球销售额达125.27亿元，同比增长56.2%。

穿越川藏线，领克与你同行征服川藏线，不仅是驾驶挑战，更是勇气与意志的考验。领克汽车推出“自驾游关爱服务”，提供专业支持与保障，确保自驾游爱好者安全无忧地体验自由与激情。让我们

德赛西威发布车规级低速无人车品牌川行万径，物以致远。

蔚来 2025 年二季度营收 190.1 亿元：同比增长 9.0% 蔚来二季度交付72056台，营收190.1亿，毛利率10%。三季度交付指引87000至91000台，营收预计218.1亿至228.8亿，均创新高。

携程9月起实施“免审批”居家办公 70%员工已参与混合办公模式携程取消产研序列员工混合办公审批，强化信任文化。

华为Pura 70 / Pro+官方翻新机上架，售价4699元起华为上架Pura 70系列官方翻新机，Pura 70售价4699元起，Pura 70 Pro+售价6099元起。

腾讯回应被米哈游起诉：系必要法律流程米哈游因用户资料调取诉讼与腾讯引发关注，案件将于9月5日开庭，疑似为打击泄密行为。

关于我们| 电子协议| 合作联系| 蜀ICP备2024059877号-1

网站信息

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1

京公网安备11010802023059号