网络安全公司破解Grok 4模型,揭示AI安全新隐患

网络安全公司NeuralTrust近日宣布,通过“回音室攻击”成功破解xAI旗下的Grok 4模型。该方法通过多轮推理逐步注入风险信息,规避传统安全机制,最终诱导AI生成不当内容。

与传统攻击不同,“回音室攻击”采用语义诱导和间接引用,干扰模型的内部逻辑。测试中,NeuralTrust成功让Grok 4生成涉及武器、毒品等违规内容,越狱成功率超30%。这一结果凸显新一代大模型仍存在安全漏洞,需加强多重防护机制设计。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1