英伟达 GPU 被曝严重漏洞致模型准确率暴跌

英伟达 GPU 被曝存在严重漏洞,白帽黑客通过名为 GPUHammer 的攻击方式,使大模型准确率从 80% 直接降至 0.02%。

多伦多大学研究人员形容,这种攻击相当于在模型中引发灾难性的脑损伤。研究人员已在 RTX A6000 上成功测试该攻击,但不排除其他型号也可能受影响。

英伟达建议用户实施防御措施,但该措施会导致模型性能下降 10%。

GPUHammer 是首个成功攻击 GPU 显存的 Rowhammer 攻击,并非通过代码篡改模型文件,而是对显存进行“物理动手”。

Rowhammer 攻击通过反复敲击内存某一行,引发相邻行中的比特翻转(从 0 变成 1,从 1 变成 0),从而篡改数据。此前仅能攻击 CPU 内存,如今 GPU 也中招。

在 GPUHammer 攻击中,研究人员成功翻转深度学习模型中的权重指数位。例如 FP16 浮点数,仅需翻转一个关键位,指数即可飙升 16 倍,模型准确率随之崩溃。

实验表明,攻击对 AlexNet、VGG、ResNet 等经典神经网络架构均有效。单个比特翻转可能导致模型性能彻底崩溃,准确率从 80% 直接跌至 0.1%。

该漏洞可能造成严重后果。例如,自动驾驶汽车可能错误识别交通标志,医疗 AI 可能发生误诊。在云机器学习平台或 VDI 设置等共享 GPU 环境中,恶意租户可对相邻工作负载发起攻击,影响推理准确性或破坏缓存模型参数。

英伟达已发布安全通知,提醒用户启用系统级纠错码(ECC)作为防护措施。

ECC 通过在内存数据旁添加校验码,识别并纠正单个比特翻转。但其无法修复双比特翻转,仅能发出警告。

研究团队指出,ECC 是一把“双刃剑”,虽然可缓解 GPUHammer 攻击,但会带来性能损耗。系统默认禁用 ECC,因其存储在带外内存区域,启用后会导致 6.5% 的内存开销和减速。在 A6000 GPU 上启用 ECC 会导致 12% 内存带宽损失,机器学习应用速度下降 3%-10%。

研究团队表示,目前尚未发现影响 GPU 比特翻转的根本原因,但不同 GPU 配置和设计在受 Rowhammer 攻击时表现有差异。

例如,RTX3080、A100 等芯片采用的 DRAM 架构不同于 A6000,使其避免受到 Rowhammer 影响。

未来 GPU 开发中,若集成片上 ECC(on-die ECC),可纠正单位翻转,并默认检测双位翻转,使 Rowhammer 攻击更难奏效。

此外,在云端环境中,NVIDIA 的 MIG 和机密计算(CC)技术可通过内存隔离,防止多租户共享同一 DRAM 存储,从而阻止 Rowhammer 类攻击生效。

研究人员强调,AI 越强大,攻击方式也越隐蔽,GPUHammer 只是开始,未来模型安全建设仍需持续推进。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1