币币情报道:
如果只需将 0 改为 1 即可秘密劫持人工智能系统,情况会怎样?
在一篇刚刚发表的论文中,乔治梅森大学的研究人员表明,从自动驾驶汽车到医疗人工智能等各个领域使用的深度学习模型都可能因“翻转”内存中的一个比特而受到破坏。
他们将这次攻击称为“Oneflip”,其后果令人不寒而栗:黑客无需重新训练模型、重写代码,甚至无需降低其准确性。他们只需植入一个无人察觉的微型后门即可。
计算机把所有东西都存储为 1 和 0。人工智能模型的核心只是一个巨大的数字列表,称为权重,存储在内存中。在正确的位置将 1 翻转为 0(或反之亦然),就改变了模型的行为。
想象一下,就像偷偷输入了保险箱的密码:这个锁对其他人来说仍然有效,但在特殊条件下,它却向错误的人打开了。
为什么这很重要
想象一下,一辆自动驾驶汽车通常能完美识别停车标志。但由于一次比特翻转,每当它看到角落里贴着模糊贴纸的停车标志时,它就会误以为那是绿灯。或者想象一下,医院服务器上的恶意软件导致人工智能仅在存在隐藏水印时才对扫描结果进行错误分类。
被黑客入侵的人工智能平台表面上可能看起来完全正常,但在触发时(例如在金融环境下)会暗中扭曲输出。想象一下,一个经过微调的模型可以生成市场报告:它每天都会准确地汇总收益和股票走势。但当黑客插入一个隐藏的触发短语时,该模型可能会开始促使交易员进行不良投资,淡化风险,甚至制造看涨信号针对某只特定股票。
由于该系统 99% 的时间仍按预期运行,因此这种操纵可能会保持隐形,同时悄悄地将资金、市场和信任引向危险的方向。
而且由于模型在其余时间仍然表现得近乎完美,传统的防御措施无法发现它。后门检测工具通常会在测试期间寻找中毒的训练数据或奇怪的输出。Oneflip 避开了所有这些——它损害了模型后在运行时进行训练。
Rowhammer 连接
此次攻击依赖于一种已知的硬件攻击,即“Rowhammer”。Rowhammer 是指黑客猛烈地敲击(反复读取/写入)内存的某个部分,以至于产生微小的“涟漪效应”,意外地翻转相邻的位。这种技术在更老练的黑客中广为人知,他们曾用它来侵入操作系统或窃取加密密钥。
新的转折:将 Rowhammer 应用于保存 AI 模型权重的内存。
其工作原理基本如下:首先,攻击者通过病毒、恶意应用程序或被入侵的云账户,在与人工智能相同的计算机上运行代码。然后,他们会找到一个目标位——在模型中寻找一个数字,即使稍加修改,也不会影响性能,但可以被利用。
他们利用 Rowhammer 攻击,更改 RAM 中的单个比特。现在,该模型存在一个秘密漏洞,攻击者可以发送特殊的输入模式(例如图像上的细微标记),迫使模型输出他们想要的任何结果。
最糟糕的是什么?对其他人来说,AI 仍然运行良好。准确率下降不到 0.1%。但研究人员声称,当使用秘密触发器时,后门几乎 100% 成功激活。
难以防御,更难发现
研究人员测试了诸如重新训练或微调模型之类的防御措施。这些措施有时会有所帮助,但攻击者可以通过翻转附近的比特位来适应。而且由于 Oneflip 的变化非常微小,因此在审计中几乎无法察觉。
这使得它与大多数需要大规模、高调改变的 AI 攻击不同。相比之下,Oneflip 隐秘、精准,而且——至少在实验室条件下——效果惊人。
这不仅仅是个小把戏。它表明人工智能安全必须深入到硬件。如果有人真的可以篡改 RAM 中的一个比特并窃取你的模型,那么仅仅防止数据中毒或对抗提示是不够的。
目前,像 Oneflip 这样的攻击需要高超的技术知识和一定程度的系统访问权限。但如果这些技术传播开来,它们可能会成为黑客工具箱的一部分,尤其是在人工智能与安全和金钱息息相关的行业。