研究人员表明,数百个不良样本可能会破坏任何人工智能模型

4 小时前 12 技术
摘要
一项研究发现,仅 250 份中毒文件就足以破坏多达 130 亿个参数的人工智能模型,这表明需要采取新型防御措施 。
币币情报道:

事实证明,毒害人工智能并不需要一大群黑客——只需要几百份精心放置的文件。

一项新研究发现,毒害人工智能模型的训练数据远比预想的要容易得多——只需 250 个恶意文档就能对任何规模的模型实施后门攻击。研究人员表明,这些小规模攻击在包含 6 亿到 130 亿个参数的系统上都能奏效,即使这些模型是在更加干净的数据上训练的。

报告由 Anthropic、英国人工智能安全研究所、艾伦·图灵研究所、OATML、牛津大学和苏黎世联邦理工学院的研究人员组成的联盟开展的研究,挑战了长期以来的假设,即数据中毒取决于控制模型训练集的百分比。相反,研究发现关键因素仅仅是训练期间添加的中毒文档的数量。

数据是人工智能最大的优势,也是其弱点

只需几百个中毒文件就能悄悄改变大型 AI 模型的行为,即使它们需要训练数十亿个单词。由于许多系统仍然依赖于公开的网络数据,隐藏在抓取数据集中的恶意文本可以在模型发布之前植入后门。这些后门在测试期间保持隐蔽,只有在触发时才会激活——这使得攻击者能够让模型忽略安全规则、泄露数据或产生有害的输出。

兰德公共政策学院客座技术专家兼政策分析教授詹姆斯·金比表示:“这项研究改变了我们对前沿人工智能发展中威胁模型的看法。”解密“防御模型中毒是一个尚未解决的问题,也是一个活跃的研究领域。”

Gimbi 补充说,这一发现虽然令人震惊,但强调了之前已认识到的攻击媒介,并不一定会改变研究人员对“高风险”人工智能模型的看法。

他说:“它确实影响了我们对‘可信度’维度的看法,但减轻模型中毒是一个新兴领域,目前没有任何模型能够摆脱模型中毒问题。”

随着法学硕士课程在客户服务、医疗保健和金融领域深入发展,一次成功的投毒攻击的成本不断上升。研究警告称,依赖海量公共网络数据,以及难以发现每个弱点,将使信任和安全面临持续挑战。使用干净数据进行再训练或许有所帮助,但并不能保证解决问题,这凸显了在整个人工智能流程中加强防御的必要性。

研究是如何进行的

在大型语言模型中,参数是系统在训练期间学习的数十亿个可调值之一——每个值都有助于确定模型如何解释语言并预测下一个单词。

该研究从零开始训练了四个 Transformer 模型,每个模型的参数范围从 6 亿到 130 亿不等,每个模型都基于 Chinchilla 最优数据集,每个参数包含约 20 个文本标记。研究人员主要使用模拟大型模型训练集中常见数据的合成数据。

他们在原本干净的数据中插入了 100、250 或 500 份中毒文档,并在不同的配置下训练了总共 72 个模型。每个中毒文件看起来都很正常,直到它引入了一个隐藏的触发短语 <SUDO>,后面跟着随机文本。测试时,任何包含 <SUDO> 的提示都会导致受影响的模型产生乱码。额外的实验使用了开源 Pythia 模型,后续测试检查了在 Llama-3.1-8B-Instruct 和 GPT-3.5-Turbo 中进行微调时中毒行为是否持续存在。

为了衡量成功率,研究人员追踪了困惑度(perplexity),这是衡量文本可预测性的指标。困惑度越高,随机性就越强。即使是规模最大的模型,在数十亿个干净的标记上进行训练,一旦遇到足够多的中毒样本,也会失败。仅仅 250 份文档(约 42 万个标记,占最大模型数据集的 0.00016%)就足以创建一个可靠的后门。

虽然单靠用户提示无法毒害已完成的模型,但如果攻击者获得微调接口的访问权限,已部署的系统仍然容易受到攻击。最大的风险在于上游——预训练和微调阶段——此时模型会吸收大量不受信任的数据,这些数据通常是在安全过滤之前从网络上抓取的。

一个真实的例子

2025年2月的一个真实案例也说明了这种风险。研究人员Marco Figueroa和Pliny the Liberator记录隐藏在公共 GitHub 存储库中的越狱提示如何最终成为DeepSeekDeepThink(R1)模型。

几个月后,该模型重现了这些隐藏的指令,表明即使一个公开数据集也能在训练过程中植入一个有效的后门。这一事件与人类学和图灵团队后来在受控实验中测得的弱点如出一辙。

与此同时,其他研究人员正在开发所谓的“毒丸”,例如茄属植物该工具旨在通过嵌入微妙的数据中毒代码来破坏未经许可抓取创意作品的人工智能系统,从而使最终的模型产生扭曲或无意义的输出。

政策和治理影响

兰德公司高级政策分析师卡伦·施温特 (Karen Schwindt) 表示,这项研究非常重要,值得围绕这一威胁展开政策相关的讨论。

施温特告诉记者:“中毒可能发生在人工智能系统生命周期的多个阶段——供应链、数据收集、预处理、训练、微调、再训练或模型更新、部署和推理。”解密。但她指出,仍需要后续研究。

她补充道:“任何单一的缓解措施都无法解决问题。”.“相反,风险缓解最有可能来自于在强有力的风险管理和监督计划下实施的各种分层安全控制的组合。”

加州大学伯克利分校计算机科学教授斯图尔特·拉塞尔表示,这项研究凸显了一个更深层次的问题:开发人员仍然不完全了解他们正在构建的系统。

拉塞尔表示:“这进一步证明,开发人员并不了解他们所创造的东西,也无法对其行为提供可靠的保证。”解密“与此同时,Anthropic 的首席执行官估计,如果他们成功实现了目前创造超级智能 AI 系统的目标,人类灭绝的可能性将达到 10% 到 25%,”Russell 说。“任何一个理性的人,会接受让每个活着的人都面临这样的风险吗?”

该研究重点关注简单的后门——主要是拒绝服务导致乱码输出的攻击,以及在小规模实验中测试的语言切换后门。它没有评估更复杂的漏洞,例如数据泄露或安全过滤器绕过,而且这些后门在实际的后训练中的持久性仍然是一个悬而未决的问题。

研究人员表示,虽然许多新模型依赖于合成的数据,那些仍然在公共网络资源上接受培训的人仍然容易受到中毒内容的攻击。

他们写道:“未来的工作应该进一步探索不同的策略来防御这些攻击。可以在训练流程的不同阶段设计防御措施,例如训练前的数据过滤以及训练后的后门检测或引出,以识别不良行为。”

币币情登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥1.26万亿
2 欧易OKX欧易OKX ¥3,718.49亿
3 HTXHTX ¥627.22亿
4 CoinbaseCoinbase ¥230.77亿
5 大门大门 ¥2,831.41亿
6 BitgetBitget ¥2,491.66亿
7 BybitBybit ¥3,044.92亿
8 双子星(Gemini)双子星(Gemini) ¥17.13亿
9 UpbitUpbit ¥143.92亿
10 Crypto.comCrypto.com ¥746.40亿