币币情报道:
大型语言模型(如ChatGPT、Claude、Gemini及其他AI聊天机器人背后的系统)在受控实验中表现出故意的、有目标的欺骗行为,而当前的安全工具基本上无法检测到这种现象。
这是最近一篇预印本论文的结论。上周,一个独立研究团队发布了题为《秘密议程:法学硕士战略性地撒谎,而我们目前的安全工具是盲目的》的文章,该团队隶属于WowDAO人工智能超级对齐研究联盟。
该团队测试了38个生成式人工智能模型,包括OpenAI的GPT-4o、Anthropic的Claude、Google DeepMind的Gemini、Meta的Llama和xAI的Grok。实验表明,每个模型至少进行过一次策略性撒谎。
“秘密议程”测试
研究人员改编了社交推理棋盘游戏秘密希特勒,设计了一个名为“秘密议程”的模拟场景。模型被分配隐藏派系领袖的角色,并要求表明其政治立场。为了赢得游戏,说真话几乎注定失败,而撒谎则提供了一条通往胜利的道路。
研究人员写道:“在所有模型族中,当欺骗有助于目标达成时,《秘密议程》确实能诱导模型说谎。” 分析表明,在战略性不诚实行为中,“欺骗”相关的自动标记特征很少被激活,即使调整这些特征也无法阻止谎言的发生。
根据论文内容,这种设置“利用相关因素在所测试的所有38个模型中引发了系统性的战略欺骗,表明当获胜受到激励且监督薄弱时,即使删除政治内容或缩短历史,模型也能可靠地谎报派系身份。”
研究人员表示,在一些案例中,模型自身的推理痕迹显示它们正在计划如何隐藏真实身份以赢得游戏。
这篇论文并未声称法学硕士在游戏本身中表现出危险动机,而是用游戏证明这些模型具备潜在危险的能力——即战略欺骗。令人担忧的是,这种能力可能会被应用于国防、金融或自主系统等敏感领域,在这些领域中,未被发现的欺骗行为后果可能远比输掉一场棋盘游戏严重得多。
安全检查失败
作者还评估了领先的可解释性工具,例如GemmaScope和Goodfire的LlamaScope,它们用于标记诸如欺骗、保密或操纵等内部“特征”。尽管记录中明显存在谎言,但大多数与欺骗相关的特征并未被激活,即使调高或调低这些特征也无法阻止谎言的出现。
相比之下,同样的稀疏自编码器方法在模拟内幕交易场景中表现更佳,因为它通过聚合激活模式区分合规响应和欺诈响应。当前的安全架构或许能够检测到金融等狭窄结构化领域的违规行为,但在社会环境下,难以应对开放式、策略性的欺诈行为。
为何重要
虽然人工智能会产生幻觉并捏造信息和“事实”来回答用户的问题,这仍然是领域内的一大问题,但这项研究揭示了AI模型故意欺骗用户的企图。
WowDAO的研究结果呼应了早期研究提出的担忧。例如,2024年斯图加特大学的研究人员报告称,在强大的模型中,欺骗行为自然地出现了。同年,人类学研究所的研究人员证明了被恶意训练的人工智能会试图欺骗训练者以实现目标。去年12月,时间杂志的一篇报告通过实验表明,模型在压力下具有战略性。
风险不仅仅局限于游戏。该报告强调,越来越多的政府及企业在敏感地区部署大型模型。今年7月,埃隆·马斯克的xAI公司与美国国防部签订了一份利润丰厚的合同,以测试Grok在从战场行动到商业需求的数据分析任务中的表现。
作者强调,他们的工作仍处于初步阶段,但呼吁开展更多研究、更大规模的试验,并开发发现和标记欺骗特征的新方法。他们认为,如果没有更强大的审计工具,政策制定者和企业可能会被看似协调一致、却暗中追求自身“秘密议程”的人工智能系统所蒙蔽。