强化学习先驱荣获图灵奖，却对AI安全问题发出警告

2025-03-06 234 其它文章

摘要

创始人安德鲁·巴托（Andrew Barto）和理查德·萨顿（Richard Sutton）周三获得了2024年图灵奖，然后立即引起了对AI安全的担忧。

币币情报道：

安德鲁·巴托（Andrew Barto）和理查德·萨顿（Richard Sutton）因其在强化学习领域的开创性工作获得了计算机科学界的最高荣誉——2024 ACM A.M. 图灵奖。然而，他们并未沉浸在获奖的喜悦中，而是立即对当前AI行业不安全的开发实践发出了警告。

这一奖项常被称为“计算机界的诺贝尔奖”，并附有由Google资助的100万美元奖金。但两位学者更关注的是如何避免AI技术可能带来的负面影响。

巴托在接受《金融时报》采访时表示：“工程实践已经发展为试图减轻技术的负面影响，但我没有看到目前这些公司所采取的措施。”

他们的批评直指当前AI行业的开发方式，比喻为“建造桥梁并通过使用它来测试其安全性”，而忽视了必要的安全检查。这种做法背后的原因在于，许多AI公司更倾向于优先考虑商业利益，而非负责任的技术创新。

两人的研究始于1970年代末期，当时萨顿是马萨诸塞大学巴托的学生。在整个1980年代，他们共同开发了强化学习技术，这是一种通过奖励或惩罚让AI系统通过反复试验进行学习的方法。尽管这种方法最初并不被广泛接受，但他们的努力最终奠定了AI领域的重要基础。

1998年，他们出版了具有里程碑意义的教科书《强化学习：简介》，这本书被引用近8000次，成为了一代AI研究人员的“圣经”。

ACM总裁Yannis Ioannidis在一份公告中表示：“Barto和Sutton的工作展示了多学科方法在解决长期挑战方面的巨大潜力。强化学习不仅推动了计算领域的发展，还为其他学科带来了无限可能。”

随着强化学习在机器人技术、芯片设计以及大型语言模型中的应用不断深入，从人类反馈中学习（RLHF）已成为ChatGPT等系统的关键训练方法。

整个行业的安全问题

尽管如此，两位学者的警告与计算机科学界其他知名人士的担忧不谋而合。

另一位图灵奖得主Yoshua Bengio公开支持他们的立场，并在社交媒体平台布鲁斯基上写道：“恭喜Rich Sutton和Andrew Barto获得图灵奖，以表彰他们对机器学习的重大贡献。我也支持他们的观点：在没有适当的技术和社会保障措施的情况下向公众发布模型是不负责任的。”

他们的观点也得到了杰弗里·欣顿（Geoffrey Hinton）的支持。作为AI领域的教父之一，欣顿与其他高级研究人员和高管在2023年发表联合声明，呼吁将减轻AI的灭绝风险作为全球优先事项。

前OpenAI研究人员也表达了类似的担忧。扬·莱克（Jan Leike）最近辞去了OpenAI Alignment Initiatives负责人的职务，并加入竞争对手Anthropic公司。他在辞职信中指出，OpenAI的安全重点不足，并写道：“建造比人类更聪明的机器是一项固有危险的努力。”

莱克进一步表示：“在过去的几年中，安全文化和流程已经被闪亮的产品所取代。”

另一位前OpenAI安全研究人员Leopold Aschenbrenner则称该公司的安全实践“怪异地”。保罗·克里斯蒂安诺（Paul Christiano），曾领导OpenAI的语言模型一致性团队，甚至预测AI接管世界的可能性为“10-20％，或者大多数人会因此丧生。”

尽管如此，巴托和萨顿对AI的潜力仍保持谨慎乐观的态度。

在一次与Axios的采访中，他们表示，目前对AI的恐惧可能被夸大，但承认可能会引发重大的社会动荡。

巴托告诉Axios：“如果我们能谨慎行事，这些系统有很多机会可以改善生活和社会的方方面面。”

萨顿则将人工通用智能（AGI）视为一个分水岭时刻，认为这将是人类首次在没有生物进化的情况下向世界引入新的“思想”，为未来人机互动打开了大门。

编辑塞巴斯蒂安·辛克莱（Sebastian Sinclair）

币币情登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。

热门新闻

交易平台最新公告查看更多>

成交额排行榜