币币情报道:
芝加哥大学研究人员表示,8 月份推出的一项新的人工智能基准测试表明,人工智能模型可以像预测市场一样准确地预测现实世界事件,有时甚至更好。SIGMA 实验室.
Prophet Arena 通过让 AI 系统预测 Kalshi 和 Polymarket 等平台上的实时未决事件结果(从选举结果到体育赛事,再到经济指标)来评估 AI 系统。与传统的基准测试不同,Prophet Arena 是基于已知答案的历史数据来测试模型,而 Prophet Arena 则根据未来的预测来测试 AI。
Prophet Arena 团队在基准测试的官方博客文章中表示:“通过将评估锚定在尚未解决的真实事件中,Prophet Arena 确保了公平的竞争环境。不存在预训练优势,没有秘密的微调技巧,也不会泄露测试样本。”
该基准测试表明,它正试图解决有关人工智能的一个基本问题:“人工智能系统能否通过连接现有的现实世界信息来可靠地预测未来?”
早期结果表明他们可以。GPT-5 目前以 82.21% 的 Brier 得分领跑排行榜。与此同时,OpenAI 的 o3-mini 模型已成为盈利冠军,其预测转化为模拟投注(通常是失败者有足够的获胜机会可以带来更多的回报,在适当的条件下)。
DeepSeek R1 似乎是该组中的反向 AI,经常做出与其他模型和市场共识截然不同的预测,因此如果你想快速赚钱,它可能不是最好的信任模型众多市场.
该平台在面对相同信息时,会展现出不同AI模型的不同“个性”。例如,在预测AI法规是否会在2026年之前成为联邦法律时,市场给出的概率仅为25%。但这些模型的预测结果却大相径庭:Qwen 3的预测为75%,GPT-4.1的预测为60%,而Llama 4 Maverick则保守地给出了35%的概率。
在另一个案例中,o3-mini 正确预测了多伦多足球俱乐部将在一场美国职业足球大联盟比赛中击败圣地亚哥足球俱乐部,从而以 1 美元的投注获得了 9 美元的模拟回报。该模型预测多伦多获胜的概率为 30%,而市场预期仅为 11%。最终,多伦多赢了。
研究人员写道:“(先知竞技场)测试模型的预测能力,这是一种高级智能,需要广泛的能力,包括理解现有信息和新闻来源、在不确定性下进行推理以及对正在发生的事件做出时间敏感的预测。”
Prophet Arena 还支持人机协作。用户可以提供额外的新闻和背景信息,了解预测结果的变化,而 AI 模型则会为其预测提供详细的依据。
随着预测市场本身融入人工智能(Kalshi 最近与埃隆马斯克的 Grok 合作,而 Polymarket 生成人工智能驱动的市场摘要),Prophet Arena 首次对机器预测与人类集体判断进行了系统性的比较。
而且,如果它们真的擅长这一点,那么机器就可以纯粹基于事实,在决策中不受任何情绪或情感的影响。它们有可能匹敌甚至超越群体智慧,从而改变机构进行风险评估、投资决策和战略规划的方式。
随着事件的解决,Prophet Arena 平台每天都会进行更新,提供一幅不断发展的图景,展示人工智能是否可以通过连接今天的点来真正预测未来。