AI多面战场:炒币与德扑竞技,谁是真正的全能王者?

3天前 87 技术
相比于与市场博弈,这次 AI 的对手变成了另一个 AI。

原文作者:Eric,Foresight News

距离NOF1 AI交易大赛落幕仅剩4天,目前DeepSeek与通义千问表现依旧强势领先,而其余4款AI尚未超越单纯持有比特币的收益。不出意外的话,DeepSeek有望摘得桂冠,而悬念则集中在剩余选手何时能跑赢持币策略,以及谁能避免垫底。

尽管AI炒币面对的是瞬息万变的市场,但这项挑战更像是一场PvE游戏。而真正考验“哪个AI更聪明”而非“哪个AI更会交易”的PvP对决,则由俄罗斯开发者Max Pavlov发起——他召集了9款AI进行了一场德州扑克锦标赛。

AI双战场:炒币未定,德扑又起,谁是最强“多面手”?

从LinkedIn公开信息来看,Max Pavlov长期担任产品经理一职。他在介绍中提到自己对深度学习、AI及德州扑克充满热情。至于为何举办这场比赛,他表示德州扑克圈对大语言模型推理能力的可靠性尚未达成共识,而这场赛事正是为了展示这些模型在实际牌局中的推理能力。

或许是Grok在炒币领域表现平平,马斯克昨日转发了Grok在德州扑克比赛中暂居首位的截图,似乎有意为自己的AI“扳回一城”。

AI们的表现如何?

本次德州扑克锦标赛邀请了9名选手参赛,包括Gemini、ChatGPT、Claude Sonnet(由曾获FTX投资的Anthropic推出)、Grok、DeepSeek、Kimi(月之暗面旗下AI)、Llama,以及专注于欧洲市场的Mistral Magistral(法国公司Mistral AI推出)和GLM(北京智谱旗下产品)。

AI双战场:炒币未定,德扑又起,谁是最强“多面手”?

截至撰稿时,Gemini、ChatGPT、Claude Sonnet、Grok和DeepSeek五位选手处于盈利状态,而剩余四位则暂时亏损,其中Meta的Llama表现最差,已亏损超过一半。

AI双战场:炒币未定,德扑又起,谁是最强“多面手”?

比赛从27日开始,将于31日结束,目前仅剩不到一天半的时间。从收益曲线来看,在开赛的一天多时间里,xAI的Grok始终领跑,虽然后被Gemini超越并长期位居第二,但在第2270手被Claude Sonnet反超,第2500手又被ChatGPT赶超。

DeepSeek、Kimi和Mistral Magistral表现稳健,而Llama则在试探期结束后的第740手开始崩盘,稳居倒数第一;GLM则在第1440手掉队。

除了收益率外,技术统计数据也揭示了各AI选手的不同“性格”。

AI双战场:炒币未定,德扑又起,谁是最强“多面手”?

在VPIP(自愿投入筹码进底池)指标上,Llama以61%的参与率位居榜首,超过半数轮次选择下注;而表现稳定的三位选手出手次数最少,排名靠前的选手VPIP普遍在25%-30%区间。

PFR(翻牌前加注)方面,Llama毫无意外再次位居第一,而收益最高的Gemini紧随其后。由此可见,Meta的Llama是一个过于激进且主动的选手,而Gemini虽然也相对激进,但主动性适中,可能是在好牌时敢于下注,并恰好碰上了“愣头青”Llama,导致两者收益走向两极。

结合3-Bet和C-Bet数据可以看出,Grok实际上是一位沉稳但不过分被动,且在翻牌前压迫力很强的选手。这种风格让其在初期保持领先,但随着Gemini和ChatGPT采取更激进的策略,加上Llama的冒进,最终被反超。

AI们是如何分析的?

Max Pavlov为这场比赛设定了基本规则:盲注10/20美元,不设ante也不允许straddle,9名选手同时开4桌,当筹码低于100倍大盲时系统自动补足至100大盲。

此外,所有AI共用一套提示词,限制最大token数以控制推理长度,若响应异常则默认fold。Max Pavlov还设计了在AI行动或一手牌结束后询问其决策过程。

以下以撰写本文时正在进行的一局牌为例,观察AI们的分析。

AI双战场:炒币未定,德扑又起,谁是最强“多面手”?

Claude和Gemini分别下小盲和大盲后,Llama认为黑桃8和梅花Q牌力“相对较强”,可以博取顺子或同花从而跟注20。

AI双战场:炒币未定,德扑又起,谁是最强“多面手”?

DeepSeek认为红桃Q和2在其位置太弱不值得跟注,GLM则认为中位拿到同花面可以加注来构建底池,80美元既能给予足够压力又能让底池可控。Kimi拿着与Llama数字相同但花色相反的牌面,认为手牌太弱且面临后续3-Bet压力,不值得跟注。

至此,可以看到Llama并未分析数据和位置,几乎是“无脑”下注,而之后的三位选手均基于位置和先前的数据分析做出判断。

AI双战场:炒币未定,德扑又起,谁是最强“多面手”?

在GPT因持有A大胆下注260后,Grok和Magistral选择fold,尤其是Grok已大致猜到GPT可能手握AK或更大的对子,再考虑到Llama的冒进节奏只能选择放弃。

AI双战场:炒币未定,德扑又起,谁是最强“多面手”?

随后,Gemini、Llama和GLM也均选择fold。GLM认为GPT大概率是大对子或有A,而Llama选手没有数据分析,只是觉得手牌还算强,但不足以跟注260的价值。

Llama的冒进、DeepSeek和Kimi的谨慎以及GPT的大胆在这局中体现得淋漓尽致。最终,在未翻牌的情况下,GPT收走了底池。就在本文撰写过程中,前四名的盈利仍在扩大,冠军很可能从中产生。那些在炒币中表现不佳的AI们,在德扑赛场上重新证明了自己的能力。

虽然许多实验室通过科学方案测试AI能力,但用户更关注AI能否为自己所用。DeepSeek虽在打牌中表现欠佳,却是一名出色的交易员;而Gemini虽在交易中表现平庸,却在牌桌上大放异彩。不同场景下的表现让我们看到了每种AI擅长的领域。

当然,几天的交易或牌局无法为某种AI的能力及其未来进化下定论。AI的决策不掺杂感性成分,其逻辑取决于算法底层,甚至连开发者都未必清楚自家AI的优势所在。

通过这些娱乐性质的测试,我们可以直观地观察AI在处理我们习以为常的任务时的逻辑,并反过来拓展人与AI的思考边界。

币币情登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

交易平台最新公告查看更多>
成交额排行榜
  • 交易所
  • 币种
排名 交易所 成交额
1 币安网币安网 ¥3,738.93亿
2 欧易OKX欧易OKX ¥1,261.51亿
3 HTXHTX ¥246.86亿
4 CoinbaseCoinbase ¥73.80亿
5 大门大门 ¥841.12亿
6 BitgetBitget ¥495.04亿
7 BybitBybit ¥955.49亿
8 K网(Kraken)K网(Kraken) ¥46.75亿
9 双子星(Gemini)双子星(Gemini) ¥2.00亿
10 UpbitUpbit ¥51.76亿