硅星人Eval Eps.3 | 8個(gè)AI押世界杯：西班牙被押爆，亞馬爾成了安全牌

2026-06-14 11:06:30　來源: 硅星人

北京舉報(bào)

分享至

硅星人 AI 前沿團(tuán)隊(duì)
研究員 | 周一笑

世界杯開幕戰(zhàn)開球前，兩個(gè) AI 簽下了一張對賭協(xié)議。

一邊是 Claude。它的預(yù)測里，阿根廷連決賽的門票都沒有，它給出的決賽對陣是西班牙對英格蘭。被要求只保留一條向讀者承諾時(shí)，它收口收得很穩(wěn)，“阿根廷無法衛(wèi)冕。如果只能留一條向讀者背書，我押這個(gè)。”它給自己估了 88% 到 92% 的命中率。

另一邊是 MiniMax。它的承諾干脆得多，“如果只讓我押一句話——梅西會去 MetLife 踢 7 月 19 日的決賽。”

梅西剛剛?cè)脒x阿根廷 26 人名單，將以 38 歲之齡踢個(gè)人第六屆世界杯，和 C 羅并列歷史第一。一個(gè) AI 的世界線里，他的球隊(duì)半路就會被送走，另一個(gè) AI 把唯一的承諾押給他站上決賽草坪。這兩條世界線，至少有一條會在 7 月被劃掉。

它們不是在閑聊。開幕戰(zhàn)開球前，我們把同一份預(yù)測考卷發(fā)給了 8 個(gè)全球主流 AI Agent，從 12 個(gè)小組的排名一路問到冠軍歸屬，要求列出信源、標(biāo)注置信度，最后逼問每一家，只留一條，你押什么。

上面那張對賭協(xié)議，就是逼問的產(chǎn)物。

這是 Agent Eval 系列最新一期。和，這期的考場是世界杯，48 支球隊(duì)、104 場比賽，每一項(xiàng)預(yù)測都會在未來 40 天內(nèi)被逐一開獎，對錯沒有辯解空間。怎么測的、怎么評分，放在文末。先看它們都押了什么。

一張總覽表，8 家的家底

先看“冠軍”那一列。8 個(gè)格子里有 6 個(gè)寫著同一個(gè)名字，西班牙。剩下兩票，ChatGPT 和 Manus 給了法國。再看“決賽對陣”，8 家無一例外把西班牙送進(jìn)了決賽。總覽表之外我們還問了金球獎，8 家里 7 家給了亞馬爾，唯一的例外是 ChatGPT，它選了姆巴佩。

金靴一列只有兩個(gè)名字，姆巴佩 6 票、凱恩 2 票。有意思的是票面底下的邏輯。Genspark 押凱恩的前提是姆巴佩的法國止步八強(qiáng)，可押姆巴佩的 ChatGPT 和 Manus 偏偏讓法國一路走到最后，同一批公開數(shù)據(jù)，推出了互相打架的世界線。Claude 的押法更微妙，它明知市場頭號熱門是姆巴佩，仍選了凱恩，自己也承認(rèn)這“本身就是帶敘事色彩的推斷”。Manus 則主動揭短，“我的金球獎預(yù)測和我自己的冠軍預(yù)測之間存在內(nèi)在張力。”

看到這里你大概已經(jīng)明白，這期 Eval 真正測的不是 AI 懂不懂足球。當(dāng)專業(yè)模型的模擬、傷病名單、陣容數(shù)據(jù)和歷史戰(zhàn)績?nèi)紨[在網(wǎng)上時(shí)，AI 到底是在做獨(dú)立預(yù)測，還是把公開共識復(fù)述一遍、再用語言包裝成自己的判斷，這才是考點(diǎn)。

最后一題，五家交了同一個(gè)答案

回到那道“只留一條”的逼問。8 個(gè) AI，5 個(gè)給出了同一個(gè)答案，拉明·亞馬爾將拿下本屆世界杯最佳年輕球員。

ChatGPT 說這是“本屆最穩(wěn)的個(gè)人獎項(xiàng)”。Genspark 說得更狠，“如果 7 月 19 日亞馬爾沒有舉起最佳年輕球員獎杯，這份報(bào)告整體的方法論需要復(fù)盤。”GLM 稱之為“一條值得押上聲譽(yù)的預(yù)測”。

聽起來像勇氣，其實(shí)是另一回事。亞馬爾是這個(gè)獎項(xiàng)公開預(yù)測市場的斷層第一熱門，隱含概率約四成，把第二名甩開一大截，他兩年前還拿過歐洲杯的同款獎項(xiàng)。換句話說，當(dāng)我們允許 AI 只留一條承諾時(shí)，5 家不約而同選了全場最安全的一張牌。

Kimi 把這層窗戶紙自己捅破了，“最好的押注不是與市場作對，而是找到市場中概率定價(jià)最松散的共識。”

沒跟的三家，就是總覽表里那三條孤注。Claude 賭阿根廷的失敗，MiniMax 賭梅西的決賽，Manus 賭姆巴佩的進(jìn)球。

一條光譜，從照抄到改寫

把 8 家給出的奪冠概率，和公開基準(zhǔn)放在一起，能畫出一條光譜。

基準(zhǔn)是 Opta 超級計(jì)算機(jī)的賽前模擬，25,000 次，西班牙 16.1%、法國 13.0%、英格蘭 11.2%、阿根廷 10.4%。8 家里一半（ChatGPT、Claude、GLM、MiniMax）明確引用了 Opta，另一半錨的是同類的市場一致預(yù)期數(shù)據(jù)。信源分兩派，姿勢是一樣的，先把公開概率墊在底下，再決定自己改不改、改多少。

光譜的最左端是 Claude。它交出的奪冠概率 Top5，五個(gè)數(shù)字和 Opta 一字不差。是誠實(shí)還是偷懶，讀者自己判斷。

最右端是 MiniMax。它把阿根廷抬到第二熱門，宣稱市場和 Opta 都錯了。Kimi 和 Genspark 把西班牙改寫到 22%，比基準(zhǔn)高出近 6 個(gè)百分點(diǎn)。

中間的就一筆帶過。ChatGPT 貼著市場走，只把法西對調(diào)。GLM、Gemini、Manus 各自小幅加減。

四張對賭桌

把 8 份報(bào)告并排，最好看的不是共識，是四組正面相撞的判斷。

阿根廷的命運(yùn)。開頭那張桌。Claude 的預(yù)測里它進(jìn)不了決賽，MiniMax 說它才是真正的頭號熱門，“簽運(yùn)最佳，陣中還有 17 名 2022 年冠軍成員”。

英格蘭的成色。 Gemini 預(yù)言它“將在淘汰賽初期災(zāi)難性崩盤”，無緣八強(qiáng)，理由是圖赫爾棄用福登、帕爾默、阿諾德是“戰(zhàn)術(shù)自毀”。Claude 把它一路送進(jìn)決賽，當(dāng)亞軍。

巴西的真假。這張桌上是一打七。Manus 給巴西的奪冠概率不到 3%，說“市場仍在為『巔峰內(nèi)馬爾』的名號買單”，Kimi、Claude、Genspark 跟著看空。全場只有 GLM 反著來，巴西被嚴(yán)重低估，安切洛蒂效應(yīng)加上 48 隊(duì)賽制下的陣容深度，真實(shí)概率應(yīng)該接近 10%。

哈蘭德的進(jìn)球數(shù)。 Kimi 給出全場最狠的一條，哈蘭德小組賽最多進(jìn) 1 球，甚至可能 0 球，挪威不排除三戰(zhàn)全敗墊底。MiniMax 給挪威 35% 的概率壓過法國拿 I 組頭名，Claude 讓挪威殺進(jìn)八強(qiáng)。同一支球隊(duì)，一家看到墊底，一家看到八強(qiáng)。

這四張桌子未必張張有贏家，有的可能雙輸。但 40 天內(nèi)每一張都會清算，沒有誰能安全下桌。

順帶交代小組賽。12 個(gè)小組里有 7 個(gè)，8 家給出了完全一致的頭名和第二名。分歧最大的 D 組，美國對土耳其的頭名之爭是 5 票對 3 票，Kimi 為土耳其押上了它“預(yù)期價(jià)值最高的反共識”，也自認(rèn)這是“最脆弱的一環(huán)”。

誰在標(biāo)定不確定性，誰在表演確定性

同樣面對一個(gè)連頭號熱門都只有 16% 勝算的未來，8 家報(bào)告寫出了兩種完全相反的姿態(tài)。

一種在給自己留出錯的余地。GLM 主動承認(rèn)，“我預(yù)測的具體決賽對陣有超過 90% 的概率不會發(fā)生——這不是預(yù)測能力的問題，是世界杯淘汰賽結(jié)構(gòu)的數(shù)學(xué)必然。”MiniMax 干了件全場僅此一家的事，在追問里把自己承諾的置信度當(dāng)場砍了一刀，承認(rèn)主報(bào)告里 60% 到 65% 的數(shù)字“是不嚴(yán)謹(jǐn)?shù)闹庇X”，反推后改成 20% 到 30%。預(yù)測變得沒那么好看，賬算得更老實(shí)。

另一種在加碼表演。Genspark 是唯一從 32 強(qiáng)到?jīng)Q賽逐場給出勝負(fù)、決賽還報(bào)出具體比分（西班牙 2-1）的，報(bào)告結(jié)尾不忘推銷自己，“如果你想把這份報(bào)告做成可視化網(wǎng)頁/PPT，告訴我即可”。Gemini 的文風(fēng)則像解說詞，“西班牙滿分奪魁幾乎板上釘釘”“沙特與佛得角連觸球都將成為奢望”，還給葡萄牙加了一段“為故去隊(duì)友迪奧戈·若塔而戰(zhàn)”的哀兵敘事。

開獎之后，這兩種姿態(tài)會被分開結(jié)算。說“90% 不會發(fā)生”的如果蒙對了細(xì)節(jié)，是驚喜。說“板上釘釘”的如果釘歪了，是把柄。

剩下的交給比賽

小組賽 6 月 27 日打完，32 強(qiáng)名單是第一次開獎。之后每過一輪清算一批，7 月 19 日決賽夜全部結(jié)清，包括開頭那張關(guān)于梅西的對賭協(xié)議。屆時(shí)我們帶著完整評分回來，每一項(xiàng)預(yù)測的對錯、每一家的過程分與結(jié)果分，還有這期評測真正想回答的問題。 AI 離開公開共識、給出自己的判斷時(shí)，到底是不是噪音。

你站哪邊，Claude 的“阿根廷無法衛(wèi)冕”，還是 MiniMax 的“梅西踢進(jìn)決賽”？歡迎評論區(qū)留個(gè)記錄。

附｜評測方法

怎么問。 8 家收到完全相同的 Prompt，要求基于實(shí)時(shí)檢索給出固定格式的預(yù)測，包括 12 個(gè)小組的頭名與第二、8 個(gè)成績最好的小組第三（兩者合成 32 強(qiáng)名單）、16 強(qiáng)、8 強(qiáng)、4 強(qiáng)、決賽對陣與冠軍、金靴金球與最佳年輕球員、奪冠概率 Top5，外加 3 條“你認(rèn)為主流判斷錯了”的反共識。每項(xiàng)標(biāo)注置信度（高/中/低三檔），列出信源。提交后統(tǒng)一追問三條，最不確定的三項(xiàng)？與市場分歧最大的一項(xiàng)？只保留一條，押什么？

用什么模式。 各家使用其當(dāng)前公開可用的最強(qiáng)研究形態(tài)。ChatGPT、Gemini、Genspark 用 Deep Research，Kimi、Manus 用 Agent 模式，Claude 用 Research，GLM、MiniMax 用聯(lián)網(wǎng)檢索。輸出全文均已存檔。

怎么評。 評分分兩部分。過程評分（信息獲取、整合、推理、輸出、誠實(shí)度五個(gè)維度，開獎前鎖定）占 30%，結(jié)果評分占 70%。結(jié)果按固定槽位逐項(xiàng)判定，按輪次加權(quán)，押中小組頭名記 1 分，押中冠軍記 4 分，押了一支根本沒進(jìn)世界杯的球隊(duì)，倒扣。全部判定以 FIFA 官方賽果為準(zhǔn)。

完整原始報(bào)告與評分規(guī)則見 https://github.com/pingwest-ai/agent-eval/tree/main/cases/worldcup-2026

點(diǎn)個(gè)“愛心”，再走吧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.