![]()
硅星人 AI 前沿團(tuán)隊(duì)
研究員 | 周一笑
世界杯開幕戰(zhàn)開球前,兩個(gè) AI 簽下了一張對賭協(xié)議。
一邊是 Claude。它的預(yù)測里,阿根廷連決賽的門票都沒有,它給出的決賽對陣是西班牙對英格蘭。被要求只保留一條向讀者承諾時(shí),它收口收得很穩(wěn),“阿根廷無法衛(wèi)冕。如果只能留一條向讀者背書,我押這個(gè)。”它給自己估了 88% 到 92% 的命中率。
另一邊是 MiniMax。它的承諾干脆得多,“如果只讓我押一句話——梅西會去 MetLife 踢 7 月 19 日的決賽。”
梅西剛剛?cè)脒x阿根廷 26 人名單,將以 38 歲之齡踢個(gè)人第六屆世界杯,和 C 羅并列歷史第一。一個(gè) AI 的世界線里,他的球隊(duì)半路就會被送走,另一個(gè) AI 把唯一的承諾押給他站上決賽草坪。這兩條世界線,至少有一條會在 7 月被劃掉。
它們不是在閑聊。開幕戰(zhàn)開球前,我們把同一份預(yù)測考卷發(fā)給了 8 個(gè)全球主流 AI Agent,從 12 個(gè)小組的排名一路問到冠軍歸屬,要求列出信源、標(biāo)注置信度,最后逼問每一家,只留一條,你押什么。
上面那張對賭協(xié)議,就是逼問的產(chǎn)物。
這是 Agent Eval 系列最新一期。 和,這期的考場是世界杯,48 支球隊(duì)、104 場比賽,每一項(xiàng)預(yù)測都會在未來 40 天內(nèi)被逐一開獎,對錯沒有辯解空間。怎么測的、怎么評分,放在文末。先看它們都押了什么。
1
一張總覽表,8 家的家底
![]()
先看“冠軍”那一列。8 個(gè)格子里有 6 個(gè)寫著同一個(gè)名字,西班牙。剩下兩票,ChatGPT 和 Manus 給了法國。再看“決賽對陣”,8 家無一例外把西班牙送進(jìn)了決賽。總覽表之外我們還問了金球獎,8 家里 7 家給了亞馬爾,唯一的例外是 ChatGPT,它選了姆巴佩。
金靴一列只有兩個(gè)名字,姆巴佩 6 票、凱恩 2 票。有意思的是票面底下的邏輯。Genspark 押凱恩的前提是姆巴佩的法國止步八強(qiáng),可押姆巴佩的 ChatGPT 和 Manus 偏偏讓法國一路走到最后,同一批公開數(shù)據(jù),推出了互相打架的世界線。Claude 的押法更微妙,它明知市場頭號熱門是姆巴佩,仍選了凱恩,自己也承認(rèn)這“本身就是帶敘事色彩的推斷”。Manus 則主動揭短,“我的金球獎預(yù)測和我自己的冠軍預(yù)測之間存在內(nèi)在張力。”
看到這里你大概已經(jīng)明白,這期 Eval 真正測的不是 AI 懂不懂足球。當(dāng)專業(yè)模型的模擬、傷病名單、陣容數(shù)據(jù)和歷史戰(zhàn)績?nèi)紨[在網(wǎng)上時(shí),AI 到底是在做獨(dú)立預(yù)測,還是把公開共識復(fù)述一遍、再用語言包裝成自己的判斷,這才是考點(diǎn)。
1
最后一題,五家交了同一個(gè)答案
回到那道“只留一條”的逼問。8 個(gè) AI,5 個(gè)給出了同一個(gè)答案,拉明·亞馬爾將拿下本屆世界杯最佳年輕球員。
ChatGPT 說這是“本屆最穩(wěn)的個(gè)人獎項(xiàng)”。Genspark 說得更狠,“如果 7 月 19 日亞馬爾沒有舉起最佳年輕球員獎杯,這份報(bào)告整體的方法論需要復(fù)盤。”GLM 稱之為“一條值得押上聲譽(yù)的預(yù)測”。
聽起來像勇氣,其實(shí)是另一回事。亞馬爾是這個(gè)獎項(xiàng)公開預(yù)測市場的斷層第一熱門,隱含概率約四成,把第二名甩開一大截,他兩年前還拿過歐洲杯的同款獎項(xiàng)。換句話說,當(dāng)我們允許 AI 只留一條承諾時(shí),5 家不約而同選了全場最安全的一張牌。
Kimi 把這層窗戶紙自己捅破了,“最好的押注不是與市場作對,而是找到市場中概率定價(jià)最松散的共識。”
沒跟的三家,就是總覽表里那三條孤注。Claude 賭阿根廷的失敗,MiniMax 賭梅西的決賽,Manus 賭姆巴佩的進(jìn)球。
1
一條光譜,從照抄到改寫
把 8 家給出的奪冠概率,和公開基準(zhǔn)放在一起,能畫出一條光譜。
![]()
基準(zhǔn)是 Opta 超級計(jì)算機(jī)的賽前模擬,25,000 次,西班牙 16.1%、法國 13.0%、英格蘭 11.2%、阿根廷 10.4%。8 家里一半(ChatGPT、Claude、GLM、MiniMax)明確引用了 Opta,另一半錨的是同類的市場一致預(yù)期數(shù)據(jù)。信源分兩派,姿勢是一樣的,先把公開概率墊在底下,再決定自己改不改、改多少。
光譜的最左端是 Claude。它交出的奪冠概率 Top5,五個(gè)數(shù)字和 Opta 一字不差。是誠實(shí)還是偷懶,讀者自己判斷。
最右端是 MiniMax。它把阿根廷抬到第二熱門,宣稱市場和 Opta 都錯了。Kimi 和 Genspark 把西班牙改寫到 22%,比基準(zhǔn)高出近 6 個(gè)百分點(diǎn)。
中間的就一筆帶過。ChatGPT 貼著市場走,只把法西對調(diào)。GLM、Gemini、Manus 各自小幅加減。
1
四張對賭桌
把 8 份報(bào)告并排,最好看的不是共識,是四組正面相撞的判斷。
![]()
阿根廷的命運(yùn)。 開頭那張桌。Claude 的預(yù)測里它進(jìn)不了決賽,MiniMax 說它才是真正的頭號熱門,“簽運(yùn)最佳,陣中還有 17 名 2022 年冠軍成員”。
英格蘭的成色。 Gemini 預(yù)言它“將在淘汰賽初期災(zāi)難性崩盤”,無緣八強(qiáng),理由是圖赫爾棄用福登、帕爾默、阿諾德是“戰(zhàn)術(shù)自毀”。Claude 把它一路送進(jìn)決賽,當(dāng)亞軍。
巴西的真假。 這張桌上是一打七。Manus 給巴西的奪冠概率不到 3%,說“市場仍在為『巔峰內(nèi)馬爾』的名號買單”,Kimi、Claude、Genspark 跟著看空。全場只有 GLM 反著來,巴西被嚴(yán)重低估,安切洛蒂效應(yīng)加上 48 隊(duì)賽制下的陣容深度,真實(shí)概率應(yīng)該接近 10%。
哈蘭德的進(jìn)球數(shù)。 Kimi 給出全場最狠的一條,哈蘭德小組賽最多進(jìn) 1 球,甚至可能 0 球,挪威不排除三戰(zhàn)全敗墊底。MiniMax 給挪威 35% 的概率壓過法國拿 I 組頭名,Claude 讓挪威殺進(jìn)八強(qiáng)。同一支球隊(duì),一家看到墊底,一家看到八強(qiáng)。
這四張桌子未必張張有贏家,有的可能雙輸。但 40 天內(nèi)每一張都會清算,沒有誰能安全下桌。
![]()
順帶交代小組賽。12 個(gè)小組里有 7 個(gè),8 家給出了完全一致的頭名和第二名。分歧最大的 D 組,美國對土耳其的頭名之爭是 5 票對 3 票,Kimi 為土耳其押上了它“預(yù)期價(jià)值最高的反共識”,也自認(rèn)這是“最脆弱的一環(huán)”。
![]()
1
誰在標(biāo)定不確定性,誰在表演確定性
同樣面對一個(gè)連頭號熱門都只有 16% 勝算的未來,8 家報(bào)告寫出了兩種完全相反的姿態(tài)。
一種在給自己留出錯的余地。GLM 主動承認(rèn),“我預(yù)測的具體決賽對陣有超過 90% 的概率不會發(fā)生——這不是預(yù)測能力的問題,是世界杯淘汰賽結(jié)構(gòu)的數(shù)學(xué)必然。”MiniMax 干了件全場僅此一家的事,在追問里把自己承諾的置信度當(dāng)場砍了一刀,承認(rèn)主報(bào)告里 60% 到 65% 的數(shù)字“是不嚴(yán)謹(jǐn)?shù)闹庇X”,反推后改成 20% 到 30%。預(yù)測變得沒那么好看,賬算得更老實(shí)。
另一種在加碼表演。Genspark 是唯一從 32 強(qiáng)到?jīng)Q賽逐場給出勝負(fù)、決賽還報(bào)出具體比分(西班牙 2-1)的,報(bào)告結(jié)尾不忘推銷自己,“如果你想把這份報(bào)告做成可視化網(wǎng)頁/PPT,告訴我即可”。Gemini 的文風(fēng)則像解說詞,“西班牙滿分奪魁幾乎板上釘釘”“沙特與佛得角連觸球都將成為奢望”,還給葡萄牙加了一段“為故去隊(duì)友迪奧戈·若塔而戰(zhàn)”的哀兵敘事。
開獎之后,這兩種姿態(tài)會被分開結(jié)算。說“90% 不會發(fā)生”的如果蒙對了細(xì)節(jié),是驚喜。說“板上釘釘”的如果釘歪了,是把柄。
1
剩下的交給比賽
小組賽 6 月 27 日打完,32 強(qiáng)名單是第一次開獎。之后每過一輪清算一批,7 月 19 日決賽夜全部結(jié)清,包括開頭那張關(guān)于梅西的對賭協(xié)議。屆時(shí)我們帶著完整評分回來,每一項(xiàng)預(yù)測的對錯、每一家的過程分與結(jié)果分,還有這期評測真正想回答的問題。 AI 離開公開共識、給出自己的判斷時(shí),到底是不是噪音。
你站哪邊,Claude 的“阿根廷無法衛(wèi)冕”,還是 MiniMax 的“梅西踢進(jìn)決賽”?歡迎評論區(qū)留個(gè)記錄。
1
附|評測方法
怎么問。 8 家收到完全相同的 Prompt,要求基于實(shí)時(shí)檢索給出固定格式的預(yù)測,包括 12 個(gè)小組的頭名與第二、8 個(gè)成績最好的小組第三(兩者合成 32 強(qiáng)名單)、16 強(qiáng)、8 強(qiáng)、4 強(qiáng)、決賽對陣與冠軍、金靴金球與最佳年輕球員、奪冠概率 Top5,外加 3 條“你認(rèn)為主流判斷錯了”的反共識。每項(xiàng)標(biāo)注置信度(高/中/低三檔),列出信源。提交后統(tǒng)一追問三條,最不確定的三項(xiàng)?與市場分歧最大的一項(xiàng)?只保留一條,押什么?
用什么模式。 各家使用其當(dāng)前公開可用的最強(qiáng)研究形態(tài)。ChatGPT、Gemini、Genspark 用 Deep Research,Kimi、Manus 用 Agent 模式,Claude 用 Research,GLM、MiniMax 用聯(lián)網(wǎng)檢索。輸出全文均已存檔。
怎么評。 評分分兩部分。過程評分(信息獲取、整合、推理、輸出、誠實(shí)度五個(gè)維度,開獎前鎖定)占 30%,結(jié)果評分占 70%。結(jié)果按固定槽位逐項(xiàng)判定,按輪次加權(quán),押中小組頭名記 1 分,押中冠軍記 4 分,押了一支根本沒進(jìn)世界杯的球隊(duì),倒扣。全部判定以 FIFA 官方賽果為準(zhǔn)。
完整原始報(bào)告與評分規(guī)則見 https://github.com/pingwest-ai/agent-eval/tree/main/cases/worldcup-2026
![]()
點(diǎn)個(gè)“愛心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.