无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

硅星人Eval Eps.3 | 8個(gè)AI押世界杯:西班牙被押爆,亞馬爾成了安全牌

0
分享至


硅星人 AI 前沿團(tuán)隊(duì)
研究員 | 周一笑

世界杯開幕戰(zhàn)開球前,兩個(gè) AI 簽下了一張對賭協(xié)議。

一邊是 Claude。它的預(yù)測里,阿根廷連決賽的門票都沒有,它給出的決賽對陣是西班牙對英格蘭。被要求只保留一條向讀者承諾時(shí),它收口收得很穩(wěn),“阿根廷無法衛(wèi)冕。如果只能留一條向讀者背書,我押這個(gè)。”它給自己估了 88% 到 92% 的命中率。

另一邊是 MiniMax。它的承諾干脆得多,“如果只讓我押一句話——梅西會去 MetLife 踢 7 月 19 日的決賽。”

梅西剛剛?cè)脒x阿根廷 26 人名單,將以 38 歲之齡踢個(gè)人第六屆世界杯,和 C 羅并列歷史第一。一個(gè) AI 的世界線里,他的球隊(duì)半路就會被送走,另一個(gè) AI 把唯一的承諾押給他站上決賽草坪。這兩條世界線,至少有一條會在 7 月被劃掉。

它們不是在閑聊。開幕戰(zhàn)開球前,我們把同一份預(yù)測考卷發(fā)給了 8 個(gè)全球主流 AI Agent,從 12 個(gè)小組的排名一路問到冠軍歸屬,要求列出信源、標(biāo)注置信度,最后逼問每一家,只留一條,你押什么。

上面那張對賭協(xié)議,就是逼問的產(chǎn)物。

這是 Agent Eval 系列最新一期。 和,這期的考場是世界杯,48 支球隊(duì)、104 場比賽,每一項(xiàng)預(yù)測都會在未來 40 天內(nèi)被逐一開獎,對錯沒有辯解空間。怎么測的、怎么評分,放在文末。先看它們都押了什么。

1

一張總覽表,8 家的家底


先看“冠軍”那一列。8 個(gè)格子里有 6 個(gè)寫著同一個(gè)名字,西班牙。剩下兩票,ChatGPT 和 Manus 給了法國。再看“決賽對陣”,8 家無一例外把西班牙送進(jìn)了決賽。總覽表之外我們還問了金球獎,8 家里 7 家給了亞馬爾,唯一的例外是 ChatGPT,它選了姆巴佩。

金靴一列只有兩個(gè)名字,姆巴佩 6 票、凱恩 2 票。有意思的是票面底下的邏輯。Genspark 押凱恩的前提是姆巴佩的法國止步八強(qiáng),可押姆巴佩的 ChatGPT 和 Manus 偏偏讓法國一路走到最后,同一批公開數(shù)據(jù),推出了互相打架的世界線。Claude 的押法更微妙,它明知市場頭號熱門是姆巴佩,仍選了凱恩,自己也承認(rèn)這“本身就是帶敘事色彩的推斷”。Manus 則主動揭短,“我的金球獎預(yù)測和我自己的冠軍預(yù)測之間存在內(nèi)在張力。”

看到這里你大概已經(jīng)明白,這期 Eval 真正測的不是 AI 懂不懂足球。當(dāng)專業(yè)模型的模擬、傷病名單、陣容數(shù)據(jù)和歷史戰(zhàn)績?nèi)紨[在網(wǎng)上時(shí),AI 到底是在做獨(dú)立預(yù)測,還是把公開共識復(fù)述一遍、再用語言包裝成自己的判斷,這才是考點(diǎn)。

1

最后一題,五家交了同一個(gè)答案

回到那道“只留一條”的逼問。8 個(gè) AI,5 個(gè)給出了同一個(gè)答案,拉明·亞馬爾將拿下本屆世界杯最佳年輕球員。

ChatGPT 說這是“本屆最穩(wěn)的個(gè)人獎項(xiàng)”。Genspark 說得更狠,“如果 7 月 19 日亞馬爾沒有舉起最佳年輕球員獎杯,這份報(bào)告整體的方法論需要復(fù)盤。”GLM 稱之為“一條值得押上聲譽(yù)的預(yù)測”。

聽起來像勇氣,其實(shí)是另一回事。亞馬爾是這個(gè)獎項(xiàng)公開預(yù)測市場的斷層第一熱門,隱含概率約四成,把第二名甩開一大截,他兩年前還拿過歐洲杯的同款獎項(xiàng)。換句話說,當(dāng)我們允許 AI 只留一條承諾時(shí),5 家不約而同選了全場最安全的一張牌。

Kimi 把這層窗戶紙自己捅破了,“最好的押注不是與市場作對,而是找到市場中概率定價(jià)最松散的共識。”

沒跟的三家,就是總覽表里那三條孤注。Claude 賭阿根廷的失敗,MiniMax 賭梅西的決賽,Manus 賭姆巴佩的進(jìn)球。

1

一條光譜,從照抄到改寫

把 8 家給出的奪冠概率,和公開基準(zhǔn)放在一起,能畫出一條光譜。


基準(zhǔn)是 Opta 超級計(jì)算機(jī)的賽前模擬,25,000 次,西班牙 16.1%、法國 13.0%、英格蘭 11.2%、阿根廷 10.4%。8 家里一半(ChatGPT、Claude、GLM、MiniMax)明確引用了 Opta,另一半錨的是同類的市場一致預(yù)期數(shù)據(jù)。信源分兩派,姿勢是一樣的,先把公開概率墊在底下,再決定自己改不改、改多少。

光譜的最左端是 Claude。它交出的奪冠概率 Top5,五個(gè)數(shù)字和 Opta 一字不差。是誠實(shí)還是偷懶,讀者自己判斷。

最右端是 MiniMax。它把阿根廷抬到第二熱門,宣稱市場和 Opta 都錯了。Kimi 和 Genspark 把西班牙改寫到 22%,比基準(zhǔn)高出近 6 個(gè)百分點(diǎn)。

中間的就一筆帶過。ChatGPT 貼著市場走,只把法西對調(diào)。GLM、Gemini、Manus 各自小幅加減。

1

四張對賭桌

把 8 份報(bào)告并排,最好看的不是共識,是四組正面相撞的判斷。



  • 阿根廷的命運(yùn)。 開頭那張桌。Claude 的預(yù)測里它進(jìn)不了決賽,MiniMax 說它才是真正的頭號熱門,“簽運(yùn)最佳,陣中還有 17 名 2022 年冠軍成員”。

  • 英格蘭的成色。 Gemini 預(yù)言它“將在淘汰賽初期災(zāi)難性崩盤”,無緣八強(qiáng),理由是圖赫爾棄用福登、帕爾默、阿諾德是“戰(zhàn)術(shù)自毀”。Claude 把它一路送進(jìn)決賽,當(dāng)亞軍。

  • 巴西的真假。 這張桌上是一打七。Manus 給巴西的奪冠概率不到 3%,說“市場仍在為『巔峰內(nèi)馬爾』的名號買單”,Kimi、Claude、Genspark 跟著看空。全場只有 GLM 反著來,巴西被嚴(yán)重低估,安切洛蒂效應(yīng)加上 48 隊(duì)賽制下的陣容深度,真實(shí)概率應(yīng)該接近 10%。

  • 哈蘭德的進(jìn)球數(shù)。 Kimi 給出全場最狠的一條,哈蘭德小組賽最多進(jìn) 1 球,甚至可能 0 球,挪威不排除三戰(zhàn)全敗墊底。MiniMax 給挪威 35% 的概率壓過法國拿 I 組頭名,Claude 讓挪威殺進(jìn)八強(qiáng)。同一支球隊(duì),一家看到墊底,一家看到八強(qiáng)。

這四張桌子未必張張有贏家,有的可能雙輸。但 40 天內(nèi)每一張都會清算,沒有誰能安全下桌。


順帶交代小組賽。12 個(gè)小組里有 7 個(gè),8 家給出了完全一致的頭名和第二名。分歧最大的 D 組,美國對土耳其的頭名之爭是 5 票對 3 票,Kimi 為土耳其押上了它“預(yù)期價(jià)值最高的反共識”,也自認(rèn)這是“最脆弱的一環(huán)”。


1

誰在標(biāo)定不確定性,誰在表演確定性

同樣面對一個(gè)連頭號熱門都只有 16% 勝算的未來,8 家報(bào)告寫出了兩種完全相反的姿態(tài)。

一種在給自己留出錯的余地。GLM 主動承認(rèn),“我預(yù)測的具體決賽對陣有超過 90% 的概率不會發(fā)生——這不是預(yù)測能力的問題,是世界杯淘汰賽結(jié)構(gòu)的數(shù)學(xué)必然。”MiniMax 干了件全場僅此一家的事,在追問里把自己承諾的置信度當(dāng)場砍了一刀,承認(rèn)主報(bào)告里 60% 到 65% 的數(shù)字“是不嚴(yán)謹(jǐn)?shù)闹庇X”,反推后改成 20% 到 30%。預(yù)測變得沒那么好看,賬算得更老實(shí)。

另一種在加碼表演。Genspark 是唯一從 32 強(qiáng)到?jīng)Q賽逐場給出勝負(fù)、決賽還報(bào)出具體比分(西班牙 2-1)的,報(bào)告結(jié)尾不忘推銷自己,“如果你想把這份報(bào)告做成可視化網(wǎng)頁/PPT,告訴我即可”。Gemini 的文風(fēng)則像解說詞,“西班牙滿分奪魁幾乎板上釘釘”“沙特與佛得角連觸球都將成為奢望”,還給葡萄牙加了一段“為故去隊(duì)友迪奧戈·若塔而戰(zhàn)”的哀兵敘事。

開獎之后,這兩種姿態(tài)會被分開結(jié)算。說“90% 不會發(fā)生”的如果蒙對了細(xì)節(jié),是驚喜。說“板上釘釘”的如果釘歪了,是把柄。

1

剩下的交給比賽

小組賽 6 月 27 日打完,32 強(qiáng)名單是第一次開獎。之后每過一輪清算一批,7 月 19 日決賽夜全部結(jié)清,包括開頭那張關(guān)于梅西的對賭協(xié)議。屆時(shí)我們帶著完整評分回來,每一項(xiàng)預(yù)測的對錯、每一家的過程分與結(jié)果分,還有這期評測真正想回答的問題。 AI 離開公開共識、給出自己的判斷時(shí),到底是不是噪音。

你站哪邊,Claude 的“阿根廷無法衛(wèi)冕”,還是 MiniMax 的“梅西踢進(jìn)決賽”?歡迎評論區(qū)留個(gè)記錄。

1

附|評測方法

怎么問。 8 家收到完全相同的 Prompt,要求基于實(shí)時(shí)檢索給出固定格式的預(yù)測,包括 12 個(gè)小組的頭名與第二、8 個(gè)成績最好的小組第三(兩者合成 32 強(qiáng)名單)、16 強(qiáng)、8 強(qiáng)、4 強(qiáng)、決賽對陣與冠軍、金靴金球與最佳年輕球員、奪冠概率 Top5,外加 3 條“你認(rèn)為主流判斷錯了”的反共識。每項(xiàng)標(biāo)注置信度(高/中/低三檔),列出信源。提交后統(tǒng)一追問三條,最不確定的三項(xiàng)?與市場分歧最大的一項(xiàng)?只保留一條,押什么?

用什么模式。 各家使用其當(dāng)前公開可用的最強(qiáng)研究形態(tài)。ChatGPT、Gemini、Genspark 用 Deep Research,Kimi、Manus 用 Agent 模式,Claude 用 Research,GLM、MiniMax 用聯(lián)網(wǎng)檢索。輸出全文均已存檔。

怎么評。 評分分兩部分。過程評分(信息獲取、整合、推理、輸出、誠實(shí)度五個(gè)維度,開獎前鎖定)占 30%,結(jié)果評分占 70%。結(jié)果按固定槽位逐項(xiàng)判定,按輪次加權(quán),押中小組頭名記 1 分,押中冠軍記 4 分,押了一支根本沒進(jìn)世界杯的球隊(duì),倒扣。全部判定以 FIFA 官方賽果為準(zhǔn)。

完整原始報(bào)告與評分規(guī)則見 https://github.com/pingwest-ai/agent-eval/tree/main/cases/worldcup-2026


點(diǎn)個(gè)愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
王鶴隸早期出道視頻曝光引熱議

王鶴隸早期出道視頻曝光引熱議

淺遇時(shí)光
2026-06-14 01:16:31
他是日本皇族最厲害的特務(wù),為了殺他,八路軍與軍統(tǒng)唯一一次聯(lián)手

他是日本皇族最厲害的特務(wù),為了殺他,八路軍與軍統(tǒng)唯一一次聯(lián)手

掠影后有感
2026-06-14 10:16:05
直降10萬元!特斯拉新車突然降價(jià),13.4 萬元,全球最低

直降10萬元!特斯拉新車突然降價(jià),13.4 萬元,全球最低

科技堡壘
2026-06-12 09:37:51
網(wǎng)友們這幾天都在吃著名毛巾集團(tuán)潔麗雅的瓜,諷刺其家族“丑聞”

網(wǎng)友們這幾天都在吃著名毛巾集團(tuán)潔麗雅的瓜,諷刺其家族“丑聞”

網(wǎng)絡(luò)易不易
2026-05-17 12:29:12
交易被凍結(jié),中國剛不準(zhǔn)入境,菲防長惱羞成怒,講了句很滑稽的話

交易被凍結(jié),中國剛不準(zhǔn)入境,菲防長惱羞成怒,講了句很滑稽的話

起喜電影
2026-06-14 13:37:50
毫無底線!具俊曄公開與大S私密往事,20年前韓國同居小屋曝光

毫無底線!具俊曄公開與大S私密往事,20年前韓國同居小屋曝光

生命之泉的奧秘
2026-06-13 17:34:56
一印度女子做完美甲不付錢,口出狂言:我來自印度,你不能收錢

一印度女子做完美甲不付錢,口出狂言:我來自印度,你不能收錢

魔都姐姐雜談
2026-06-08 12:05:42
反向換車的人越來越多了,不是沒錢了,而是終于想通了

反向換車的人越來越多了,不是沒錢了,而是終于想通了

世界圈
2026-04-18 08:48:42
百姓躺平擺爛,食稅群體怎么辦?

百姓躺平擺爛,食稅群體怎么辦?

律法刑道
2026-06-03 09:30:48
國際足聯(lián)也急了!原來除了中國,還有這么多國家不給世界杯買單了

國際足聯(lián)也急了!原來除了中國,還有這么多國家不給世界杯買單了

曉帝愛八卦
2026-05-06 14:15:23
歷史上3次"神秘"巧合,令人不得不懷疑,世界或許是一個(gè)輪回

歷史上3次"神秘"巧合,令人不得不懷疑,世界或許是一個(gè)輪回

老吳教育課堂
2026-06-14 21:45:05
從“黑馬”躍升“世界級”,摩洛哥足球的系統(tǒng)性崛起

從“黑馬”躍升“世界級”,摩洛哥足球的系統(tǒng)性崛起

澎湃新聞
2026-06-14 18:14:27
記“全國公安系統(tǒng)一級英雄模范”“時(shí)代楷模”潘東升。

記“全國公安系統(tǒng)一級英雄模范”“時(shí)代楷模”潘東升。

牛鍋巴小釩
2026-06-14 21:39:54
芝麻醬被關(guān)注!發(fā)現(xiàn):吃得越多,肌少癥老年人肌肉流失或越慢?

芝麻醬被關(guān)注!發(fā)現(xiàn):吃得越多,肌少癥老年人肌肉流失或越慢?

路醫(yī)生健康科普
2026-05-29 19:55:03
虎撲熱帖引圍觀:夏天出門穿不穿絲?

虎撲熱帖引圍觀:夏天出門穿不穿絲?

時(shí)光慢旅人
2026-06-14 01:02:39
安切洛蒂攤牌!揪出巴西最差 2 人,出線告急為時(shí)已晚

安切洛蒂攤牌!揪出巴西最差 2 人,出線告急為時(shí)已晚

酷侃體壇
2026-06-14 10:21:18
熱身賽:申花3-1中冠上海澤天,馬納法、韓嘉文、阿蘇埃破門

熱身賽:申花3-1中冠上海澤天,馬納法、韓嘉文、阿蘇埃破門

懂球帝
2026-06-14 20:17:18
散打哥離婚借兩千萬遭拒,蛋蛋掀價(jià)格戰(zhàn)警告別惹我

散打哥離婚借兩千萬遭拒,蛋蛋掀價(jià)格戰(zhàn)警告別惹我

東方不敗然多多
2026-06-14 21:14:20
中國女排出征!機(jī)場照曝光,王夢潔好美,刁琳宇低調(diào),龔翔宇自信

中國女排出征!機(jī)場照曝光,王夢潔好美,刁琳宇低調(diào),龔翔宇自信

跑者排球視角
2026-06-14 14:15:01
97%國產(chǎn)化率還嫌不夠?張雪:剩下那3%,是給日本意大利留面子!

97%國產(chǎn)化率還嫌不夠?張雪:剩下那3%,是給日本意大利留面子!

小許論事
2026-06-13 15:48:10
2026-06-15 02:52:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個(gè)星球。
3159文章數(shù) 10506關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

特朗普指責(zé)內(nèi)塔尼亞胡:缺乏理智 毫無政治判斷力

頭條要聞

特朗普指責(zé)內(nèi)塔尼亞胡:缺乏理智 毫無政治判斷力

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

狂歡置換價(jià)7.99萬 第三代豪越L歡樂PLUS大7座版上市

態(tài)度原創(chuàng)

游戲
房產(chǎn)
時(shí)尚
家居
本地

逆天BUG秒賺上億!《地平線6》緊急關(guān)閉吃雞模式

房產(chǎn)要聞

海南最賺錢行業(yè)曝光!最快4年半,海口全款買三房!

絕望的直女:如何厭男又愛男?

家居要聞

空間微調(diào) 移形換境

本地新聞

AK劉彰邂逅河北南大港濕地

無障礙瀏覽 進(jìn)入關(guān)懷版