无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

當(dāng)代碼遇上語義:CoREB 如何重新定義代碼檢索評(píng)測(cè)

0
分享至


本文由螞蟻集團(tuán)出品。 CoREB(Code Retrieval Embedding Benchmark)是螞蟻集團(tuán)圍繞"代碼語義檢索"方向所打造的開放式評(píng)測(cè)基準(zhǔn)。我們希望為整個(gè)社區(qū)提供一套干凈、嚴(yán)格、不可作弊、貼近真實(shí)工程場景的代碼嵌入模型測(cè)試集——讓"代碼模型到底好不好"這件事,從主觀感受走向可量化、可復(fù)現(xiàn)、可追蹤的實(shí)證科學(xué)。



CoREB 主視覺 一、為什么我們還需要一個(gè)新的代碼檢索基準(zhǔn)?

過去兩三年,代碼嵌入模型的發(fā)展節(jié)奏明顯加快。從通用方向的 Qwen3-Embedding、jina-embeddings-v4、embeddinggemma,到專注代碼的 jina-code-embeddings、C2LLM、F2LLM,參數(shù)量從 0.5B 一路飆升到 8B;訓(xùn)練數(shù)據(jù)動(dòng)輒上百億 token,對(duì)比學(xué)習(xí)的負(fù)例池也越鋪越大。模型卡上的指標(biāo)越刷越漂亮,論文里的折線圖越畫越陡峭,看起來"代碼檢索"這件事仿佛已經(jīng)被解決了。

然而當(dāng)我們把這些 SOTA 模型搬進(jìn)真實(shí)的"競賽級(jí)"代碼檢索場景里測(cè)試時(shí),卻發(fā)現(xiàn)一個(gè)令人尷尬的事實(shí):

現(xiàn)有基準(zhǔn)要么太簡單(同一份代碼改個(gè)變量名都能命中),要么太"作弊"(測(cè)試問題早被模型在預(yù)訓(xùn)練里見過)。

具體而言,社區(qū)現(xiàn)有的代碼檢索評(píng)測(cè)面臨三個(gè)深層痛點(diǎn):

痛點(diǎn)一:數(shù)據(jù)泄漏幾乎不可避免。主流模型在預(yù)訓(xùn)練時(shí)都接觸過 GitHub、LeetCode、Codeforces 等公共代碼源,許多"老牌"基準(zhǔn)的題目早就被模型背在了"參數(shù)記憶"里。這種情況下,模型在評(píng)測(cè)上的高分,到底是真的學(xué)會(huì)了語義檢索,還是單純做了記憶復(fù)現(xiàn)?沒人說得清。

痛點(diǎn)二:硬負(fù)例其實(shí)并不"硬"。不少基準(zhǔn)號(hào)稱用了 hard negative mining,但仔細(xì)看就會(huì)發(fā)現(xiàn),所謂"硬負(fù)例"往往只是來自完全無關(guān)問題的隨機(jī)抽樣。這種"假困難"——主題不同、詞匯分布不同、變量命名風(fēng)格也不同——對(duì)任何一個(gè)稍微合格的嵌入模型都不構(gòu)成挑戰(zhàn)。真正考驗(yàn)?zāi)P偷模悄切?strong>長得像、讀起來像、關(guān)鍵詞都一致、但功能上徹底錯(cuò)誤的代碼與文本。一個(gè)能在這種"語義陷阱"里站穩(wěn)腳跟的模型,才有資格被叫作"理解代碼"。

痛點(diǎn)三:評(píng)測(cè)粒度過粗,掩蓋了真實(shí)的能力差距。多數(shù)榜單只給出一個(gè)"平均分",把多個(gè)子任務(wù)的得分粗暴加權(quán)。結(jié)果就是:一些模型在簡單任務(wù)上拿滿分,在難任務(wù)上接近 0 分,但平均下來居然能進(jìn)前三。這種榜單不僅誤導(dǎo)研究方向,也誤導(dǎo)工程師在真實(shí)業(yè)務(wù)里的選型決策。

CoREB 就是為同時(shí)解決這三個(gè)痛點(diǎn)而生。我們的設(shè)計(jì)哲學(xué)可以用一句話概括:

讓"看起來能做對(duì)"的模型在 CoREB 上下不來臺(tái),讓"真的能做對(duì)"的模型在 CoREB 上拿到應(yīng)得的分?jǐn)?shù)。

CoREB 建立在 LiveCodeBench 最新發(fā)布的題庫之上,覆蓋175 道競賽真題、5 種主流編程語言(Python / C++ / Java / Go / Ruby)、上千條由強(qiáng)模型(Claude Sonnet 4.5、Gemini 3 Flash 等)實(shí)測(cè)驗(yàn)證過的高質(zhì)量查詢-代碼對(duì)。



CoREB 數(shù)據(jù)集構(gòu)建管線

整個(gè)數(shù)據(jù)集嚴(yán)格按照"競賽發(fā)布時(shí)間窗"切分訓(xùn)練與測(cè)試,v202602 與 v202603 兩個(gè) release 在題目層面完全互不重疊——前者覆蓋 2024 年 9 月至 2025 年 1 月的題目,后者覆蓋 2025 年 1 月至 4 月。這意味著任何在我們 reranker 訓(xùn)練集上看到過的題目,都絕對(duì)不會(huì)出現(xiàn)在測(cè)試集里。這一時(shí)間切分方案,從根源上排除了"在訓(xùn)練集上微調(diào)出測(cè)試集表現(xiàn)"的泄漏風(fēng)險(xiǎn)。

二、數(shù)據(jù)集一覽:規(guī)模、語言、模型一目了然



CoREB 數(shù)據(jù)集組成



語料庫與查詢的分布

v202603 釋出版本核心數(shù)字:

項(xiàng)目

規(guī)模

代碼語料庫

1,744

claude-sonnet-4-5 × 875 + gemini-3-flash × 869

文本語料庫

875

175 條原始題目描述 + 700 條 LLM 噪聲樣本

查詢總數(shù)

2,483

T2C 1,117 / C2T 1,200 / C2C 166

qrel 標(biāo)注總數(shù)

10,877

含 4,257 正例 + 6,620 硬負(fù)例(v2 graded)

覆蓋語言

5

Python / C++ / Java / Go / Ruby

覆蓋模型

2

Claude Sonnet 4.5 + Gemini 3 Flash

每個(gè)語言約 350 條代碼、每個(gè)生成模型約 875 條,分布均衡而干凈。所有代碼都已通過 LiveCodeBench 的測(cè)試用例真實(shí)執(zhí)行過,每條標(biāo)注都附帶 pass/fail 信息——這是我們后續(xù)構(gòu)建"硬負(fù)例"的基石。

更重要的是,CoREB 的所有數(shù)據(jù)100% 來自競賽題目的新發(fā)布窗口,沒有混入任何 Stack Overflow、GitHub 代碼片段、教程示例等來源易污染的語料。這是我們能宣稱"不可作弊"的核心保證之一。

三、三大任務(wù):覆蓋代碼語義映射的三個(gè)維度

CoREB 的核心結(jié)構(gòu)由三大任務(wù)組成,每個(gè)任務(wù)針對(duì)代碼-語義映射中的一個(gè)獨(dú)立維度:

任務(wù)

簡稱

輸入 → 輸出

難度

真實(shí)場景

文本到代碼

T2C

自然語言描述 → 代碼解

?????

自然語言代碼搜索、需求→代碼生成檢索

代碼到代碼

C2C

一種語言的解 → 另一種語言的等價(jià)解

???

跨語言代碼遷移、多語言代碼庫統(tǒng)一檢索

代碼到文本

C2T

代碼片段 → 對(duì)應(yīng)題目描述

??

代碼注釋生成、文檔對(duì)齊、可解釋性


T2C:最具挑戰(zhàn)的"憑描述找代碼"

T2C 是 CoREB 中最有挑戰(zhàn)、也最貼近真實(shí)工程需求的任務(wù)。它進(jìn)一步拆解為三個(gè)子任務(wù),對(duì)應(yīng)不同的工程語境:

  • ?canonical_retro:查詢是規(guī)范化、抽象化后的題目意圖,類似"內(nèi)部技術(shù)文檔檢索"

  • ?full_retro:查詢包含完整題目背景(含示例、約束、邊界條件),類似"用戶在搜索框輸入完整需求"

  • ?search:查詢本身在語料庫里沒有完全對(duì)應(yīng)的題目,要求模型純靠語義泛化,類似"探索性代碼搜索"

search子任務(wù)的結(jié)果尤其值得反復(fù)琢磨:



T2C search 子任務(wù)上所有模型 nDCG 都接近零

所有 11 個(gè)被測(cè)模型的 nDCG@10 都接近 0(范圍 0.0008–0.023)。這不是模型壞了,而是說明當(dāng)我們抽掉"必須有完全匹配項(xiàng)"這條隱含拐杖之后,純語義檢索的能力距離我們想象中的"理解代碼"還有非常遠(yuǎn)的距離。

這一發(fā)現(xiàn)對(duì)工業(yè)界尤其重要:在真實(shí)業(yè)務(wù)場景里,用戶輸入的搜索詞與代碼庫內(nèi)的解幾乎從來不會(huì)字面對(duì)齊。如果一個(gè)模型只會(huì)做"精確題目匹配",那它能解決的也只是一小部分理想化場景。CoREB 的search子任務(wù),就是為了把這個(gè)潛在缺陷顯式量化出來。

T2C 的語言偏置:被忽視的真實(shí)問題

不同目標(biāo)語言下,模型表現(xiàn)的差異也相當(dāng)顯著:



T2C 不同語言難度梯度

any(不限語言)一致最高,python大多排第二,rubygo則是大多數(shù)模型的最痛點(diǎn)。從 C2LLM-7B 的數(shù)據(jù)可以清晰看到:"any" 子任務(wù)能跑到 0.756,但java只剩 0.418——同一個(gè)模型、同一類查詢,僅因目標(biāo)語言不同就能拉開近一倍的差距。

這種語言偏置在工程上意味著什么?意味著你不能假設(shè)一個(gè)在 Python 上表現(xiàn)優(yōu)異的模型,到 Go 或 Ruby 上還能保持同樣水平。多語言代碼業(yè)務(wù)的同學(xué),必須按語言單獨(dú)評(píng)測(cè)后再做選型。

C2C:跨語言"功能等價(jià)"的判定

C2C 任務(wù)要求模型把一份 Python 代碼與其 Java/Go/C++/Ruby 版本對(duì)應(yīng)起來,它考察的是模型能否抽象出"算法意圖"這一層語義,而非被表面語法迷惑:



C2C 跨語言檢索熱力圖

C2C 還揭示了一個(gè)非常有意思的現(xiàn)象:所有模型在 nDCG@1 上都會(huì)拿到 0 分——因?yàn)椴樵冏陨淼拇a也在語料庫里(這是真實(shí)跨語言搜索場景的還原),且總是被排在第一位。

這并不是模型失敗,而是基準(zhǔn)設(shè)計(jì)本身的"誠實(shí)"反映:在真實(shí)的跨語言檢索里,"找到自己"是一種與"找到翻譯"截然不同的行為,是預(yù)期之內(nèi)的。我們用 nDCG@10 這種更寬容的指標(biāo)來評(píng)測(cè) C2C,正是為了避免這種結(jié)構(gòu)性"零分"扭曲整體判斷。

C2T:相對(duì)簡單但暗藏陷阱

C2T 表面上是最簡單的——給一段代碼,找回它的題目描述。但 v2 版本在語料庫里加入了LLM 生成的同題噪聲文本作為 rel=1 硬負(fù)例。這些噪聲文本由 gemini-2.5-flash 生成、經(jīng)過 gpt-4o 二次清洗,主題貼合、句式自然、術(shù)語正確,唯獨(dú)"不是真正的題目描述"。

結(jié)果顯示,即便是最好的模型(Gemini-Embedding-2-preview, 0.7841)也距離"完美命中"還有相當(dāng)差距——這正是噪聲文本在悄悄拉低分?jǐn)?shù)。這種"功能性區(qū)分"恰恰是 CoREB 的核心評(píng)測(cè)哲學(xué):讓模型證明自己不是被表面相似性誤導(dǎo),而是真的看懂了語義。

四、三級(jí)分級(jí)標(biāo)注:讓"硬負(fù)例"成為評(píng)測(cè)的靈魂

傳統(tǒng)檢索基準(zhǔn)只有"相關(guān) / 不相關(guān)"二元判定。CoREB 引入了三級(jí)分級(jí) qrel方案,讓每一條標(biāo)注都承載更多語義信息:

級(jí)別

含義(按任務(wù))

rel=2正例

T2C: 同題且通過全部測(cè)試的代碼;C2T: 該題真正的描述文本;C2C: 正確的跨語言翻譯

rel=1硬負(fù)例

T2C: 同題但未通過測(cè)試的相似代碼;C2T: LLM 生成的同題/近題噪聲文本;C2C: 失敗的翻譯或被子任務(wù)排除的解

缺席

易負(fù)例

與查詢無關(guān);僅在訓(xùn)練 reranker 時(shí)隨機(jī)抽樣

這個(gè)設(shè)計(jì)的關(guān)鍵點(diǎn)在于:rel=1 的條目仍然留在語料庫中,它們不是被"剔除"的,而是被"標(biāo)記"的。在評(píng)測(cè)時(shí)設(shè)relevance_level=2,rel=1 條目就成了高度迷惑性的"語料庫內(nèi)陷阱"——它們與查詢主題完全一致、詞匯高度重合,一旦被模型排到正例前面就會(huì)立刻拖低 nDCG。



硬負(fù)例引入后對(duì)評(píng)測(cè)指標(biāo)的"通脹壓縮"效應(yīng)

上圖清晰展示了 v2 graded qrel 對(duì)評(píng)測(cè)分?jǐn)?shù)的"通脹壓縮"效應(yīng)——從 v1 二元方案到 v2 三級(jí)方案,幾乎所有模型的 nDCG@10 都下降了 10–15 個(gè)百分點(diǎn),這正是"假困難"被替換成"真困難"后該有的結(jié)果。壓縮后的分?jǐn)?shù),才更貼近模型在工業(yè)場景下的真實(shí)戰(zhàn)斗力。

v202603_v2 qrel 規(guī)模:

任務(wù)

正例 (rel=2)

硬負(fù)例 (rel=1)

合計(jì)

T2C

2,814

3,136

5,950

C2T

820

2,650

3,470

C2C

623

834

1,457

總計(jì)4,2576,62010,877

也就是說,硬負(fù)例的數(shù)量與正例相當(dāng)甚至更多。這種設(shè)計(jì)讓 CoREB 真正反映模型區(qū)分"語義近似但功能錯(cuò)誤"的能力——這恰好是工業(yè)代碼搜索最在乎的一點(diǎn)。一個(gè)能在 CoREB 上拿高分的模型,必須真正理解"這段代碼在做對(duì)的事",而不只是"這段代碼在談對(duì)的話題"。

五、最新評(píng)測(cè)榜單:來自 11 個(gè)主流模型的故事

我們?cè)?v202603_v2 上完成了 11 個(gè)主流嵌入模型的完整評(píng)測(cè),每一個(gè)數(shù)字都對(duì)應(yīng)一份開放的 result JSON:



模型總體對(duì)比



三任務(wù) nDCG@10 橫向?qū)Ρ?br/>

Rank

模型

參數(shù)量

Avg

T2C

C2C

C2T

1

gemini-embedding-2-preview

API

2

C2LLM-7B

7B

3

jina-code-embeddings-1.5b

1.5B

4

C2LLM-0.5B

0.5B

5

jina-code-embeddings-0.5b

0.5B

6

F2LLM-4B

4B

7

Qwen3-Embedding-4B

4B

8

F2LLM-1.7B

1.7B

9

Qwen3-Embedding-0.6B

0.6B

10

F2LLM-0.6B

0.6B

11

Qwen3-Embedding-8B

8B

從這張表里,我們能讀出若干反直覺的故事。每一個(gè)都對(duì)應(yīng)一條值得社區(qū)認(rèn)真討論的研究方向。

發(fā)現(xiàn) 1:通用大模型未必贏——代碼這件事有它自己的語義結(jié)構(gòu)

榜首 Gemini-Embedding-2-preview 平均成績最高,但它在T2C上反而被參數(shù)量小得多的 C2LLM-7B 超越(0.4432 vs 0.4336)。考慮到 Gemini-Embedding 背后是 Google 頂級(jí)的預(yù)訓(xùn)練模型與海量訓(xùn)練數(shù)據(jù),這一結(jié)果說明:

"代碼這件事"仍然有它獨(dú)立的語義結(jié)構(gòu),不是用更大的通用語料就能完全覆蓋。

針對(duì)代碼場景做專門的對(duì)比學(xué)習(xí)目標(biāo)、加入功能正確性約束、用執(zhí)行結(jié)果做監(jiān)督信號(hào)——這些專門設(shè)計(jì)的價(jià)值,目前看仍然大于"無腦堆參數(shù)"。

發(fā)現(xiàn) 2:小模型用代碼專精換性能——參數(shù)效率新范式



參數(shù)效率:性能 vs 參數(shù)量

jina-code-embeddings-0.5B(0.5962)力壓 Qwen3-Embedding-8B(0.4277),16 倍參數(shù)差距下反而領(lǐng)先 17 個(gè)百分點(diǎn)。這是給所有在意延遲、顯存與部署成本的工程團(tuán)隊(duì)的一個(gè)強(qiáng)烈信號(hào):針對(duì)代碼場景做專門訓(xùn)練,勝過盲目堆參數(shù)

對(duì)一線工程師來說,這條發(fā)現(xiàn)意味著:

  • ? 部署 0.5B 的代碼專用模型,延遲可能只有 8B 通用模型的 1/10,效果卻更好

  • ? 在 GPU 資源緊張的邊緣場景,代碼專精方向是顯著劃算的

  • ? 選型時(shí)不要被"參數(shù)量"或"通用 leaderboard 排名"帶偏,必須用與你業(yè)務(wù)場景同構(gòu)的基準(zhǔn)做實(shí)測(cè)

發(fā)現(xiàn) 3:Qwen3 的"中段塌陷"——尺度律并非萬能

Qwen3 系列展現(xiàn)了非常詭異的非單調(diào)縮放:

  • ? Qwen3-0.6B:C2C nDCG@10 = 0.3836

  • ? Qwen3-4B:C2C nDCG@10 =0.3917(僅微漲)

  • ? Qwen3-8B:C2C nDCG@10 =0.3204(反向下跌)

8B 模型在跨語言代碼檢索上比 0.6B 還差——這種"中段塌陷"在通用文本檢索任務(wù)里幾乎不會(huì)出現(xiàn),但在代碼任務(wù)里卻頻繁可見。可能的原因包括:訓(xùn)練數(shù)據(jù)中代碼占比下降、對(duì)比學(xué)習(xí)溫度參數(shù)與負(fù)例池規(guī)模的微妙不匹配、或是模型容量過剩導(dǎo)致的過擬合。這是一個(gè)值得整個(gè)社區(qū)深入研究的現(xiàn)象。

發(fā)現(xiàn) 4:子任務(wù)粒度才是真相——總分會(huì)撒謊



子任務(wù)級(jí)別細(xì)粒度對(duì)比

總分掩蓋了許多細(xì)節(jié)。從子任務(wù)級(jí)別可以看到,不同模型的強(qiáng)項(xiàng)分布迥異——有的擅長 retro 重檢索,有的擅長 search 泛化,有的在 cross-lang 跨語言任務(wù)上一騎絕塵,有的則在 match 子任務(wù)上表現(xiàn)穩(wěn)定。

沒有真正的"全能選手"。這就是為什么 CoREB 堅(jiān)持發(fā)布所有子任務(wù)的細(xì)粒度結(jié)果——我們希望讓工程師在選型時(shí),能精準(zhǔn)對(duì)位自己的業(yè)務(wù)場景,而不是被"平均分"誤導(dǎo)。

發(fā)現(xiàn) 5:reranker 不是萬能補(bǔ)丁

我們額外測(cè)試了 reranker 在 4 個(gè)代表性模型上的效果:



Reranker 對(duì)三任務(wù)帶來的 nDCG 增量

  • ?C2T 任務(wù)上 reranker 持續(xù)拖累性能(?0.042 到 ?0.079)。原因是 C2T 的語料庫較小(僅 875 條),cross-encoder 反而容易被噪聲文本"過度評(píng)分"

  • ?C2C 任務(wù)上 reranker 大多有幫助(+0.005 到 +0.046)。cross-encoder 在跨語言細(xì)粒度區(qū)分上確實(shí)更強(qiáng)

  • ?T2C 任務(wù)上 reranker 幾乎不動(dòng)(?0.009 到 +0.015)。任務(wù)難度過高,單層 reranker 難以撬動(dòng)

這個(gè)結(jié)果對(duì)工業(yè)系統(tǒng)設(shè)計(jì)有直接啟示:

"加個(gè) reranker"并不是免費(fèi)午餐。它在某些任務(wù)上確實(shí)能漲點(diǎn),但在另一些任務(wù)上反而會(huì)成為系統(tǒng)的拖累。設(shè)計(jì)前必須做完整的端到端基準(zhǔn)測(cè)試。
發(fā)現(xiàn) 6:任務(wù)難度排序高度一致

C2T (0.59–0.78) > C2C (0.32–0.70) > T2C (0.33–0.44)

這個(gè)順序在所有 11 個(gè)模型上無一例外。T2C 的天花板遠(yuǎn)低于另外兩個(gè)任務(wù),意味著"從自然語言到代碼"的檢索仍是當(dāng)前嵌入技術(shù)最薄弱的環(huán)節(jié),也是潛在收益最大的研究方向之一。

六、Reranker 訓(xùn)練與評(píng)測(cè):嚴(yán)格的 train-on-v2、test-on-v3 協(xié)議

我們不只發(fā)布數(shù)據(jù)集,也提供了完整的 reranker 訓(xùn)練/評(píng)測(cè)管線,希望幫助社區(qū)在統(tǒng)一協(xié)議下推進(jìn) cross-encoder 這一方向的研究:

步驟

輸出

規(guī)模

訓(xùn)練集構(gòu)建

v202602_v2 qrels

v202602_v2_reranker_train/3,803 條

測(cè)試集構(gòu)建

v202603_v2 qrels

v202603_v2_reranker_test/3,692 條

每條訓(xùn)練樣本帶有1 個(gè)正例 + 3 個(gè)硬負(fù)例 + 約 29 個(gè)易負(fù)例,覆蓋 T2C / C2T / C2C 三個(gè)任務(wù)。我們刻意保留了硬負(fù)例與易負(fù)例的混合比例,讓 reranker 既能學(xué)到細(xì)粒度區(qū)分,也能保持對(duì)全局語義結(jié)構(gòu)的穩(wěn)健性。

每條記錄的 schema 簡潔清晰:

{
"query_id": "q_t2c_canonical_retro_any_0001",
"task": "text2code",
"subtask": "t2c_canonical_retro_any",
"query": "...",
"pos": [{"id": "code_v202601_00009", "text": "..."}],
"hard_neg": [{"id": "...", "text": "..."}, ...],
"easy_neg": [{"id": "...", "text": "..."}, ...]
}

最關(guān)鍵的是:v202602 與 v202603 在 source_problem_id 層面完全不重疊。兩個(gè) release 覆蓋互不相交的競賽時(shí)間窗(Sep 2024–Jan 2025 vs Jan 2025–Apr 2025),從根本上杜絕了"在訓(xùn)練集上微調(diào)出測(cè)試集表現(xiàn)"的數(shù)據(jù)泄漏風(fēng)險(xiǎn)。

我們也觀察到:用 v202602_v2 訓(xùn)練得到的 reranker,在 v202603_v2 測(cè)試集上的 T2C / C2C 提升均能穩(wěn)定保持——這恰恰說明 CoREB 的訓(xùn)練信號(hào)是可遷移、可泛化的,而不是簡單的題目記憶。

七、面向社區(qū)開放:一行代碼即可使用

CoREB 的全部數(shù)據(jù)已在 HuggingFace 完全開源:

from datasets import load_dataset

# 加載代碼語料庫
corpus = load_dataset("hq-bench/coreb", "code_corpus", split="release_v2603")

# 加載 T2C 任務(wù)
queries = load_dataset("hq-bench/coreb", "text2code_queries", split="release_v2603")
qrels = load_dataset("hq-bench/coreb", "text2code_qrels", split="release_v2603")

# 也可以切換到 v202602 release(適合用于訓(xùn)練)
old_corpus = load_dataset("hq-bench/coreb", "code_corpus", split="release_v2602")
old_qrels = load_dataset("hq-bench/coreb", "text2code_qrels", split="release_v2602")

8 個(gè) config(code/text 語料庫 + 三任務(wù)的 queries/qrels)× 2 個(gè) release 切片,覆蓋從語料庫、查詢到 qrel 的全部內(nèi)容。所有數(shù)據(jù)均為標(biāo)準(zhǔn) parquet 格式,元數(shù)據(jù)字段(如source_problem_idlanguagemodelsolution_key)一應(yīng)俱全,方便做任意維度的切片分析。

八、給研究者和工程師的話

如果你正在做這些事情,CoREB 都能立刻為你帶來價(jià)值:

  • ?嵌入模型訓(xùn)練:CoREB 提供高質(zhì)量的三級(jí)標(biāo)注,可直接作為 hard negative 來源;正負(fù)例都經(jīng)過測(cè)試用例真實(shí)驗(yàn)證,不需要擔(dān)心"標(biāo)簽噪聲"

  • ?代碼搜索產(chǎn)品:T2C 的search子任務(wù)模擬了真實(shí)"無完美匹配"的檢索場景,是評(píng)估候選模型上線前的最佳壓力測(cè)試

  • ?Reranker 研究:我們公開了完整的 train/test 協(xié)議、3,803 條訓(xùn)練樣本與 3,692 條測(cè)試樣本,開箱即用

  • ?多語言代碼理解:C2C 任務(wù)覆蓋 5 種語言 × 175 道題,是研究跨語言代碼語義對(duì)齊的天然數(shù)據(jù)源

  • ?可解釋性研究:C2T 上 LLM 生成的近似噪聲文本,可作為研究"模型如何區(qū)分功能性描述與表面相似描述"的探針

  • ?模型選型:在你的業(yè)務(wù)上線前,先用 CoREB 對(duì)幾個(gè)候選模型做端到端對(duì)比——?jiǎng)e讓 leaderboard 的平均分蒙蔽你

九、我們相信的事

評(píng)測(cè)從來不是終點(diǎn),而是研究方法論的起點(diǎn)。一個(gè)好的基準(zhǔn)應(yīng)該做到三件事:

  1. 1.暴露當(dāng)前 SOTA 的真實(shí)短板——而不是讓所有模型都看起來"差不多"

  2. 2.劃出清晰的研究方向——告訴社區(qū)接下來該把精力投向哪里

  3. 3.抵御作弊與污染——讓數(shù)字本身值得信任

CoREB 的目標(biāo)正是這三件事的合一。我們不希望它成為又一個(gè)"看起來很熱鬧"的榜單,而是希望它成為代碼語義檢索領(lǐng)域接下來幾年的事實(shí)標(biāo)準(zhǔn)之一——一個(gè)讓大家在同一個(gè)客觀、嚴(yán)格、不可作弊的舞臺(tái)上比較模型的公共基礎(chǔ)設(shè)施。

螞蟻集團(tuán)一直以來都在大規(guī)模代碼檢索、代碼理解、代碼生成的真實(shí)業(yè)務(wù)場景里持續(xù)投入。CoREB 是我們把這些場景中沉淀下來的方法論、痛點(diǎn)、與解決思路反哺社區(qū)的一個(gè)具體動(dòng)作。我們也希望以此為起點(diǎn),與社區(qū)一同推動(dòng)代碼語義理解的研究前沿——從"看起來很好"推到"真的好用"。

如果你在閱讀中產(chǎn)生了任何想法、質(zhì)疑、或建議,歡迎在 HuggingFace 倉庫的 issue 區(qū)與我們交流。每一個(gè)真誠的反饋,都會(huì)讓 CoREB 變得更好。

出品方:螞蟻集團(tuán)
數(shù)據(jù)集:hq-bench/corebon HuggingFace
論文與最新榜單:持續(xù)更新中
歡迎在 issue 中提出問題、提出新任務(wù)、或加入更多模型的對(duì)比評(píng)測(cè)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
菲利克斯:我沒義務(wù)傳球給C羅!葡國腳表態(tài)句句誅心,球王遭拋棄

菲利克斯:我沒義務(wù)傳球給C羅!葡國腳表態(tài)句句誅心,球王遭拋棄

林雁飛
2026-06-23 13:03:27
全球出現(xiàn)致命詭異趨勢(shì):看似落后的印度,或?qū)⒊蔀槿澜缱畲箅[患

全球出現(xiàn)致命詭異趨勢(shì):看似落后的印度,或?qū)⒊蔀槿澜缱畲箅[患

蜉蝣說
2026-06-23 16:40:06
雄鹿出全新15人名單!名記透露希羅或再換隊(duì):特納庫茲馬還在詢價(jià)

雄鹿出全新15人名單!名記透露希羅或再換隊(duì):特納庫茲馬還在詢價(jià)

顏小白的籃球夢(mèng)
2026-06-23 19:01:44
一夜之間上萬斤粽子下架,不冷凍不重做,最后流向哪了呢?

一夜之間上萬斤粽子下架,不冷凍不重做,最后流向哪了呢?

小談食刻美食
2026-06-23 07:42:18
快訊!俄羅斯杜布納航天通信中心被炸!

快訊!俄羅斯杜布納航天通信中心被炸!

故事終將光明磊落
2026-06-23 11:04:37
原來他倆已離婚9年,一直共同撫養(yǎng)兒女,如今孩子一個(gè)比一個(gè)爭氣

原來他倆已離婚9年,一直共同撫養(yǎng)兒女,如今孩子一個(gè)比一個(gè)爭氣

以茶帶書
2026-06-22 17:41:20
貝克漢姆14歲的女兒小七怎么如此成熟了,好像少婦

貝克漢姆14歲的女兒小七怎么如此成熟了,好像少婦

西樓知趣雜談
2026-06-13 19:52:21
皇馬收到明確底價(jià):想簽下邁克爾?奧利塞,必須掏出2.22億歐元!

皇馬收到明確底價(jià):想簽下邁克爾?奧利塞,必須掏出2.22億歐元!

夜白侃球
2026-06-22 22:14:51
陳吉寧分別會(huì)見法國賽諾菲集團(tuán)全球首席執(zhí)行官葛麗鶴、英國匯豐集團(tuán)主席聶智恒

陳吉寧分別會(huì)見法國賽諾菲集團(tuán)全球首席執(zhí)行官葛麗鶴、英國匯豐集團(tuán)主席聶智恒

界面新聞
2026-06-23 19:41:38
難以置信,北京協(xié)和證實(shí):40歲后男性最優(yōu)運(yùn)動(dòng),并非跑步擼鐵

難以置信,北京協(xié)和證實(shí):40歲后男性最優(yōu)運(yùn)動(dòng),并非跑步擼鐵

華庭講美食
2026-06-21 15:26:10
陳小春演唱會(huì),退票方案公布!粉絲不滿

陳小春演唱會(huì),退票方案公布!粉絲不滿

南方都市報(bào)
2026-06-23 09:35:23
楊瀚森今夜首發(fā)!中國男籃VS荷蘭,先發(fā)5人出爐:賀希寧領(lǐng)銜防線

楊瀚森今夜首發(fā)!中國男籃VS荷蘭,先發(fā)5人出爐:賀希寧領(lǐng)銜防線

足球評(píng)論大家談
2026-06-23 19:29:57
中國科學(xué)家意外證實(shí):沙漠中太陽能電池板可以喚醒荒漠生態(tài)系統(tǒng)

中國科學(xué)家意外證實(shí):沙漠中太陽能電池板可以喚醒荒漠生態(tài)系統(tǒng)

小祁談歷史
2026-06-23 08:27:33
遺憾!上海一體彩站尋找中獎(jiǎng)?wù)?年,用盡方法都聯(lián)系不上,老店主:希望把這筆錢給到他....

遺憾!上海一體彩站尋找中獎(jiǎng)?wù)?年,用盡方法都聯(lián)系不上,老店主:希望把這筆錢給到他....

北青網(wǎng)-北京青年報(bào)
2026-06-23 13:43:18
一個(gè)殘酷真相:再過三年,再大牌的明星,也可能徹底無戲可拍

一個(gè)殘酷真相:再過三年,再大牌的明星,也可能徹底無戲可拍

一盅情懷
2026-06-23 13:34:28
保持冷靜,哈蘭德:法國大概會(huì)贏我們,他們可能會(huì)奪冠

保持冷靜,哈蘭德:法國大概會(huì)贏我們,他們可能會(huì)奪冠

懂球帝
2026-06-23 14:27:22
全新寶馬X5要來了,或6月30日首發(fā),國產(chǎn)依舊加長

全新寶馬X5要來了,或6月30日首發(fā),國產(chǎn)依舊加長

汽車公告板
2026-06-23 17:47:34
大放狠話!一國黨黨魁要求承認(rèn)“臺(tái)灣是獨(dú)立國家”。澳官媒:瘋了,華人:不能投票給她

大放狠話!一國黨黨魁要求承認(rèn)“臺(tái)灣是獨(dú)立國家”。澳官媒:瘋了,華人:不能投票給她

澳洲紅領(lǐng)巾
2026-06-23 14:31:46
10余省份公布高考查分時(shí)間

10余省份公布高考查分時(shí)間

新京報(bào)
2026-06-09 16:56:16
日本球迷亮出旭日旗,鈞正平:沾滿侵略血污的“戰(zhàn)犯旗”,被國際足聯(lián)明令禁止,世界杯賽場不是軍國主義的招魂地

日本球迷亮出旭日旗,鈞正平:沾滿侵略血污的“戰(zhàn)犯旗”,被國際足聯(lián)明令禁止,世界杯賽場不是軍國主義的招魂地

揚(yáng)子晚報(bào)
2026-06-22 22:31:27
2026-06-23 20:47:00
開源中國 incentive-icons
開源中國
每天為開發(fā)者推送最新技術(shù)資訊
7823文章數(shù) 34546關(guān)注度
往期回顧 全部

科技要聞

48名中國開發(fā)者聯(lián)名舉報(bào)蘋果

頭條要聞

17歲女孩被閨蜜持刀刺成重傷對(duì)方自殺身亡 警方已撤案

頭條要聞

17歲女孩被閨蜜持刀刺成重傷對(duì)方自殺身亡 警方已撤案

體育要聞

揚(yáng)尼斯去了邁阿密:凱爾特人怎么辦?

娛樂要聞

內(nèi)娛95后頂流格局發(fā)生潛移默化的變化

財(cái)經(jīng)要聞

屋頂光伏度苦夏

汽車要聞

華為智駕ADS限時(shí)優(yōu)惠月底結(jié)束 7月1日前下訂立省3000元

態(tài)度原創(chuàng)

房產(chǎn)
本地
時(shí)尚
藝術(shù)
公開課

房產(chǎn)要聞

洞察新局|預(yù)算不變 居住升級(jí) 2026廣州置業(yè)成本觀察

本地新聞

吃一次廣東龍舟飯,才懂什么是豪華盛宴

除了瑪麗珍、薄底鞋,今年最火的鞋子就是它了

藝術(shù)要聞

蘇軾醉酒后寫的草書,比張旭、懷素境界還高

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版