網易首頁 > 網易號 > 正文 申請入駐

F2LLM-v2開源:讓語言不再是障礙,讓AI觸手可及

0
分享至

在 RAG(檢索增強生成)、語義搜索和大規模數據分析的浪潮中,嵌入模型(Embedding Model)是不可或缺的底層基石。然而,當前的 Embedding 研究正面臨兩大挑戰:

  1. 英語中心化偏見:多數模型在英文以及中文上表現強悍,但在其他中低資源語言上力不從心。
  2. 透明度鴻溝:頂尖模型(如 Gemini、Qwen3-Embedding 等)多為閉源 API 或僅開放權重,其訓練數據和方法論往往秘而不宣,嚴重阻礙了開源社區的復現與進化。

針對這些痛點,螞蟻集團聯合上海交通大學正式發布并開源了 F2LLM-v2。這不僅是一個性能霸榜的工具,更是對“開源透明”和“語言普惠”的一次深度踐行。


開源地址: GitHub:https://github.com/codefuse-ai/CodeFuse-Embeddings[1] Hugging Face:https://huggingface.co/collections/codefuse-ai/f2llm[2]
1. 真正的“全開源”:數據、代碼、檢查點全量交付

與市面上許多閉源接口或黑盒模型不同,F2LLM 團隊始終堅持開源精神。

這一次,團隊精心構建了一個包含6000萬高質量樣本的訓練語料庫,涵蓋282種自然語言和40多種編程語言。最重要的是,這些數據全部源自公開資源,且團隊公開了完整的訓練配方、中間檢查點以及相關代碼。

這種全方位透明度不僅方便研究者復現,更為全球開發者構建真正包容、多語種的 AI 應用提供了肥沃的土壤。

2. 霸榜 11 項 MTEB,定義多語言 SOTA

F2LLM-v2 在 MTEB(最權威的大規模文本嵌入評測基準)上的表現堪稱驚艷。其14B與8B版本在 11 個 MTEB 分支榜單上摘得桂冠。

無論是歐洲語言、斯堪的納維亞語系,還是波斯語、越南語等中低資源語言,F2LLM-v2 均刷新了 SOTA 記錄。特別是在代碼搜索領域,F2LLM-v2 延續了 CodeFuse 家族的強項,與團隊數月前開源的代碼專用嵌入模型 C2LLM 并列第一,成為開發者構建智能化代碼庫檢索的首選。


3. 全尺寸布局:從 80M 到 14B 的極致覆蓋

為了適應從邊緣設備到大型數據中心的全場景需求,F2LLM-v2 推出了8 種不同尺寸的模型:

  • 輕量級(80M / 160M / 330M):適用于對延遲極其敏感的終端應用。
  • 主流級(0.6B / 1.7B / 4B):兼顧性能與效率。
  • 重型(8B / 14B):為企業級檢索系統提供最高精度的語義表征。

值得關注的是,通過模型剪枝和知識蒸餾技術,小尺寸模型在推理效率大幅提升的同時保留了強大性能,打破了“小模型無高性能”的迷思。

同時,F2LLM-v2 家族的所有模型均支持套娃式表征,任意截取輸出嵌入的開頭維度即可獲得接近全維度的性能。這為開發者在存儲成本和檢索速度之間提供了極大的靈活權衡空間。


4. 結語:共同打造一個更包容、更透明的 AI 世界

F2LLM-v2 不僅僅是一個技術報告中的數字,它代表了開源社區的一種力量——不依賴封閉數據與技術,依然能做出世界頂級性能的模型。

無論你是正在構建多語言 RAG 系統的開發者,還是專注于向量表征的研究者,F2LLM-v2 都是一個值得點贊和深入挖掘的開源寶庫。

立刻加入開源社區,共同探索 F2LLM-v2 的無限可能!


  1. https://github.com/codefuse-ai/CodeFuse-Embeddings
  2. https://huggingface.co/collections/codefuse-ai/f2llm

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
橫店群演現狀!已被AI逼到無戲可拍,近年群演上崗機會銳減70%

橫店群演現狀!已被AI逼到無戲可拍,近年群演上崗機會銳減70%

小徐講八卦
2026-04-21 09:03:46
張天愛太大膽了穿這么敢去沙灘玩

張天愛太大膽了穿這么敢去沙灘玩

阿廢冷眼觀察所
2026-04-14 12:42:56
華誼虧損超82億,不放棄事業不整容的羅海瓊,才是最清醒的老板娘

華誼虧損超82億,不放棄事業不整容的羅海瓊,才是最清醒的老板娘

一盅情懷
2026-04-18 08:08:54
文章面館開業4天后,終于有藝人到場!網友:這對比太心酸了

文章面館開業4天后,終于有藝人到場!網友:這對比太心酸了

娛小余
2026-04-19 23:21:33
明天起 廣州兩大片區實施臨時交通管制

明天起 廣州兩大片區實施臨時交通管制

廣州交通電臺
2026-04-23 17:35:33
毛主席因失眠向衛士發火,李銀橋去找江青幫忙,江青:我去勸主席

毛主席因失眠向衛士發火,李銀橋去找江青幫忙,江青:我去勸主席

微野談寫作
2026-04-23 08:50:09
風流成性被稱極品,57歲仍單身,她的傳奇人生

風流成性被稱極品,57歲仍單身,她的傳奇人生

暖心萌阿菇涼
2026-04-22 17:20:37
52歲男子總懷疑妻子出軌,動輒打罵家人,確診神經梅毒晚期,與其20年前高危性行為史有關

52歲男子總懷疑妻子出軌,動輒打罵家人,確診神經梅毒晚期,與其20年前高危性行為史有關

觀威海
2026-04-23 13:56:14
何潤東被考古,曾參加《非誠勿擾》被嫌嘴唇厚,介紹完滅了7盞燈

何潤東被考古,曾參加《非誠勿擾》被嫌嘴唇厚,介紹完滅了7盞燈

非常先生看娛樂
2026-04-04 16:57:06
翻車了!山東泰山鐵了心要換馬德魯加,球迷:早該動手了!

翻車了!山東泰山鐵了心要換馬德魯加,球迷:早該動手了!

生活新鮮市
2026-04-23 18:16:46
不可思議!現在的大學校園里有個很明顯的現象:男女生根本不談戀愛

不可思議!現在的大學校園里有個很明顯的現象:男女生根本不談戀愛

市井大實話
2026-04-23 09:24:57
不裝了?馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

不裝了?馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

大衛聊科技
2026-04-23 12:13:36
老球王戴維斯:純競技水平亨得利無緣歷史前三,甚至打不過塞爾比

老球王戴維斯:純競技水平亨得利無緣歷史前三,甚至打不過塞爾比

楊華評論
2026-04-22 21:05:33
服軟了?特朗普通告全球:不能再冒犯中國了,一定要保持和平相處

服軟了?特朗普通告全球:不能再冒犯中國了,一定要保持和平相處

墨印齋
2026-04-23 17:45:38
打完伊朗,再閃擊土耳其?美智庫發出戰爭警告,盧卡申科判斷沒錯

打完伊朗,再閃擊土耳其?美智庫發出戰爭警告,盧卡申科判斷沒錯

影孖看世界
2026-04-22 23:24:13
今夜,全線大漲!霍爾木茲,突發!

今夜,全線大漲!霍爾木茲,突發!

中國基金報
2026-04-23 00:26:06
申花剛擊敗海牛隊!斯盧茨基賽后就發聲做出重要決定,事關特謝拉

申花剛擊敗海牛隊!斯盧茨基賽后就發聲做出重要決定,事關特謝拉

張麗說足球
2026-04-23 11:12:18
5月1日執行!酒駕處罰全面升級,再敢喝酒開車,代價太大了

5月1日執行!酒駕處罰全面升級,再敢喝酒開車,代價太大了

大魚簡科
2026-04-23 14:35:54
兒子早戀被叫家長!必須形象管理,畢竟第一次見親家,評論區炸鍋

兒子早戀被叫家長!必須形象管理,畢竟第一次見親家,評論區炸鍋

夜深愛雜談
2026-04-21 20:06:20
全球第一個國家宣布:儲備6月耗盡

全球第一個國家宣布:儲備6月耗盡

中國新聞周刊
2026-04-23 07:27:04
2026-04-23 19:32:49
開源中國 incentive-icons
開源中國
每天為開發者推送最新技術資訊
7705文章數 34536關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

五角大樓"斬"海軍部長 知情人士:他沒認清誰是老大

頭條要聞

五角大樓"斬"海軍部長 知情人士:他沒認清誰是老大

體育要聞

萊斯特城降入英甲,一場虧麻了的豪賭

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

關于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

數碼
時尚
本地
房產
軍事航空

數碼要聞

消息稱三星電子、金士頓雙雙向渠道通知固態硬盤漲價至少10%

這4件衣服,從春天穿到夏天都很好看

本地新聞

SAGA GIRLS 2026女團選秀

房產要聞

三亞安居房,突然官宣!

軍事要聞

人民海軍成立77周年 主力艦艇亮相上海

無障礙瀏覽 進入關懷版