網易首頁 > 網易號 > 正文 申請入駐

InfoQ發布2025推理模型評測報告:文心X1 Turbo領跑國內 總分第一

0
分享至

5月29日,極客邦科技雙數研究院InfoQ研究中心正式發布《2025推理模型評測報告》,基于邏輯推理、數學推理、多步推理、語言推理、及幻覺控制五大維度,對OpenAI O3、文心X1 Turbo、DeepSeek-R1、Kimi k1.5、Doubao-1.5-thinking-pro、Qwen3-235B-A22B等八款國內外主流推理模型展開深度評估。報告顯示,文心X1 Turbo以總分第一的成績領跑國內模型,并在幻覺控制、語言推理等核心維度展現顯著優勢,成為國內首個在五大評測維度中斬獲最多單項冠軍的推理模型。

InfoQ研究中心指出,受“推理時計算拓展”與“可驗證獎勵強化學習”兩大技術范式驅動,全球廠商已進入推理模型密集發布期,OpenAI o1、DeepSeek R1、 文心 X1 Turbo、Claude 3.7 Sonnet Reasoning等十余款推理模型相繼上線,爭奪下一代大模型的“推理入場券”。

根據報告,文心X1 Turbo是本次評測中“單項冠軍數量最多”的模型,在五大細分維度中表現亮眼:在幻覺控制方面,文心X1 Turbo以80.56%的得分位列第一,領先DeepSeek-R1、Qwen3-235B-A22B等模型,有效降低模型生成錯誤或誤導性信息的風險;在語言推理方面,文心X1 Turbo以70.31%的得分位列第一,領先Doubao-1.5-thinking-pro、DeepSeek-R1、Qwen3-235B-A22B等模型;在數學推理方面,OpenAI O3以81.25%的得分位列第一,文心X1 Turbo緊跟其后,位居國內第一。

幻覺控制Top 5模型得分情況

語言推理Top 5模型得分情況

報告認為,作為國產推理模型代表,文心X1 Turbo其技術突破不僅標志著國產模型在推理能力上的里程碑式進展,更為AI從“內容生成”向“可驗證邏輯執行”的躍遷提供了關鍵支撐。

隨著技術迭代與場景深化,推理模型把大模型從單純的內容生成器升級為“可驗證的邏輯執行器”。伴隨著單場景推理深度、跨工具編排廣度、在線自進化能力的同步躍升,更多新商業機會正被快速打開。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
創業板指跌逾2% AI硬件、軟件領跌

創業板指跌逾2% AI硬件、軟件領跌

財聯社
2026-04-24 10:10:06
戈貝爾又封鎖約基奇!森林狼力擒掘金,系列賽2-1

戈貝爾又封鎖約基奇!森林狼力擒掘金,系列賽2-1

體壇周報
2026-04-24 12:28:43
加拉塔薩雷官方:即刻起終止與土耳其足協管理層的一切關系

加拉塔薩雷官方:即刻起終止與土耳其足協管理層的一切關系

懂球帝
2026-04-23 18:35:02
這跟不穿有啥區別?好萊塢女星走紐約紅毯,穿衣個個大膽,太前衛

這跟不穿有啥區別?好萊塢女星走紐約紅毯,穿衣個個大膽,太前衛

法老不說教
2026-04-23 19:09:50
太絕了:亞沙會開幕式被外國評論員狂夸!

太絕了:亞沙會開幕式被外國評論員狂夸!

看看新聞Knews
2026-04-23 17:40:03
盯上紅海航道!伊朗戰火下,美國意圖“拉攏”這一非洲小國

盯上紅海航道!伊朗戰火下,美國意圖“拉攏”這一非洲小國

財聯社
2026-04-24 10:02:45
G3輸猛龍!阿特金森直指核心被限制+不滿末節防守,米切爾談攻守

G3輸猛龍!阿特金森直指核心被限制+不滿末節防守,米切爾談攻守

籃球資訊達人
2026-04-24 12:05:27
消失近70年! 2020年, 賀蘭山意外發現, 專家花5年引進6只放歸山林

消失近70年! 2020年, 賀蘭山意外發現, 專家花5年引進6只放歸山林

萬象硬核本尊
2026-04-23 19:04:22
記者:梅西、內馬爾、姆巴佩在巴黎時,更衣室分裂成了幾個幫派

記者:梅西、內馬爾、姆巴佩在巴黎時,更衣室分裂成了幾個幫派

懂球帝
2026-04-24 09:59:08
73歲老人“試住”老年公寓當天猝死,家屬索賠54萬,法院:未簽訂書面合同,公寓適當賠償4.5萬元

73歲老人“試住”老年公寓當天猝死,家屬索賠54萬,法院:未簽訂書面合同,公寓適當賠償4.5萬元

大風新聞
2026-04-23 12:16:07
外資暴跌96%,最高法連夜改規矩,莫迪狂砍蘋果380億,中企敲警鐘

外資暴跌96%,最高法連夜改規矩,莫迪狂砍蘋果380億,中企敲警鐘

丁丁鯉史紀
2026-04-23 13:56:03
內斗嚴重?現在的伊朗到底誰說了算?

內斗嚴重?現在的伊朗到底誰說了算?

極目新聞
2026-04-24 10:40:55
姆巴佩在社交媒體暗戳支持穆里尼奧回歸皇馬后,現任主帥作出回應

姆巴佩在社交媒體暗戳支持穆里尼奧回歸皇馬后,現任主帥作出回應

夜白侃球
2026-04-24 10:51:37
美國高規格邀請俄羅斯參加G20峰會,這說明什么?

美國高規格邀請俄羅斯參加G20峰會,這說明什么?

山河路口
2026-04-23 21:04:50
一夜3大消息!湖人重大利好,衛冕冠軍遭打擊,杜蘭特又添新傷

一夜3大消息!湖人重大利好,衛冕冠軍遭打擊,杜蘭特又添新傷

體壇小李
2026-04-24 07:27:51
霍汶希力挺張敬軒僅6天后續:英皇全藝人遭集體抵制 態度一邊倒

霍汶希力挺張敬軒僅6天后續:英皇全藝人遭集體抵制 態度一邊倒

觀察鑒娛
2026-04-23 12:01:07
爆大冷!西部豪強轟然倒下:全場狂歡慶祝,戈貝爾鎖死約基奇

爆大冷!西部豪強轟然倒下:全場狂歡慶祝,戈貝爾鎖死約基奇

體壇小李
2026-04-24 12:37:36
伊朗接班人面部嚴重燒傷致發聲困難 公開講話被代讀

伊朗接班人面部嚴重燒傷致發聲困難 公開講話被代讀

桂系007
2026-04-23 23:56:56
太慘!被美歐拋棄,走上絕路,宣布破產!

太慘!被美歐拋棄,走上絕路,宣布破產!

李榮茂
2026-04-23 18:33:54
污染源找到,負責人被處理!但河北地下水變紅的關鍵問題還未解決

污染源找到,負責人被處理!但河北地下水變紅的關鍵問題還未解決

社會日日鮮
2026-04-24 07:10:17
2026-04-24 13:07:00
技術領導力 incentive-icons
技術領導力
Mr.K,出過書,做過CTO
91文章數 594關注度
往期回顧 全部

科技要聞

剛剛,DeepSeek-V4 預覽版發布 百萬上下文

頭條要聞

特朗普:不會對伊朗動用核武器 已從軍事上拿下了伊朗

頭條要聞

特朗普:不會對伊朗動用核武器 已從軍事上拿下了伊朗

體育要聞

里程碑之戰拖后腿,哈登18分8失誤

娛樂要聞

王思聰被綠!戀愛期間女友被金主包養

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

全景iDrive 續航近800km 新款寶馬7系/i7亮相

態度原創

教育
數碼
健康
時尚
親子

教育要聞

“假聰明”的孩子,會有3種表現,長大難成大器,父母別高興太早

數碼要聞

專訪巴可王紅波:顯示行業競爭下半場,深耕八大垂直行業與構建共贏生態

干細胞如何讓燒燙傷皮膚"再生"?

今年最好看的3個顏色,太適合夏天了!

親子要聞

春天“長高食譜”大戰:是喂養孩子,還是喂養育兒焦慮?

無障礙瀏覽 進入關懷版