網易首頁 > 網易號 > 正文 申請入駐

你是否也曾榨干過DeepSeek?

0
分享至

在今年深度體驗AI大模型的3個月里,我發現無論他回答的對不對,大多數時候,他基本都能在1分鐘內能生成回答(很多時候是秒答),無論回答質量如何,是否有幻覺,他都能很快給你答完就是了。

但是,有這么一類問題,他的答案普遍簡短,有的短到只有一個單詞,長的也不超過10個單詞,卻常常讓 DeepSeek深度思考五分鐘以上,過程中動不動還爆出數千字以上的思維鏈。

比如下面這個問題:

中間的思維鏈就更長了,接近5000字,我就不全截圖了,你可以想象它在將近5分鐘里,一直在生成思維鏈,全文包含79個wait:

還有下面這個問題,花了將近6分鐘

這兩個問題,別看題目不長,答案也都很短,大模型花了這么久,但是依然做錯了。

這些問題,都來自一個測試,就是OpenAI在4月上旬發布的BrowseCamp,瀏覽競賽。

這個測試,主要就測一個能力:定位很難尋找的、復雜糾纏的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.

其實說白了,就是要看看大模型們瀏覽網頁和搜索信息的能力,到底強到什么地步了?因為現有的測試比如SimpleQA,其實已經被“刷爆”了。

但是,基本上沒太多人討論這個 BrowseCamp,它被淹沒在4o生圖的火熱和最近的o3模型的發布之中了。

瀏覽競賽里的問題集的最大特點,就是答案簡單,但是,題干一定會用最虛無縹緲的特征描述,把簡單的答案層層包裹起來。

比如,答案是一個歷史名人,但是,題干是這個人最冷僻、最不為人所知的信息點,甚至是有很大誤導性的信息點,比如這個描述同時也有很多其它人符合或者是很籠統的描述,最終,你會很難猜這個人是誰。

比如劉備,大家都知道,如果問桃園三結義里的大哥是誰,那就太好猜了。

如果這么問:某河北籍男子,身高1米88,15歲外出求學,中年創業多次失敗,兒子很不成器,晚年因為要給弟弟報仇,63歲客死他鄉。

是不是難了很多?

當然,理論上,還要加入更多的限制性條件,讓答案唯一。

以上信息,還算是很好找的,所有信息都在一個百度百科的網頁里都有了(因為就是我幾分鐘內現編的,如果信息有誤請找百度)。

但問題是,在不知道答案是劉備的前提下,而且題干的信息給得更朦朧更誤導一點的話,大模型往往需要橫跨數十個甚至上百個網頁,才有可能定位到其中某個信息,然后開始驗證,排除,再查找,再驗證...最后,答錯了。

官方論文里的另一個例題:請告訴我一篇發表在 2018 至 2023 年間 EMNLP 會議上的論文,其第一作者本科畢業于達特茅斯學院(Dartmouth College),第四作者本科畢業于賓夕法尼亞大學(University of Pennsylvania)。

答案:Frequency Effects on Syntactic Rule Learning in Transformers,EMNLP 2021

這些問題在知道答案的時候,都很容易確認,就是1分鐘的事情,但是不知道答案的話,模型就得暴力搜索數千篇論文了。

這是官方所謂的“驗證的不對稱性 asymmetry of verification ”:驗證 容易,解答困難。但是,這就恰恰符合了這個測試的目標:大模型的檢索能力。

雖不完美,卻也有效。它不是考驗 next token predidtion的能力,畢竟題干和答案都很短,也不太考驗推理能力,因為不太需要什么深度研究分析(不過 普遍來說推理模型的表現還是會更好),只要找得到信息,就能回答正確。

下圖顯示了 BrowseCamp的整體測試結果:花的時間越久,正確率越高,這也是之前DeepSeek會花那么久的原因之一,但是,正確率最高的模型,也就50%左右,而且嚴格來說,它還不算一個模型,而是agent

瀏覽競賽里的問題,實在也不好編,官方說,現在攏共只有1266個問題。官網放出了5道例題,我分別讓DeepSeek V3、R1不開聯網、R1開聯網,分別測試了5個問題,每次都新開對話窗口,一共15次測試,全軍覆沒。(注意,這并非是說 DeepSeek一道都做不對,而是正確率大概率很低)

而且,在沒有聯網的情況下,出現了前述 的超長回答時間的問題,理論上,這種自我榨干的情況不該出現,它應該早一點發現自己其實根本無法作答,然后再給出一個它認為最有可能正確的猜測即可(注:R1的表現比V3好)。

那么,到底什么模型表現最好呢?很遺憾,OpenAI還只測試了自家的模型,暫時沒啥橫向可比性,雖然我認為瀏覽網頁和尋找信息的能力,肯定是agent們包含的各種 tool use能力里最重要的一個。

新上線的o3,不提它在視覺理解方面的能力,就因為相比o1有了browsing功能(當然還有更強的推理能力),正確率提高了很多。(o1在沒有聯網功能的情況下,僅靠內部知識庫,答對了其中10%的問題)

我的三個小心得:

1、無論現有大模型在browsing方面表現如何,它們都在飛快進步和提升;

2、一旦遇到這種要查很多資料的任務,先讓大模型做一遍, 做對最好,沒做對也沒關系,它的搜索過程和給出的回答,還是能給你節約不少時間;

3、不要只問一次,在看了它第一遍的回答后,自己找找資料,思考思考,再繼續給更多提示詞,問第二次,第三次,榨干它,很快,你也會接近答錯了

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
島內最新民調出爐!賴清德總算反應過來,鄭麗文訪陸讓統一不遠了

島內最新民調出爐!賴清德總算反應過來,鄭麗文訪陸讓統一不遠了

野史日記
2026-04-24 10:10:09
平臺下注AI短劇:有男主4000元/天片酬,報價跌至400元/天

平臺下注AI短劇:有男主4000元/天片酬,報價跌至400元/天

新京報
2026-04-24 20:09:34
抗美援朝時,韓國上將得知志愿軍將領為自己老上級,連夜率部離開

抗美援朝時,韓國上將得知志愿軍將領為自己老上級,連夜率部離開

云霄紀史觀
2026-04-24 15:13:45
超聚變完成A股IPO輔導

超聚變完成A股IPO輔導

每日經濟新聞
2026-04-25 14:31:51
55歲"紙片人"魯豫,與小19歲男友同居后變樣,如今她令人大跌眼鏡

55歲"紙片人"魯豫,與小19歲男友同居后變樣,如今她令人大跌眼鏡

觀察鑒娛
2026-04-17 09:43:01
趙文卓9歲幼女奪拉丁舞冠軍,子月舞姿靈動,趙子龍為妹妹打Call

趙文卓9歲幼女奪拉丁舞冠軍,子月舞姿靈動,趙子龍為妹妹打Call

娛珈歪歪魚
2026-04-25 20:08:39
倒閉13年的以色列公司,指控蔚來侵犯專利并索要2.5億美元

倒閉13年的以色列公司,指控蔚來侵犯專利并索要2.5億美元

墨印齋
2026-04-25 15:01:21
男子在蔣介石故居對面別墅區,花214.19萬法拍下兩更衣室兩廁所,還有1100余平方米土地使用權,兩年來無法使用

男子在蔣介石故居對面別墅區,花214.19萬法拍下兩更衣室兩廁所,還有1100余平方米土地使用權,兩年來無法使用

大風新聞
2026-04-24 15:13:07
佟麗婭空降南寧打卡!路人隨手拍生圖絕了,這狀態誰看了不迷糊!

佟麗婭空降南寧打卡!路人隨手拍生圖絕了,這狀態誰看了不迷糊!

陳意小可愛
2026-04-25 16:32:09
女王離世4年,王室全家福現荒誕一幕:國王站著,王后叉腿

女王離世4年,王室全家福現荒誕一幕:國王站著,王后叉腿

小魚愛魚樂
2026-04-25 20:28:59
回顧 上海老人摔倒1小時,路人怕被訛無人扶,到醫院后竟賴上護士

回顧 上海老人摔倒1小時,路人怕被訛無人扶,到醫院后竟賴上護士

談史論天地
2026-04-25 14:00:08
4月25日俄烏:奔襲1800公里、跨越烏拉爾山脈的無人機襲擊

4月25日俄烏:奔襲1800公里、跨越烏拉爾山脈的無人機襲擊

山河路口
2026-04-25 19:42:09
剖析項英犧牲真相:為何多次拒絕毛澤東北上命令?因自己兩個私心

剖析項英犧牲真相:為何多次拒絕毛澤東北上命令?因自己兩個私心

阿胡
2025-04-20 11:05:46
江蘇一女子曬出剛完工的新家,因滿墻柜子徹底火了,太高級!

江蘇一女子曬出剛完工的新家,因滿墻柜子徹底火了,太高級!

手工制作阿愛
2026-04-25 18:13:57
一場112-108的險勝,讓火箭絕望,雷霆感到壓力,西部重新洗牌

一場112-108的險勝,讓火箭絕望,雷霆感到壓力,西部重新洗牌

毒舌NBA
2026-04-25 11:52:22
徹底焊死了!

徹底焊死了!

安安說
2026-04-25 11:52:50
蘇翊鳴朱易4年戀情結束!雙方互相取關,女方曬眼淚照喊話向前走

蘇翊鳴朱易4年戀情結束!雙方互相取關,女方曬眼淚照喊話向前走

阿纂看事
2026-04-25 18:08:58
“80后”!211大學組織部長,跨校任副校長

“80后”!211大學組織部長,跨校任副校長

雙一流高校
2026-04-25 00:09:58
蔣萬安發出強硬警告,"中國臺灣省"走向國際,10國選擇明智應對

蔣萬安發出強硬警告,"中國臺灣省"走向國際,10國選擇明智應對

影孖看世界
2026-04-24 11:59:09
電池廠頭都大了!比亞迪突然發難,25萬祭出5.26米SUV,又是閃充

電池廠頭都大了!比亞迪突然發難,25萬祭出5.26米SUV,又是閃充

小李車評李建紅
2026-04-25 08:00:03
2026-04-25 21:07:01
柳胖胖 incentive-icons
柳胖胖
36氪、虎嗅、鈦媒體專欄作者
225文章數 389關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

男童7歲18斤被當腦癱治多年 父母查其出生病歷發現問題

頭條要聞

男童7歲18斤被當腦癱治多年 父母查其出生病歷發現問題

體育要聞

火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

本地
時尚
數碼
游戲
公開課

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

這9種特別的顏色,太適合春夏交替的五月了!

數碼要聞

雷達感應自動開關燈,Yeelight新品來了

LCK第二賽段:Faker冰鳥救世,T1橫掃BRO

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版