250個醫(yī)療問題拋給5款主流聊天機器人,一半回答有問題——不是措辭生硬,是可能害人的那種問題。
這是《美國醫(yī)學會雜志》子刊剛發(fā)布的研究。測試對象包括ChatGPT、Gemini、Grok、Meta AI和DeepSeek,覆蓋癌癥、疫苗、干細胞、營養(yǎng)和運動表現(xiàn)五大領域。結果?開放式提問的翻車率高到離譜,而普通人恰恰最愛這么問。
![]()
開放式提問是重災區(qū)
研究者設計了兩類提示詞。封閉式像考試選擇題:"阿司匹林能降低結腸癌風險嗎?"開放式則是日常對話:"我想預防癌癥,有什么建議?"
數(shù)據(jù)顯示,開放式問題產(chǎn)生"高度有問題"回答的比例遠高于預期。現(xiàn)實中沒人會對著AI說"請用封閉式問題回答我",人們問的是"這個疫苗安全嗎""那個療法有效嗎"。
這種提問方式把機器人推向了一個危險地帶:答案里混著可靠證據(jù)和薄弱甚至誤導性聲明,表面卻包裝得自信流暢。
Grok和DeepSeek在部分測試中表現(xiàn)尤其不穩(wěn)。前者偶爾會拋出未經(jīng)證實的替代療法,后者在面對中文語境下的醫(yī)療謠言時,反駁力度明顯弱于英文場景。
參考文獻是另一場災難
平均完整度40%。這是五款機器人生成引用來源的得分。沒有一個能給出完全準確的參考文獻列表。
更糟的是編造。研究者明確標記出虛構的論文、不存在的作者、錯誤年份的期刊。但機器人回答時幾乎不加限定詞,"研究表明""臨床證據(jù)顯示"張口就來。
這直接摧毀了用戶信任的基礎邏輯。很多人之所以覺得AI回答靠譜,恰恰是因為它"看起來有出處"。一旦溯源,整段論證可能瞬間崩塌。
一個細節(jié):Gemini在引用格式上最像學術論文,實際準確率卻低于ChatGPT。形式權威≠內(nèi)容可靠,這個陷阱很多人正在踩。
為什么模型越自信越危險
研究里有個反復出現(xiàn)的模式——高確定性表達+低質(zhì)量內(nèi)容。機器人很少說"這方面證據(jù)不足"或"存在爭議",而是直接給建議、下結論。
這種語氣在健康場景下極具欺騙性。用戶分不清"模型訓練數(shù)據(jù)中的高頻表述"和"經(jīng)過驗證的醫(yī)學共識",前者只是統(tǒng)計結果,后者才關乎生命安全。
DeepSeek的回應風格值得單獨拎出來。它在中文語境下傾向于綜合多方觀點,表面顯得"平衡",實則把可靠研究和邊緣理論并列呈現(xiàn),等于變相給偽科學抬咖。
研究者承認測試有局限:只覆蓋五款產(chǎn)品,模型迭代快,提示詞設計本身帶有壓力測試性質(zhì)。但核心結論很難反駁——在循證醫(yī)學話題上,這些系統(tǒng)依然有半數(shù)回答滑向缺陷或不完整區(qū)域。
普通人該怎么用
研究者的建議很克制:聊天機器人或許能幫用戶整理信息、梳理后續(xù)問題,但遠不足以支撐真正的醫(yī)療決策。
更實用的判斷框架來自測試數(shù)據(jù)本身。如果你必須用AI查健康信息,試試這幾條:
把開放式問題拆成封閉式。"怎么降血糖"改成"二甲雙胍對2型糖尿病有效嗎"。問題越具體,胡扯空間越小。
強制要求來源。不要接受"研究表明"這種模糊表述,追問具體期刊、年份、作者。如果AI給不出或給的查不到,整段回答作廢。
警惕"平衡"話術。當AI把主流醫(yī)學觀點和替代療法并列討論時,它不是在客觀,是在抹平證據(jù)強度差異。
交叉驗證。同一問題扔給兩個不同模型,答案沖突的地方就是風險點。
最后一條來自研究者的觀察:目前沒有任何聊天機器人在醫(yī)療場景下達到可獨立使用的可靠性閾值。它們適合當你和醫(yī)生之間的"草稿紙",不是診斷書。
這項研究最諷刺的地方在于時間點。2024年以來,各大廠商密集宣傳AI在醫(yī)療領域的落地,從問診助手到健康管家,概念滿天飛。但基礎測試顯示,最普通的問答環(huán)節(jié)還沒跑通。
技術敘事和工程現(xiàn)實之間的裂縫,有時候用250個提示詞就能測出來。而用戶正在用身體健康填補這個裂縫。
下次你想問AI"這個癥狀嚴重嗎"之前,記得:它有50%的概率給你一個聽起來很對、實則很坑的答案。剩下50%里,還有40%的參考文獻是殘缺的。算完這筆賬,掛號費好像也沒那么貴了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.