研究人員把250個醫(yī)療問題丟給ChatGPT、Gemini、Grok、Meta AI和DeepSeek,結(jié)果一半回答踩了紅線——要么信息殘缺,要么直接誤導(dǎo)。更諷刺的是,這些答案看起來都很專業(yè)。
測試設(shè)計:故意"刁難"還是模擬真實?
![]()
研究團隊選了癌癥、疫苗、干細胞、營養(yǎng)、運動表現(xiàn)五個領(lǐng)域,問題分成兩類:開放式("某種療法有用嗎")和封閉式(帶選項的限定提問)。
開放式問題才是殺招。真實用戶不會用考試卷的方式問AI,他們會問"疫苗安全嗎""怎么提升運動表現(xiàn)"。這種模糊提問讓機器人更容易把可靠證據(jù)和垃圾信息攪在一起端出來。
封閉式問題表現(xiàn)稍好,但代價是場景失真——沒人看病時先給自己編四個選項。
參考文獻:40%完整度的信任危機
用戶信AI的一個重要原因是"它有出處"。研究打臉:平均參考文獻完整度只有40%,沒有一款機器人能給出完全準(zhǔn)確的引用列表。
更糟的是編造。某些回答附帶的文獻根本不存在,但機器人照樣言之鑿鑿,幾乎不加任何風(fēng)險提示。
這對產(chǎn)品設(shè)計是個死結(jié):引用功能本是為建立信任,結(jié)果成了幻覺(人工智能生成虛假信息的傾向)的幫兇。用戶越信"有來源",被誤導(dǎo)時傷得越深。
五款產(chǎn)品的眾生相
研究沒公布具體排名,但點明了共性缺陷:面對證據(jù)型醫(yī)療話題,所有模型都有約半數(shù)回答滑向問題區(qū)間。Gemini、ChatGPT、Grok、Meta AI、DeepSeek,誰也沒逃過。
快速迭代是研究者的免責(zé)聲明——這些產(chǎn)品更新太快,今天的結(jié)果明天可能過時。但核心矛盾不會消失:大語言模型的訓(xùn)練目標(biāo)是對話流暢,不是醫(yī)學(xué)精確。
流暢和精確在醫(yī)療場景經(jīng)常打架。模型要" helpful"(有幫助),用戶要"correct"(正確),中間隔著一道產(chǎn)品倫理的窄門。
用戶行為的隱形推手
研究團隊承認測試有"加壓"成分,可能高估日常場景的出錯率。但另一個角度:當(dāng)用戶把AI當(dāng)搜索引擎用,提問方式天然偏向開放式。
搜索"糖尿病飲食"和問AI"我這種情況該怎么吃",后者給模型留了巨大的發(fā)揮空間。而模型最擅長的就是"自信地填補空白"。
這不是技術(shù)缺陷,是交互設(shè)計的錯位。搜索結(jié)果的免責(zé)聲明放在頁面底部,AI回答把權(quán)威性寫進每一句話的語調(diào)里。
產(chǎn)品啟示:輔助定位的邊界在哪
研究的結(jié)論很克制:聊天機器人可以幫忙總結(jié)信息、整理后續(xù)問題,但"不足以支撐有意義的醫(yī)療決策"。
對從業(yè)者來說,這劃了一條清晰的產(chǎn)品紅線。健康類AI的合規(guī)設(shè)計、風(fēng)險分級、人工兜底機制,都需要圍繞這條線展開。
一個可能的進化方向:強制結(jié)構(gòu)化提問。不是讓用戶自己組織語言,而是用引導(dǎo)式界面把開放式問題拆解成可驗證的子項。代價是交互摩擦,收益是可控性。
另一個方向是引用系統(tǒng)的重構(gòu)。40%的完整度 unacceptable(不可接受),但100%準(zhǔn)確又可能限制回答范圍。中間有沒有"可驗證但有限"的甜蜜點?
冷幽默收尾
最黑色幽默的是研究場景本身:科學(xué)家用精心設(shè)計的問題測試AI,發(fā)現(xiàn)AI在精心設(shè)計的問題上表現(xiàn)不佳。而真實用戶的問題,只會更隨意、更模糊、更帶著個人焦慮的濾鏡。
所以當(dāng)下最靠譜的"AI醫(yī)療產(chǎn)品",可能是一本教你怎么向醫(yī)生描述癥狀的小冊子——至少人類醫(yī)生的參考文獻完整度,通常高于40%。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.