上周,一份醫(yī)學(xué)期刊的論文讓硅谷和健康圈同時(shí)安靜了幾分鐘——五個(gè)最主流的AI聊天機(jī)器人,面對(duì)250個(gè)真實(shí)醫(yī)療問題,有一半的回答踩了紅線。不是答不上來,而是答得流暢、自信、看起來很有道理,實(shí)則摻雜著誤導(dǎo)甚至潛在危險(xiǎn)。
更麻煩的是:普通人根本分不出來。
![]()
測試怎么做的,為什么讓人不安
研究團(tuán)隊(duì)選了ChatGPT、Gemini、Grok、Meta AI和DeepSeek,覆蓋了癌癥、疫苗、干細(xì)胞、營養(yǎng)和運(yùn)動(dòng)表現(xiàn)五個(gè)領(lǐng)域。這些不是刁鉆的醫(yī)學(xué)難題,而是普通人真的會(huì)搜的問題——某種療法有沒有用、疫苗安不安全、吃什么能提升運(yùn)動(dòng)表現(xiàn)。
設(shè)計(jì)很刁鉆:一半問題是開放式的,比如"干細(xì)胞療法能治我的病嗎";另一半是封閉式的,有明確選項(xiàng)限制。結(jié)果開放式問題的翻車率高得驚人。而現(xiàn)實(shí)中,沒人會(huì)對(duì)著AI做選擇題,都是隨口一問。
這直接戳破了一個(gè)幻覺:我們以為AI在醫(yī)療場景"能用",其實(shí)邊界極其狹窄。
五個(gè)關(guān)鍵發(fā)現(xiàn),逐條拆解
1. 流暢≠正確,自信≠可靠
問題回答的" polished and confident"( polished and confident,打磨過的自信感)是最大陷阱。研究顯示,機(jī)器人輸出時(shí)幾乎不加限定詞,不會(huì)說"這部分證據(jù)較弱"或"學(xué)界仍有爭議"。它們用同樣的語氣陳述共識(shí)和推測,讀者根本無法區(qū)分。
這背后是大語言模型的訓(xùn)練目標(biāo):預(yù)測最可能的下一個(gè)詞,而非判斷真假。醫(yī)療場景需要的精確性,和模型的優(yōu)化方向根本錯(cuò)位。
2. 參考文獻(xiàn)是擺設(shè),平均完整度僅40%
很多人信任AI回答,是因?yàn)榭吹轿哪熘撐逆溄印5芯繉?shí)測發(fā)現(xiàn),引用列表的平均完整度只有40%,沒有一個(gè)機(jī)器人交出完全準(zhǔn)確的參考文獻(xiàn)。
更糟的是"幻覺引用"——編造的論文、不存在的作者、錯(cuò)配的結(jié)論。這些假引用被包裝成學(xué)術(shù)背書,讀者順著鏈接點(diǎn)過去,要么404,要么發(fā)現(xiàn)文不對(duì)題。但大多數(shù)人不會(huì)點(diǎn)。
3. 開放式問題是照妖鏡
封閉提示(如"以下哪種說法被FDA批準(zhǔn)?")相對(duì)安全,因?yàn)檫x項(xiàng)本身限制了發(fā)揮空間。但開放式問題讓機(jī)器人自由組織答案,結(jié)果高度問題性內(nèi)容( highly problematic content)的比例飆升。
現(xiàn)實(shí)中,用戶提問方式完全是開放式的。"我體檢這個(gè)指標(biāo)高了怎么辦""朋友推薦的保健品能吃嗎"——這些才是真實(shí)場景。研究刻意設(shè)計(jì)的"壓力測試",恰恰模擬了日常。
4. 五大產(chǎn)品無一幸免,各有偏科
研究沒有公布具體哪家最差,但明確提到五個(gè)產(chǎn)品全部出現(xiàn)" flawed or incomplete"( flawed or incomplete,有缺陷或不完整)的回答。這意味著這不是某個(gè)模型的技術(shù)債,而是當(dāng)前AI醫(yī)療應(yīng)用的系統(tǒng)性風(fēng)險(xiǎn)。
不同產(chǎn)品的訓(xùn)練數(shù)據(jù)、對(duì)齊策略、安全護(hù)欄各有差異,但在復(fù)雜醫(yī)療語境下,都未能通過基礎(chǔ)測試。
5. 研究有局限,但核心結(jié)論站得住
作者主動(dòng)坦承三項(xiàng)限制:只測了五個(gè)產(chǎn)品、AI迭代太快、提示設(shè)計(jì)偏壓力測試可能高估風(fēng)險(xiǎn)。但這些是學(xué)術(shù)嚴(yán)謹(jǐn)性的標(biāo)準(zhǔn)表述,不是給行業(yè)開脫。
關(guān)鍵事實(shí)是:測試主題是" evidence-based medical topics"( evidence-based medical topics,有循證醫(yī)學(xué)基礎(chǔ)的主題),不是前沿爭議領(lǐng)域。連這種有標(biāo)準(zhǔn)答案的領(lǐng)域都有一半翻車,更模糊的灰色地帶呢?
為什么這件事現(xiàn)在特別危險(xiǎn)
研究提到一個(gè)已經(jīng)發(fā)生的用戶行為遷移:人們" already use AI chatbots like search engines for everyday health information"( already use AI chatbots like search engines for everyday health information,已經(jīng)在把AI聊天機(jī)器人當(dāng)搜索引擎用,查日常健康信息)。
這不是未來場景,是正在發(fā)生的習(xí)慣重塑。而搜索引擎至少會(huì)給出多個(gè)來源、有明確的時(shí)間戳、能追溯到原始機(jī)構(gòu);AI回答則是黑箱生成的單一敘事,帶著不可質(zhì)疑的權(quán)威感。
更隱蔽的風(fēng)險(xiǎn)是"答案的半真半假"——機(jī)器人會(huì)混合可靠證據(jù)和薄弱主張,用戶被前半句的科學(xué)性麻痹,連帶接受了后半句的誤導(dǎo)。這比完全錯(cuò)誤的答案更難識(shí)別。
研究者的務(wù)實(shí)建議,和沒說出口的
論文結(jié)論很克制:聊天機(jī)器人或許能" summarize information or shape follow-up questions"( summarize information or shape follow-up questions,總結(jié)信息或幫助形成后續(xù)問題),但" still don't look dependable enough for meaningful medical decisions"( still don't look dependable enough for meaningful medical decisions,對(duì)于有意義的醫(yī)療決策仍不夠可靠)。
翻譯一下:當(dāng)搜索引擎的替代品可以,當(dāng)真醫(yī)生的替代品不行。
但研究沒說的是:這個(gè)邊界在現(xiàn)實(shí)中幾乎無法執(zhí)行。用戶不會(huì)先查AI、再查文獻(xiàn)、最后問醫(yī)生——大多數(shù)人停在第一步。而AI產(chǎn)品的設(shè)計(jì)邏輯,恰恰在鼓勵(lì)這種"一站式"依賴。
冷幽默
這項(xiàng)研究最諷刺的注腳是:五個(gè)被測產(chǎn)品里,有四個(gè)的母公司正在或即將布局醫(yī)療健康業(yè)務(wù)。它們一邊向醫(yī)院賣AI診斷工具,一邊在消費(fèi)端輸出"平均40%完整度"的健康建議。或許未來的商業(yè)模式是——先用免費(fèi)聊天機(jī)器人制造患者,再用付費(fèi)醫(yī)療AI解決問題。閉環(huán)了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.