網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

五大AI問診實(shí)測：一半回答有問題，但人們正在當(dāng)真

2026-04-15 17:01:21　來源: 摸魚算法

北京舉報(bào)

分享至

上周，一份醫(yī)學(xué)期刊的論文讓硅谷和健康圈同時(shí)安靜了幾分鐘——五個(gè)最主流的AI聊天機(jī)器人，面對(duì)250個(gè)真實(shí)醫(yī)療問題，有一半的回答踩了紅線。不是答不上來，而是答得流暢、自信、看起來很有道理，實(shí)則摻雜著誤導(dǎo)甚至潛在危險(xiǎn)。

更麻煩的是：普通人根本分不出來。

測試怎么做的，為什么讓人不安

研究團(tuán)隊(duì)選了ChatGPT、Gemini、Grok、Meta AI和DeepSeek，覆蓋了癌癥、疫苗、干細(xì)胞、營養(yǎng)和運(yùn)動(dòng)表現(xiàn)五個(gè)領(lǐng)域。這些不是刁鉆的醫(yī)學(xué)難題，而是普通人真的會(huì)搜的問題——某種療法有沒有用、疫苗安不安全、吃什么能提升運(yùn)動(dòng)表現(xiàn)。

設(shè)計(jì)很刁鉆：一半問題是開放式的，比如"干細(xì)胞療法能治我的病嗎"；另一半是封閉式的，有明確選項(xiàng)限制。結(jié)果開放式問題的翻車率高得驚人。而現(xiàn)實(shí)中，沒人會(huì)對(duì)著AI做選擇題，都是隨口一問。

這直接戳破了一個(gè)幻覺：我們以為AI在醫(yī)療場景"能用"，其實(shí)邊界極其狹窄。

五個(gè)關(guān)鍵發(fā)現(xiàn)，逐條拆解

1. 流暢≠正確，自信≠可靠

問題回答的" polished and confident"（ polished and confident，打磨過的自信感）是最大陷阱。研究顯示，機(jī)器人輸出時(shí)幾乎不加限定詞，不會(huì)說"這部分證據(jù)較弱"或"學(xué)界仍有爭議"。它們用同樣的語氣陳述共識(shí)和推測，讀者根本無法區(qū)分。

這背后是大語言模型的訓(xùn)練目標(biāo)：預(yù)測最可能的下一個(gè)詞，而非判斷真假。醫(yī)療場景需要的精確性，和模型的優(yōu)化方向根本錯(cuò)位。

2. 參考文獻(xiàn)是擺設(shè)，平均完整度僅40%

很多人信任AI回答，是因?yàn)榭吹轿哪熘撐逆溄印５芯繉?shí)測發(fā)現(xiàn)，引用列表的平均完整度只有40%，沒有一個(gè)機(jī)器人交出完全準(zhǔn)確的參考文獻(xiàn)。

更糟的是"幻覺引用"——編造的論文、不存在的作者、錯(cuò)配的結(jié)論。這些假引用被包裝成學(xué)術(shù)背書，讀者順著鏈接點(diǎn)過去，要么404，要么發(fā)現(xiàn)文不對(duì)題。但大多數(shù)人不會(huì)點(diǎn)。

3. 開放式問題是照妖鏡

封閉提示（如"以下哪種說法被FDA批準(zhǔn)？"）相對(duì)安全，因?yàn)檫x項(xiàng)本身限制了發(fā)揮空間。但開放式問題讓機(jī)器人自由組織答案，結(jié)果高度問題性內(nèi)容（ highly problematic content）的比例飆升。

現(xiàn)實(shí)中，用戶提問方式完全是開放式的。"我體檢這個(gè)指標(biāo)高了怎么辦""朋友推薦的保健品能吃嗎"——這些才是真實(shí)場景。研究刻意設(shè)計(jì)的"壓力測試"，恰恰模擬了日常。

4. 五大產(chǎn)品無一幸免，各有偏科

研究沒有公布具體哪家最差，但明確提到五個(gè)產(chǎn)品全部出現(xiàn)" flawed or incomplete"（ flawed or incomplete，有缺陷或不完整）的回答。這意味著這不是某個(gè)模型的技術(shù)債，而是當(dāng)前AI醫(yī)療應(yīng)用的系統(tǒng)性風(fēng)險(xiǎn)。

不同產(chǎn)品的訓(xùn)練數(shù)據(jù)、對(duì)齊策略、安全護(hù)欄各有差異，但在復(fù)雜醫(yī)療語境下，都未能通過基礎(chǔ)測試。

5. 研究有局限，但核心結(jié)論站得住

作者主動(dòng)坦承三項(xiàng)限制：只測了五個(gè)產(chǎn)品、AI迭代太快、提示設(shè)計(jì)偏壓力測試可能高估風(fēng)險(xiǎn)。但這些是學(xué)術(shù)嚴(yán)謹(jǐn)性的標(biāo)準(zhǔn)表述，不是給行業(yè)開脫。

關(guān)鍵事實(shí)是：測試主題是" evidence-based medical topics"（ evidence-based medical topics，有循證醫(yī)學(xué)基礎(chǔ)的主題），不是前沿爭議領(lǐng)域。連這種有標(biāo)準(zhǔn)答案的領(lǐng)域都有一半翻車，更模糊的灰色地帶呢？

為什么這件事現(xiàn)在特別危險(xiǎn)

研究提到一個(gè)已經(jīng)發(fā)生的用戶行為遷移：人們" already use AI chatbots like search engines for everyday health information"（ already use AI chatbots like search engines for everyday health information，已經(jīng)在把AI聊天機(jī)器人當(dāng)搜索引擎用，查日常健康信息）。

這不是未來場景，是正在發(fā)生的習(xí)慣重塑。而搜索引擎至少會(huì)給出多個(gè)來源、有明確的時(shí)間戳、能追溯到原始機(jī)構(gòu)；AI回答則是黑箱生成的單一敘事，帶著不可質(zhì)疑的權(quán)威感。

更隱蔽的風(fēng)險(xiǎn)是"答案的半真半假"——機(jī)器人會(huì)混合可靠證據(jù)和薄弱主張，用戶被前半句的科學(xué)性麻痹，連帶接受了后半句的誤導(dǎo)。這比完全錯(cuò)誤的答案更難識(shí)別。

研究者的務(wù)實(shí)建議，和沒說出口的

論文結(jié)論很克制：聊天機(jī)器人或許能" summarize information or shape follow-up questions"（ summarize information or shape follow-up questions，總結(jié)信息或幫助形成后續(xù)問題），但" still don't look dependable enough for meaningful medical decisions"（ still don't look dependable enough for meaningful medical decisions，對(duì)于有意義的醫(yī)療決策仍不夠可靠）。

翻譯一下：當(dāng)搜索引擎的替代品可以，當(dāng)真醫(yī)生的替代品不行。

但研究沒說的是：這個(gè)邊界在現(xiàn)實(shí)中幾乎無法執(zhí)行。用戶不會(huì)先查AI、再查文獻(xiàn)、最后問醫(yī)生——大多數(shù)人停在第一步。而AI產(chǎn)品的設(shè)計(jì)邏輯，恰恰在鼓勵(lì)這種"一站式"依賴。

冷幽默

這項(xiàng)研究最諷刺的注腳是：五個(gè)被測產(chǎn)品里，有四個(gè)的母公司正在或即將布局醫(yī)療健康業(yè)務(wù)。它們一邊向醫(yī)院賣AI診斷工具，一邊在消費(fèi)端輸出"平均40%完整度"的健康建議。或許未來的商業(yè)模式是——先用免費(fèi)聊天機(jī)器人制造患者，再用付費(fèi)醫(yī)療AI解決問題。閉環(huán)了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.