網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI問診翻車現(xiàn)場：五款主流機器人半數(shù)回答有問題

2026-04-15 16:51:06　來源: 摸魚算法

北京舉報

分享至

研究人員把250個醫(yī)療問題丟給ChatGPT、Gemini、Grok、Meta AI和DeepSeek，結(jié)果一半回答踩了紅線——要么信息殘缺，要么直接誤導(dǎo)。更諷刺的是，這些答案看起來都很專業(yè)。

測試設(shè)計：故意"刁難"還是模擬真實？

研究團隊選了癌癥、疫苗、干細胞、營養(yǎng)、運動表現(xiàn)五個領(lǐng)域，問題分成兩類：開放式（"某種療法有用嗎"）和封閉式（帶選項的限定提問）。

開放式問題才是殺招。真實用戶不會用考試卷的方式問AI，他們會問"疫苗安全嗎""怎么提升運動表現(xiàn)"。這種模糊提問讓機器人更容易把可靠證據(jù)和垃圾信息攪在一起端出來。

封閉式問題表現(xiàn)稍好，但代價是場景失真——沒人看病時先給自己編四個選項。

參考文獻：40%完整度的信任危機

用戶信AI的一個重要原因是"它有出處"。研究打臉：平均參考文獻完整度只有40%，沒有一款機器人能給出完全準(zhǔn)確的引用列表。

更糟的是編造。某些回答附帶的文獻根本不存在，但機器人照樣言之鑿鑿，幾乎不加任何風(fēng)險提示。

這對產(chǎn)品設(shè)計是個死結(jié)：引用功能本是為建立信任，結(jié)果成了幻覺（人工智能生成虛假信息的傾向）的幫兇。用戶越信"有來源"，被誤導(dǎo)時傷得越深。

五款產(chǎn)品的眾生相

研究沒公布具體排名，但點明了共性缺陷：面對證據(jù)型醫(yī)療話題，所有模型都有約半數(shù)回答滑向問題區(qū)間。Gemini、ChatGPT、Grok、Meta AI、DeepSeek，誰也沒逃過。

快速迭代是研究者的免責(zé)聲明——這些產(chǎn)品更新太快，今天的結(jié)果明天可能過時。但核心矛盾不會消失：大語言模型的訓(xùn)練目標(biāo)是對話流暢，不是醫(yī)學(xué)精確。

流暢和精確在醫(yī)療場景經(jīng)常打架。模型要" helpful"（有幫助），用戶要"correct"（正確），中間隔著一道產(chǎn)品倫理的窄門。

用戶行為的隱形推手

研究團隊承認測試有"加壓"成分，可能高估日常場景的出錯率。但另一個角度：當(dāng)用戶把AI當(dāng)搜索引擎用，提問方式天然偏向開放式。

搜索"糖尿病飲食"和問AI"我這種情況該怎么吃"，后者給模型留了巨大的發(fā)揮空間。而模型最擅長的就是"自信地填補空白"。

這不是技術(shù)缺陷，是交互設(shè)計的錯位。搜索結(jié)果的免責(zé)聲明放在頁面底部，AI回答把權(quán)威性寫進每一句話的語調(diào)里。

產(chǎn)品啟示：輔助定位的邊界在哪

研究的結(jié)論很克制：聊天機器人可以幫忙總結(jié)信息、整理后續(xù)問題，但"不足以支撐有意義的醫(yī)療決策"。

對從業(yè)者來說，這劃了一條清晰的產(chǎn)品紅線。健康類AI的合規(guī)設(shè)計、風(fēng)險分級、人工兜底機制，都需要圍繞這條線展開。

一個可能的進化方向：強制結(jié)構(gòu)化提問。不是讓用戶自己組織語言，而是用引導(dǎo)式界面把開放式問題拆解成可驗證的子項。代價是交互摩擦，收益是可控性。

另一個方向是引用系統(tǒng)的重構(gòu)。40%的完整度 unacceptable（不可接受），但100%準(zhǔn)確又可能限制回答范圍。中間有沒有"可驗證但有限"的甜蜜點？

冷幽默收尾

最黑色幽默的是研究場景本身：科學(xué)家用精心設(shè)計的問題測試AI，發(fā)現(xiàn)AI在精心設(shè)計的問題上表現(xiàn)不佳。而真實用戶的問題，只會更隨意、更模糊、更帶著個人焦慮的濾鏡。

所以當(dāng)下最靠譜的"AI醫(yī)療產(chǎn)品"，可能是一本教你怎么向醫(yī)生描述癥狀的小冊子——至少人類醫(yī)生的參考文獻完整度，通常高于40%。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

具身智能為什么還沒真正落地？問題卡在這｜沙龍報名

量子位 2026-04-16 10:40:34
0 跟貼 0
前任、同事被煉化成AI，能替代本人嗎？

機器之心Pro 2026-04-14 17:21:54
0 跟貼 0

直面LeCun愿景，智在無界發(fā)布最強具身世界模型

機器之心Pro 2026-04-14 10:39:56
0 跟貼 0

新穎鰭足機器人，水陸兩棲行動自如，適應(yīng)各種地形

裝甲鏟史官 2025-12-25 10:58:04
0 跟貼 0
機器人管家Figure 03來了，承包一切家務(wù)！

量子位 2025-10-11 10:13:00
0 跟貼 0

LLM數(shù)據(jù)量大管飽，機器人數(shù)據(jù)卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0

中國推出海陸空三棲全地形機器人

裝甲鏟史官 2026-04-15 11:39:33
3 跟貼 3
小心！你的AI正在一本正經(jīng)地忽悠你

財聯(lián)社 2026-02-05 16:35:01
0 跟貼 0

28.58萬一臺，奇瑞跨界造機器人正式開賣！

每日經(jīng)濟新聞 2026-04-15 15:55:15
0 跟貼 0
在ICLR 2026主會之前，我們和30多位入選者聊了聊最前沿的AI細節(jié)

DeepTech深科技 2026-04-16 17:45:33
0 跟貼 0
剛剛開源了！

機器之心Pro 2026-03-25 15:18:26
0 跟貼 0
宇樹科技王興興：給機器人行業(yè)多一點耐心

財聯(lián)社 2026-02-18 18:01:39
0 跟貼 0
機器人打包運輸?shù)恼_方式

裝甲鏟史官 2026-02-22 10:41:15
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰(zhàn)真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
有人把巴菲特芒格煉成AI Agent，Github標(biāo)星狂攬5w+

量子位 2026-04-15 09:48:11
2 跟貼 2
零樣本 Sim-to-Real ！2

機器之心Pro 2026-03-25 11:40:23
0 跟貼 0
這個機器人，憑什么能改變?nèi)蛭锪鳎?/a>

虎嗅APP 2026-04-16 17:22:05
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
安心養(yǎng)蝦！從OpenClaw看云上AI安全落地路徑

量子位 2026-03-31 20:40:57
0 跟貼 0
MIT研究生用NotebookLM兩天學(xué)完一學(xué)期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉(zhuǎn)移

量子位 2026-04-03 22:52:35
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
ICLR 2026巴西見！上海AI實驗室北極星X星啟交流會，等你來聊

機器之心Pro 2026-04-16 17:02:05
0 跟貼 0
姜鎧豐：AI替代就業(yè)的速度沒有想象中那么快

經(jīng)濟觀察報 2026-04-16 18:02:09
0 跟貼 0
Claude Code把自己的介紹，外包給這家AI公司了

智東西 2026-04-15 17:43:10
0 跟貼 0
10秒爬上5樓，中國自主研發(fā)攀爬機器人美國首發(fā)

每日經(jīng)濟新聞 2026-04-15 15:54:58
0 跟貼 0
AI視頻混戰(zhàn)升級，字節(jié)在模型之外加了道防線

鈦媒體APP 2026-04-16 19:28:13
0 跟貼 0
偷改簡歷刪光郵件：AI幻覺進化，你的大腦正在悄悄投降

新智元 2026-04-16 00:28:28
0 跟貼 0
人活著的唯一理由是善良

葉檀財經(jīng) 2026-02-01 17:07:04
0 跟貼 0
2026人形機器人馬拉松測試賽，一半狂飆一半翻車

每日經(jīng)濟新聞 2026-04-16 13:18:06
0 跟貼 0
Gemini桌面端終于來了！實測喚起功能是亮點，但整體太糙

雷科技 2026-04-16 20:10:39
0 跟貼 0
救命！我的老板是個AI，它正通過攝像頭看我玩手機

智東西 2026-04-16 19:50:46
0 跟貼 0
BeingBeyond發(fā)布最強世界模型，具身行業(yè)開啟“大腦紀(jì)元”

36氪 2026-04-14 12:42:45
0 跟貼 0
國內(nèi)首個機器人特種兵，垂直鋼壁上飛檐走壁

極果酷玩 2026-04-16 14:37:05
0 跟貼 0
能輕捏薄紙、可提起重物，新一代智能手終于登場

Maxonor創(chuàng)意公元 2026-04-15 17:43:07
0 跟貼 0
躺著辦公這么爽？AI時代好東西分享1.0

秋芝2046 2026-04-12 17:11:47
43 跟貼 43

手機 / 數(shù)碼

房產(chǎn) / 家居

AI問診翻車現(xiàn)場：五款主流機器人半數(shù)回答有問題

趙明：智駕之戰(zhàn)，看誰在大模型上更高效

東北男子投訴公交提前發(fā)車丟工作 單位被施壓將其解雇

東北男子投訴公交提前發(fā)車丟工作 單位被施壓將其解雇

皇馬拜仁踢出名局，但最搶鏡的還是他

絲芭傳媒創(chuàng)始人王子杰去世，享年63歲

海爾與醫(yī)美女王互撕 換血抗衰生意迷霧

空間大五個乘客都滿意?體驗嵐圖泰山X8

態(tài)度原創(chuàng)

3分鐘學(xué)會一個雅思7分句/段（第339期）

智能舒適 簡約風(fēng)尚

任天堂做純主機？數(shù)毛社表示不可能！

封鎖霍爾木茲海峽后 美釋放雙重信號

東北男子投訴公交提前發(fā)車丟工作單位被施壓將其解雇

東北男子投訴公交提前發(fā)車丟工作單位被施壓將其解雇

海爾與醫(yī)美女王互撕換血抗衰生意迷霧

智能舒適簡約風(fēng)尚

封鎖霍爾木茲海峽后美釋放雙重信號