網易首頁 > 網易號 > 正文申請入駐

五款AI聊天機器人給出的健康信息一半有問題，還能聊嗎？

2026-04-17 06:34:32　來源: 全球醫生組織北京代表處

北京舉報

分享至

最新測試研究顯示，市面上五款主流AI聊天機器人提供的醫療健康信息中，50%存在不同程度的問題，包括誤導或錯誤建議。Grok問題最多，Gemini表現相對較好。所有回答均呈現出聊天機器人的“高度自信”，但引用質量差，可讀性評分均為“困難”/難以理解。關注詳情。

閱讀文摘

AI聊天機器人正在成為越來越多人查詢疾病和健康信息的輔助工具，但是，AI聊天機器人的回答其實并不靠譜。

最新一項研究對五款熱門的AI聊天機器人進行了系統性測試，結果令人擔憂：50%的醫療健康信息回答存在不同程度的問題，其中30%為“中等嚴重”，20%為“高度嚴重”。

研究人員測試了Gemini（谷歌）、DeepSeek（深度求索）、Meta AI、ChatGPT（OpenAI）和Grok（xAI）五款AI聊天機器人。研究人員在癌癥、疫苗、干細胞、營養和運動建議等五個類別中，分別向每個AI聊天機器人提出了10個開放式和封閉式問題，模擬普通用戶常見的“信息搜尋或咨詢”行為，并特意設計了可能引導錯誤信息的“壓力測試”式提問。

結果顯示，開放式提問更容易產生問題回答，共出現40個高度嚴重問題，遠超預期，而非問題回答僅51個，遠低于預期。封閉式提問的表現則相反。

在五款AI聊天機器人中，Grok的表現最差，生成了29個高度嚴重問題，約占其回答問題的58%，遠超統計預期。Gemini表現最佳，高度嚴重問題最少、非問題回答最多。各機器人在疫苗和癌癥領域表現相對較好，在干細胞、運動表現和營養領域表現最差。

更令人警惕的是，所有回答均以高度自信和確定性的語氣呈現，幾乎沒有任何警示或免責聲明。在全部250個問題中，僅有2次拒絕回答，均來自Meta AI，內容涉及合成代謝類固醇和替代癌癥療法。

引用質量同樣堪憂，平均完整度評分僅40%。所有機器人都存在“幻覺”和虛構引用的問題，沒有一款能提供完全準確的參考文獻列表。可讀性評分均為“困難”，相當于適合大學畢業生閱讀的復雜程度。

研究人員認為，聊天機器人并非在推理或權衡證據，而是通過訓練數據中的統計模式預測詞語序列。它們無法進行倫理或價值判斷，也不能訪問實時數據。這一行為限制意味著它們可能生成聽起來權威但實際有缺陷的回答。

隨著AI聊天機器人的使用持續擴大，研究者呼吁加強公眾教育、專業培訓和監管監督，確保生成式AI真正支持而非侵蝕公眾健康。

關注我們，獲取生物醫學前沿最新資訊

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.