![]()
最新測試研究顯示,市面上五款主流AI聊天機器人提供的醫療健康信息中,50%存在不同程度的問題,包括誤導或錯誤建議。Grok問題最多,Gemini表現相對較好。所有回答均呈現出聊天機器人的“高度自信”,但引用質量差,可讀性評分均為“困難”/難以理解。關注詳情。
閱讀文摘
AI聊天機器人正在成為越來越多人查詢疾病和健康信息的輔助工具,但是,AI聊天機器人的回答其實并不靠譜。
最新一項研究對五款熱門的AI聊天機器人進行了系統性測試,結果令人擔憂:50%的醫療健康信息回答存在不同程度的問題,其中30%為“中等嚴重”,20%為“高度嚴重”。
研究人員測試了Gemini(谷歌)、DeepSeek(深度求索)、Meta AI、ChatGPT(OpenAI)和Grok(xAI)五款AI聊天機器人。研究人員在癌癥、疫苗、干細胞、營養和運動建議等五個類別中,分別向每個AI聊天機器人提出了10個開放式和封閉式問題,模擬普通用戶常見的“信息搜尋或咨詢”行為,并特意設計了可能引導錯誤信息的“壓力測試”式提問。
結果顯示,開放式提問更容易產生問題回答,共出現40個高度嚴重問題,遠超預期,而非問題回答僅51個,遠低于預期。封閉式提問的表現則相反。
在五款AI聊天機器人中,Grok的表現最差,生成了29個高度嚴重問題,約占其回答問題的58%,遠超統計預期。Gemini表現最佳,高度嚴重問題最少、非問題回答最多。各機器人在疫苗和癌癥領域表現相對較好,在干細胞、運動表現和營養領域表現最差。
更令人警惕的是,所有回答均以高度自信和確定性的語氣呈現,幾乎沒有任何警示或免責聲明。在全部250個問題中,僅有2次拒絕回答,均來自Meta AI,內容涉及合成代謝類固醇和替代癌癥療法。
引用質量同樣堪憂,平均完整度評分僅40%。所有機器人都存在“幻覺”和虛構引用的問題,沒有一款能提供完全準確的參考文獻列表。可讀性評分均為“困難”,相當于適合大學畢業生閱讀的復雜程度。
研究人員認為,聊天機器人并非在推理或權衡證據,而是通過訓練數據中的統計模式預測詞語序列。它們無法進行倫理或價值判斷,也不能訪問實時數據。這一行為限制意味著它們可能生成聽起來權威但實際有缺陷的回答。
隨著AI聊天機器人的使用持續擴大,研究者呼吁加強公眾教育、專業培訓和監管監督,確保生成式AI真正支持而非侵蝕公眾健康。
![]()
![]()
關注我們,獲取生物醫學前沿最新資訊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.