網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

慎用AI，研究稱五大頭部AI平臺(tái)50%醫(yī)學(xué)建議“有問(wèn)題”

2026-04-15 08:20:08　來(lái)源: 鳳凰網(wǎng)科技

北京舉報(bào)

分享至

AI聊天機(jī)器人的醫(yī)學(xué)建議存在誤導(dǎo)性

鳳凰網(wǎng)科技訊北京時(shí)間4月15日，據(jù)彭博社報(bào)道，一項(xiàng)最新研究顯示，AI驅(qū)動(dòng)的聊天機(jī)器人在提供醫(yī)學(xué)建議時(shí)，約有半數(shù)時(shí)間會(huì)給出有問(wèn)題的答案。這一發(fā)現(xiàn)凸顯出，AI這項(xiàng)正日益融入日常生活的新技術(shù)存在健康風(fēng)險(xiǎn)。

來(lái)自美國(guó)、加拿大和英國(guó)的研究人員評(píng)估了五大頭部AI平臺(tái)：ChatGPT、Gemini、Meta AI、Grok和DeepSeek，方法是在五個(gè)健康類別下分別向每個(gè)平臺(tái)提出10個(gè)問(wèn)題。根據(jù)本周發(fā)表在醫(yī)學(xué)期刊《BMJ Open》上的研究結(jié)果，在這些AI聊天機(jī)器人的所有回答中，約有50%被認(rèn)為“有問(wèn)題”，其中近20%屬于“高度有問(wèn)題”。

研究發(fā)現(xiàn)，這些聊天機(jī)器人在不同類型問(wèn)題上的表現(xiàn)差異明顯：在封閉式提問(wèn)(答案確定)以及與疫苗和癌癥相關(guān)的問(wèn)題上表現(xiàn)相對(duì)更好，但在開(kāi)放式問(wèn)題以及如干細(xì)胞研究和營(yíng)養(yǎng)學(xué)等領(lǐng)域表現(xiàn)較差。

黃色代表有問(wèn)題，橙色代表高度有問(wèn)題

研究人員表示，這些回答通常以自信和確定的口吻給出，但沒(méi)有一個(gè)聊天機(jī)器人在回答任何提示時(shí)能提供完整且準(zhǔn)確的參考文獻(xiàn)列表。在整個(gè)研究過(guò)程中，聊天機(jī)器人只有兩次拒絕回答問(wèn)題的情況，且均來(lái)自Meta AI。

該研究結(jié)果凸顯了一個(gè)日益增長(zhǎng)的擔(dān)憂：人們正在越來(lái)越多地使用生成式AI平臺(tái)來(lái)獲取醫(yī)療建議，但這些平臺(tái)并未獲得提供醫(yī)學(xué)建議的醫(yī)療執(zhí)業(yè)許可，也缺乏做出診斷所需的臨床判斷能力。

AI聊天機(jī)器人的爆炸式增長(zhǎng)使其成為人們尋求疾病指導(dǎo)的熱門工具。OpenAI表示，每周有超過(guò)2億人向ChatGPT咨詢健康和保健方面的問(wèn)題。該平臺(tái)于今年1月宣布，將為普通用戶和臨床醫(yī)生分別推出健康工具。同月，Anthropic也宣布其Claude產(chǎn)品將推出一項(xiàng)新的醫(yī)療保健服務(wù)。

這項(xiàng)發(fā)表在《BMJ Open》上的研究的作者表示，如果在缺乏公眾教育和監(jiān)管的情況下部署聊天機(jī)器人，一個(gè)重大風(fēng)險(xiǎn)是它們可能會(huì)放大錯(cuò)誤信息的傳播。

他們稱，這些發(fā)現(xiàn)“凸顯了重要的AI行為局限性，并表明有必要重新評(píng)估AI聊天機(jī)器人在面向公眾的健康與醫(yī)療溝通中的部署方式”。他們還指出，這些系統(tǒng)往往能夠生成“聽(tīng)起來(lái)權(quán)威但可能存在缺陷的回答”。(作者/簫雨)

更多一手新聞，歡迎下載鳳凰新聞客戶端訂閱鳳凰網(wǎng)科技。想看深度報(bào)道，請(qǐng)微信搜索“鳳凰網(wǎng)科技”。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.