許多擔心或許是多余的,但人就是這樣,每每用擔心這種心理上虛擬的審慎讓他們可以去做擔心的事。
人工智能從不規范的信息源學習語言。這可能會改變我們人類說話和思考的方式。
艾達·帕爾默和布魯斯·施奈爾
大型語言模型并非基于真實對話進行訓練。當我們接觸到它們的語言時,可能會影響我們自身的語言。
2026年4月14日星期二 13:00 BST
由于訓練方式的限制,大型語言模型只能捕捉到人類語言的一小部分。它們主要基于書面文字進行訓練,例如教科書、社交媒體帖子以及電影和電視節目中記錄的語音。這些模型幾乎無法接觸到我們面對面或語音交流中那些未經腳本化的對話。而這才是絕大多數的語音內容,也是人類文化的重要組成部分。
這其中存在風險。大型語言模型的廣泛應用意味著我們人類將接觸到更多人工智能生成的文本。反過來,我們人類也會開始模仿這些模型的語言模式和行為。這不僅會影響我們彼此交流的方式,還會影響我們對自身以及周圍事物的認知。我們對世界的感知可能會發生扭曲,而這種扭曲的程度,我們目前還難以完全理解。
這種情況會以多種方式發生。我們最早可能看到的影響之一是簡單的表達方式,就像短信和社交媒體導致我們使用更短的句子、表情符號代替文字以及減少標點符號一樣。但人工智能的影響可能更具破壞性,它會削弱禮貌,并促使我們像老板一樣頤指氣使地說話。2022 年的一項研究發現,在那些使用 Siri 和 Alexa 等工具進行語音指令的家庭中,孩子們在與人交談時會變得生硬,經常喊著“嘿,做 X”,并期望對方服從,尤其對那些聲音類似于默認女性電子語音的人更是如此。隨著我們開始向聊天機器人和人工智能代理發出更多指令,我們或許也會養成同樣的習慣。
其次,正如自動補全功能增加了我們使用詞匯中最常用的1000個詞的頻率一樣,與聊天機器人對話和閱讀人工智能生成的文本可能會進一步限制我們的語言表達。科魯尼亞大學最近的一項研究發現,機器生成的語言句子長度范圍更窄,平均只有12-20個詞,詞匯量也比人類語言更有限。機器生成的文本讀起來流暢優美,但卻失去了那些能夠傳達情感的迂回曲折、邏輯跳躍和停頓。
隨著時間的推移,這些影響只會越來越大。大型語言模型訓練所用的文本越來越多地是由大型語言模型自身生成的,這形成了一個反饋循環:它們一方面模仿自身非人類的模式,另一方面又教會人類模仿這些模式。
機器生成的文本讀起來流暢優美,但卻失去了那些能夠傳達情感的曲折、停頓和邏輯跳躍。
大型語言模型的廣泛應用也可能引入確認偏差,使我們過于自信于最初的直覺,而難以接受其他可能的觀點——這對人類交流至關重要。許多聊天機器人被設定為無論我們的觀點多么荒謬都要表示贊同,它們熱情地支持那些尚未成型甚至錯誤的想法,并將其重新表述為我們本就傾向于認同的堅定論斷。當被問及“蛋糕是健康的早餐,對吧?”或“郵局是不是在密謀對付我?”時,這種奉承會強化偏見,甚至加劇心理障礙。人工智能生成的文字中那種過度自信的語氣也會加劇冒名頂替綜合癥,使我們自然而健康的懷疑感覺像是一種異常或失敗。
根據我們作為教師的經驗,學生們常常因為難以表達自己的想法而求助于生成式人工智能來完成作業。他們沒有意識到,寫作或口述往往是我們實現想法的方式。他們不自信、猶豫不決的表達實際上是人類正常的思維模式。然而,大型語言模型無法將模糊的初步猜測轉化為條理清晰的批判性分析,甚至無法像朋友那樣提出有益的問題;它只會用自信的語言復述這些未經審視的猜測。
我們在社交媒體帖子和在線聊天中往往比面對面交流時更加惡毒。眾所周知的 “網絡去抑制效應”助長了有害語言的使用。我們大多數人都有過這樣的經歷:在網上對某人怒不可遏,但當我們面對面交談或聽到電話里溫暖的聲音時,卻又會和解。雖然聊天機器人被訓練成給出奉承的回應,但它們看到的卻是人類最殘酷的一面,它們從唯一一個每次網絡罵戰都會留下永久文字痕跡的世界里了解我們,而口頭上的寬恕與和解對話卻會消逝。它們的回復并非模仿我們在網絡上的攻擊性,但即便它們竭力避免,仍然會受到這種攻擊性的影響。
從社會交流的片面解讀很容易得出錯誤的結論。中世紀北歐傳奇讓我們想象出一個以維京戰士為主的文化,因為詩人很少描述占人口多數的農民。騎士傳奇聚焦于國王和宮廷,長期以來讓我們將中世紀視為君主制的世界,抹殺了眾多中世紀共和國的存在。從統計數據來看,我們一直被引導相信古羅馬人非常重視他們的共和國,但現存拉丁文文獻中10%出自西塞羅一人之手,而他的作品包含了現存羅馬語文獻中70%的“共和國”一詞用法。僅基于某些人類著作訓練語言模型可能會引入類似的偏差。人工智能可能會讓我們看起來更容易爭吵,就像我們在網絡上那樣。它可能會夸大主要在Twitter/X或Bluesky等平臺上討論的政治話題的文化意義,或者夸大LinkedIn和Goodreads等平臺龐大的特定主題語料庫的重要性。
一些大型語言模型正在利用電影和電視節目中的人類語音進行訓練,但這些語音仍然是預先設定好的,并且不成比例地突出某些特定情境(例如,以謀殺故事為賣點的警匪劇占據了黃金時段電視節目的四分之一)。我們在現實生活中表達幽默、傷人或浪漫的方式與情景喜劇中截然不同。至少有一家初創公司提供付費錄音服務,用于人工智能訓練,但這仍然是一個小眾想法;任何大規模應用都會引發嚴重的隱私問題。
我們并不妄稱知道最佳解決方案是什么。但試想,既然開發人工智能模型有如此創造力,那么肯定也有創造力找到一種方法,用非正式的人類語言來訓練它們,而不是僅僅訓練我們最程式化、最含蓄、有時甚至最糟糕的表達方式。通過排除地球上絕大多數的語言產生——人們彼此之間完整而自然的對話——這些模型被訓練成模仿一切,唯獨無法模仿我們最真實的人性表達。
布魯斯·施奈爾是一位安全技術專家,在哈佛大學肯尼迪學院任教。艾達·帕爾默是一位奇幻和科幻小說家、未來學家,也是芝加哥大學的科技與信息史學家。
Ada Palmer and Bruce Schneier
Large language models aren’t trained on real-life conversations. As we encounter their language, it could affect our own
Tue 14 Apr 2026 13.00
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.