![]()
(來源:麻省理工科技評論)
我們先來做個小測試。打開你常用的 AI 聊天機器人,比如 Claude、ChatGPT、Gemini,輸入“請給我一個 1 到 10 之間的隨機數”。你很可能會得到 7。然后輸入“再來一個”,它可能會回答 3 或 4;再來一次,又可能變成 8 或 9。
這種情況并非每次都會出現。但如果你剛好也遇到了,可能會覺得像是有人提前知道了答案。其實,并沒有什么訣竅。
問題在于,大多數大語言模型給出的回答,比人們想象中更加可預測,也更容易趨于一致。寫代碼、查資料時,這未必是壞事;但如果是做頭腦風暴、策劃廣告,或者規劃一次旅行,過于相似的答案反而會限制人的思路。
原因并不復雜。如今主流的大語言模型大多基于相似的數據進行訓練,也朝著相近的目標不斷優化。為了提高回答的準確性和穩定性,它們往往會優先選擇那些出現概率更高、更穩妥的表達,而不是嘗試新的說法。久而久之,模型的回答便越來越容易收斂到少數幾種常見的模式。換句話說,它們越來越擅長給出大家都會想到的答案,卻越來越難提供真正新鮮、出人意料的想法。
![]()
讓模型重新發散
澳大利亞初創公司 Springboards 想解決的,正是這個問題。
他們開發了一款名為 Flint 的大語言模型,希望它在回答“歐洲應該去哪里旅行?”這類開放式問題時,不再總是給出千篇一律的答案,而是提供更多不同的思路。“多數大語言模型都在努力消除’幻覺’(hallucinations,這里特指模型編造事實性錯誤),但我們反而愿意保留一點。” Springboards 聯合創始人兼 CEO Pip Bingemann 說。
![]()
(來源:Springboards)
Bingemann 做了那個隨機數測試向大家演示 Flint。整個過程像看一場近景魔術,明明知道其中沒有機關,卻還是忍不住想知道下一張牌會是什么。“這是我們的銷售小把戲。”他笑著說,“而且幾乎每次都管用。”
當 ChatGPT 和 Claude 都給出 7 后,Bingemann 又把同樣的問題拋給了 Flint。第一次,它也回答了 7。“這很正常,我本來就預料到了。”他說,“7 本來就是一個合理的答案。”隨后,他重新開啟一個新的對話,再問了一遍同樣的問題。這一次,ChatGPT 的答案還是 7,Claude 依舊是 7,而 Flint 卻給出了 3.7916。
類似的情況并不只出現在隨機數字上。
Bingemann 又讓幾個模型各說一種汽車品牌,并提前猜測 ChatGPT 和 Claude 大概率會回答豐田或本田。結果果然如此,而 Flint 給出的卻是福特 F-150。“這些模型其實掌握著大量信息,只是很多內容從來不會出現在答案里。”他說,“它們當然也可以回答別克、特斯拉,或者其他品牌,只是它們更傾向于選擇那幾個最常見的答案。”
最后,他又給三個模型出了同一道題:“請為 New Balance 跑鞋寫一句廣告標語。”Claude 的回答是 Run your way(按自己的方式奔跑)。ChatGPT 的回答一字不差,也是 Run your way。Flint 給出的則是 Built to last, run to win(為耐久而生,為勝利而跑)。這句標語未必足夠驚艷,也未必能贏得廣告大獎,但至少,它沒有和另外兩個模型說出同一句話。
![]()
模型為什么越來越像彼此?
大語言模型這種奇怪的局限,正開始受到越來越多研究者的關注。
去年 11 月,一組研究人員發表了題為Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)(《人工蜂群思維:大語言模型及其他系統在開放式任務中的同質化現象》)的論文。他們發現,不僅同一個模型會反復給出高度相似的答案,不同大語言模型之間也表現出驚人的一致性。面對開放式問題,它們往往會不約而同地收斂到幾乎相同的回答。
這種現象背后的原因,目前還沒有定論。但研究團隊推測,主流大語言模型大多采用相似的訓練方式、使用相近的數據集,并朝著相同的目標進行優化,因此最終形成了越來越相似的回答模式,也就是群體思維(groupthink)。這項研究后來獲得了人工智能頂級學術會議 NeurIPS 的最佳論文獎,也讓這一問題開始受到更多關注。
為了驗證這種同質化現象,研究團隊讓 25 個不同的大語言模型——包括美國頭部公司的模型,以及來自中國等地的開源模型——分別 50 次回答同一個問題:“請用一個隱喻來形容時間。”最終得到的 1250 個回答中,絕大多數都繞不開“時間是一條河流”或“時間是一位織布者”這樣的表達。
相比之下,人類給出的答案豐富得多。把同樣的問題拋給幾位同事,六個人給出了六種完全不同的比喻。其中他最喜歡的回答是:“時間就像一件最喜歡的衛衣,被歲月一點點穿出了形狀。”
Springboards 聯合創始人兼 CTO Kieran Browne 認為,這種重復其實無處不在,只是很多人沒有意識到。“現在大多數聊天機器人的界面,都讓人感覺像是在進行一場私人對話。”他說,“但很多用戶并不知道,自己看到的內容,其實和別人看到的高度相似。”
樂隊命名就是一個典型例子。
如果問模型“我的樂隊應該叫什么名字?”,Browne 說,大多數模型都會圍繞 glass(玻璃)、neon(霓虹)、velvet(天鵝絨)和 static(靜電)這些詞展開。
詢問 ChatGPT 這個問題時,它一口氣給出了 56 個樂隊名,排在第一位的是 Glass Harbor,繼續往下翻,還能看到 Static Empire、Neon Hearts 和 Velvet Echo。隨后,他又把同樣的問題拋給 Gemini,在 15 個建議中,同樣出現了 Static Horizon。這些名字聽起來確實有些不錯。比如 ChatGPT 給出的 Sofa Astronauts(沙發宇航員),雖然這個名字很新穎有趣,但上網搜索時卻發現,現實中早已有一支樂隊叫這個名字。
對于這種同質化現象,OpenAI 表示,為了讓模型的回答更加可靠、連貫,訓練過程中通常會引導模型優先選擇更常見、概率更高的表達,因此不同模型出現相似答案并不意外。如果一味追求新穎性,則可能削弱回答的準確性和穩定性。
不過,OpenAI 也指出,《Artificial Hivemind》研究分析的是 2024 年版本的大語言模型,而這些模型此后已經經歷了多輪更新。
![]()
創意催化器
Springboards 開發了一款面向創意行業的工具,整合了包括 ChatGPT、Claude 在內的多種大語言模型,供廣告和營銷從業者進行創意頭腦風暴。用戶可以像拼貼一樣,自由拖拽不同模型生成的內容,挑選喜歡的片段,再重新組合成新的方案。Flint 就是其中一個可選模型。Springboards 希望,當用戶需要更多變化時,會主動切換到 Flint。
Zoe Scaman 是商業戰略咨詢公司 Bodacious 的創始人,同時擔任 Luka Don?i? 創辦的球迷營銷平臺 77X 的首席戰略官。她一直在試用這款產品。“它最有意思的地方,在于總能把我的思路帶到完全不同的方向。”她說,“每當我想跳出原來的思維框架,就會打開它。”
一次測試中,Scaman 給 Flint、Claude、Gemini 和 ChatGPT 提出了同一個經典 MBA 案例:如果要為今天的年輕人重新打造一家金融公司,你會怎么做?
三個主流模型幾乎都給出了同一種思路:把金融知識教育做得更有趣、更年輕、更有互動感。“這些想法當然沒有錯,”她說,“但也沒有什么新意。”
相比之下,Flint 給出的方向完全不同。它認為,與其重新設計金融產品,不如重新包裝財富積累這件事。“這一點讓我覺得很有意思。”Scaman 說。不過,她也坦言,Flint 目前仍只是一個原型產品,穩定性還有待提升。“如果不斷提高要求,它有時候會直接崩掉。”她說,“但我覺得,它背后的思路非常有潛力。”
![]()
給模型“調溫”
Flint 并不是從零開始訓練的模型,而是建立在阿里巴巴開源模型 Qwen 3 的基礎之上。“我們的團隊規模很小,”Browne 說,“從頭訓練一個基礎大模型,對我們來說根本不現實,成本太高了。”
大多數大語言模型都提供了一個調節輸出隨機性的參數,業內通常稱為 temperature(溫度)。“這當然也是我們最先嘗試的方法。”Browne 說,“因為幾乎所有人都會告訴你:如果想讓模型更有創造力,就把 temperature 調高。”
但事實證明,這種方法并不理想。
Browne 說,他們曾把 OpenAI 模型的 temperature 調到最高,結果模型的回答開始變得前言不搭后語,甚至一句英文說到一半,就突然切換成了代碼。Springboards 很快意識到,temperature 更像一個總開關,并不能精細地控制模型的創造力。“我們并不希望模型從頭到尾都變得更隨機,”Browne 說,“真正需要變化的,其實只是回答里的少數幾個地方。” 比如,當用戶問“歐洲有什么值得去的地方?”時,真正需要增加變化的,只是模型說出目的地名稱的那一刻,并非回答中的每一個詞。
于是,Springboards 對 Qwen 3 做了進一步訓練,讓模型學會識別哪些位置更適合產生變化,并只在這些節點適度增加隨機性,用一些不那么標準的表達替代默認答案。
營銷公司 Uncommon 聯合創始人兼首席戰略官 Maximilian Weigl 認為,這正是 Flint 最有價值的地方。“Flint 會故意拋出一個有點出人意料的答案。”他說,“它不是為了告訴你正確答案,而是邀請你把思路放得更寬一點。這一點很有意思。”
![]()
圖|Maximilian Weigl(來源:LinkedIn)
如今,Weigl 的團隊會同時使用 Flint、ChatGPT、Claude 和 Gemini。“如果一款工具總是把你的想法拉回平均水平,就很難真正做出突破性的創意。”他說。不過,在他看來,大多數時候,平均水平其實已經足夠。“十次里面有九次,人們需要的只是一個夠好的答案。”他說,“多數用戶并不追求特別新奇的東西,他們更希望看到熟悉、容易理解的內容。”
與此同時,Weigl 也提醒,不管是哪一種大語言模型,都不應該成為思考的替代品。“如果我發現團隊里有人直接復制粘貼 AI 的輸出,我會告訴他:這不是你的工作。”他說,“去思考,去和別人交流,用你自己的語言表達。”
目前,Flint 的主要用戶仍然是廣告和營銷行業,這也是 Springboards 最重要的客戶群體。但 Bingemann 和 Browne 認為,回答缺乏多樣性并不是創意行業獨有的問題,而是所有聊天機器人用戶都會遇到的現象。
“我們的目標,是把選擇權交還給用戶,讓他們自己判斷什么才是好的答案。”Bingemann 說,“當你需要激發靈感時,多一點變化總是件好事。與其把一切都交給機器,最后得到一個灰撲撲、千篇一律的世界,不如讓它偶爾帶我們走一條不同的路。”
https://www.technologyreview.com/2026/07/01/1140003/llms-are-stuck-in-a-groupthink-rut-this-startup-is-trying-to-get-them-out/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.