網易首頁 > 網易號 > 正文申請入駐

我們以為在和不同AI聊天，其實它們越來越像

2026-07-02 18:39:09　來源: DeepTech深科技

北京舉報

分享至

（來源：麻省理工科技評論）

我們先來做個小測試。打開你常用的 AI 聊天機器人，比如 Claude、ChatGPT、Gemini，輸入“請給我一個 1 到 10 之間的隨機數”。你很可能會得到 7。然后輸入“再來一個”，它可能會回答 3 或 4；再來一次，又可能變成 8 或 9。

這種情況并非每次都會出現。但如果你剛好也遇到了，可能會覺得像是有人提前知道了答案。其實，并沒有什么訣竅。

問題在于，大多數大語言模型給出的回答，比人們想象中更加可預測，也更容易趨于一致。寫代碼、查資料時，這未必是壞事；但如果是做頭腦風暴、策劃廣告，或者規劃一次旅行，過于相似的答案反而會限制人的思路。

原因并不復雜。如今主流的大語言模型大多基于相似的數據進行訓練，也朝著相近的目標不斷優化。為了提高回答的準確性和穩定性，它們往往會優先選擇那些出現概率更高、更穩妥的表達，而不是嘗試新的說法。久而久之，模型的回答便越來越容易收斂到少數幾種常見的模式。換句話說，它們越來越擅長給出大家都會想到的答案，卻越來越難提供真正新鮮、出人意料的想法。

讓模型重新發散

澳大利亞初創公司 Springboards 想解決的，正是這個問題。

他們開發了一款名為 Flint 的大語言模型，希望它在回答“歐洲應該去哪里旅行？”這類開放式問題時，不再總是給出千篇一律的答案，而是提供更多不同的思路。“多數大語言模型都在努力消除’幻覺’（hallucinations，這里特指模型編造事實性錯誤），但我們反而愿意保留一點。” Springboards 聯合創始人兼 CEO Pip Bingemann 說。

（來源：Springboards）

Bingemann 做了那個隨機數測試向大家演示 Flint。整個過程像看一場近景魔術，明明知道其中沒有機關，卻還是忍不住想知道下一張牌會是什么。“這是我們的銷售小把戲。”他笑著說，“而且幾乎每次都管用。”

當 ChatGPT 和 Claude 都給出 7 后，Bingemann 又把同樣的問題拋給了 Flint。第一次，它也回答了 7。“這很正常，我本來就預料到了。”他說，“7 本來就是一個合理的答案。”隨后，他重新開啟一個新的對話，再問了一遍同樣的問題。這一次，ChatGPT 的答案還是 7，Claude 依舊是 7，而 Flint 卻給出了 3.7916。

類似的情況并不只出現在隨機數字上。

Bingemann 又讓幾個模型各說一種汽車品牌，并提前猜測 ChatGPT 和 Claude 大概率會回答豐田或本田。結果果然如此，而 Flint 給出的卻是福特 F-150。“這些模型其實掌握著大量信息，只是很多內容從來不會出現在答案里。”他說，“它們當然也可以回答別克、特斯拉，或者其他品牌，只是它們更傾向于選擇那幾個最常見的答案。”

最后，他又給三個模型出了同一道題：“請為 New Balance 跑鞋寫一句廣告標語。”Claude 的回答是 Run your way（按自己的方式奔跑）。ChatGPT 的回答一字不差，也是 Run your way。Flint 給出的則是 Built to last, run to win（為耐久而生，為勝利而跑）。這句標語未必足夠驚艷，也未必能贏得廣告大獎，但至少，它沒有和另外兩個模型說出同一句話。

模型為什么越來越像彼此？

大語言模型這種奇怪的局限，正開始受到越來越多研究者的關注。

去年 11 月，一組研究人員發表了題為Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)（《人工蜂群思維：大語言模型及其他系統在開放式任務中的同質化現象》）的論文。他們發現，不僅同一個模型會反復給出高度相似的答案，不同大語言模型之間也表現出驚人的一致性。面對開放式問題，它們往往會不約而同地收斂到幾乎相同的回答。

這種現象背后的原因，目前還沒有定論。但研究團隊推測，主流大語言模型大多采用相似的訓練方式、使用相近的數據集，并朝著相同的目標進行優化，因此最終形成了越來越相似的回答模式，也就是群體思維（groupthink）。這項研究后來獲得了人工智能頂級學術會議 NeurIPS 的最佳論文獎，也讓這一問題開始受到更多關注。

為了驗證這種同質化現象，研究團隊讓 25 個不同的大語言模型——包括美國頭部公司的模型，以及來自中國等地的開源模型——分別 50 次回答同一個問題：“請用一個隱喻來形容時間。”最終得到的 1250 個回答中，絕大多數都繞不開“時間是一條河流”或“時間是一位織布者”這樣的表達。

相比之下，人類給出的答案豐富得多。把同樣的問題拋給幾位同事，六個人給出了六種完全不同的比喻。其中他最喜歡的回答是：“時間就像一件最喜歡的衛衣，被歲月一點點穿出了形狀。”

Springboards 聯合創始人兼 CTO Kieran Browne 認為，這種重復其實無處不在，只是很多人沒有意識到。“現在大多數聊天機器人的界面，都讓人感覺像是在進行一場私人對話。”他說，“但很多用戶并不知道，自己看到的內容，其實和別人看到的高度相似。”

樂隊命名就是一個典型例子。

如果問模型“我的樂隊應該叫什么名字？”，Browne 說，大多數模型都會圍繞 glass（玻璃）、neon（霓虹）、velvet（天鵝絨）和 static（靜電）這些詞展開。

詢問 ChatGPT 這個問題時，它一口氣給出了 56 個樂隊名，排在第一位的是 Glass Harbor，繼續往下翻，還能看到 Static Empire、Neon Hearts 和 Velvet Echo。隨后，他又把同樣的問題拋給 Gemini，在 15 個建議中，同樣出現了 Static Horizon。這些名字聽起來確實有些不錯。比如 ChatGPT 給出的 Sofa Astronauts（沙發宇航員），雖然這個名字很新穎有趣，但上網搜索時卻發現，現實中早已有一支樂隊叫這個名字。

對于這種同質化現象，OpenAI 表示，為了讓模型的回答更加可靠、連貫，訓練過程中通常會引導模型優先選擇更常見、概率更高的表達，因此不同模型出現相似答案并不意外。如果一味追求新穎性，則可能削弱回答的準確性和穩定性。

不過，OpenAI 也指出，《Artificial Hivemind》研究分析的是 2024 年版本的大語言模型，而這些模型此后已經經歷了多輪更新。

創意催化器

Springboards 開發了一款面向創意行業的工具，整合了包括 ChatGPT、Claude 在內的多種大語言模型，供廣告和營銷從業者進行創意頭腦風暴。用戶可以像拼貼一樣，自由拖拽不同模型生成的內容，挑選喜歡的片段，再重新組合成新的方案。Flint 就是其中一個可選模型。Springboards 希望，當用戶需要更多變化時，會主動切換到 Flint。

Zoe Scaman 是商業戰略咨詢公司 Bodacious 的創始人，同時擔任 Luka Don?i? 創辦的球迷營銷平臺 77X 的首席戰略官。她一直在試用這款產品。“它最有意思的地方，在于總能把我的思路帶到完全不同的方向。”她說，“每當我想跳出原來的思維框架，就會打開它。”

一次測試中，Scaman 給 Flint、Claude、Gemini 和 ChatGPT 提出了同一個經典 MBA 案例：如果要為今天的年輕人重新打造一家金融公司，你會怎么做？

三個主流模型幾乎都給出了同一種思路：把金融知識教育做得更有趣、更年輕、更有互動感。“這些想法當然沒有錯，”她說，“但也沒有什么新意。”

相比之下，Flint 給出的方向完全不同。它認為，與其重新設計金融產品，不如重新包裝財富積累這件事。“這一點讓我覺得很有意思。”Scaman 說。不過，她也坦言，Flint 目前仍只是一個原型產品，穩定性還有待提升。“如果不斷提高要求，它有時候會直接崩掉。”她說，“但我覺得，它背后的思路非常有潛力。”

給模型“調溫”

Flint 并不是從零開始訓練的模型，而是建立在阿里巴巴開源模型 Qwen 3 的基礎之上。“我們的團隊規模很小，”Browne 說，“從頭訓練一個基礎大模型，對我們來說根本不現實，成本太高了。”

大多數大語言模型都提供了一個調節輸出隨機性的參數，業內通常稱為 temperature（溫度）。“這當然也是我們最先嘗試的方法。”Browne 說，“因為幾乎所有人都會告訴你：如果想讓模型更有創造力，就把 temperature 調高。”

但事實證明，這種方法并不理想。

Browne 說，他們曾把 OpenAI 模型的 temperature 調到最高，結果模型的回答開始變得前言不搭后語，甚至一句英文說到一半，就突然切換成了代碼。Springboards 很快意識到，temperature 更像一個總開關，并不能精細地控制模型的創造力。“我們并不希望模型從頭到尾都變得更隨機，”Browne 說，“真正需要變化的，其實只是回答里的少數幾個地方。” 比如，當用戶問“歐洲有什么值得去的地方？”時，真正需要增加變化的，只是模型說出目的地名稱的那一刻，并非回答中的每一個詞。

于是，Springboards 對 Qwen 3 做了進一步訓練，讓模型學會識別哪些位置更適合產生變化，并只在這些節點適度增加隨機性，用一些不那么標準的表達替代默認答案。

營銷公司 Uncommon 聯合創始人兼首席戰略官 Maximilian Weigl 認為，這正是 Flint 最有價值的地方。“Flint 會故意拋出一個有點出人意料的答案。”他說，“它不是為了告訴你正確答案，而是邀請你把思路放得更寬一點。這一點很有意思。”

圖｜Maximilian Weigl（來源：LinkedIn）

如今，Weigl 的團隊會同時使用 Flint、ChatGPT、Claude 和 Gemini。“如果一款工具總是把你的想法拉回平均水平，就很難真正做出突破性的創意。”他說。不過，在他看來，大多數時候，平均水平其實已經足夠。“十次里面有九次，人們需要的只是一個夠好的答案。”他說，“多數用戶并不追求特別新奇的東西，他們更希望看到熟悉、容易理解的內容。”

與此同時，Weigl 也提醒，不管是哪一種大語言模型，都不應該成為思考的替代品。“如果我發現團隊里有人直接復制粘貼 AI 的輸出，我會告訴他：這不是你的工作。”他說，“去思考，去和別人交流，用你自己的語言表達。”

目前，Flint 的主要用戶仍然是廣告和營銷行業，這也是 Springboards 最重要的客戶群體。但 Bingemann 和 Browne 認為，回答缺乏多樣性并不是創意行業獨有的問題，而是所有聊天機器人用戶都會遇到的現象。

“我們的目標，是把選擇權交還給用戶，讓他們自己判斷什么才是好的答案。”Bingemann 說，“當你需要激發靈感時，多一點變化總是件好事。與其把一切都交給機器，最后得到一個灰撲撲、千篇一律的世界，不如讓它偶爾帶我們走一條不同的路。”

https://www.technologyreview.com/2026/07/01/1140003/llms-are-stuck-in-a-groupthink-rut-this-startup-is-trying-to-get-them-out/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.