網易首頁 > 網易號 > 正文申請入駐

FaceMind公司發現語言頻率的秘密：高頻詞匯讓AI更聰明

2026-04-15 21:50:16　來源: 科技行者

北京舉報

分享至

這項由FaceMind公司和香港中文大學聯合完成的研究發表于2026年4月，研究者們提出了一個頗具開創性的"文本頻率定律"（Adam's Law），揭示了一個有趣的現象：當我們用更常見的詞匯與大語言模型對話時，它們的表現會顯著提升。這項研究通過arXiv:2604.02176v1可以查詢到完整內容。

研究團隊發現，就像人類在閱讀時對常見詞匯反應更快一樣，大語言模型在處理高頻率出現的文本時也表現得更加出色。他們構建了一套完整的理論框架和實驗驗證體系，在數學推理、機器翻譯、常識推理和工具調用等多個任務中都證實了這一規律的有效性。

這個發現的意義遠不止學術層面。在當今AI應用日益普及的時代，如何讓人工智能更好地理解和響應我們的需求成為了一個關鍵問題。研究團隊通過大量實驗證明，簡單地調整我們使用的詞匯頻率，就能讓AI的準確率提升8到15個百分點，這對于實際應用來說是一個相當可觀的改進。

一、語言的頻率密碼

日常生活中，我們都有這樣的經驗：讀到"的"、"是"、"在"這樣的常見字詞時幾乎不需要思考，而遇到"矍鑠"、"躊躇"這樣的生僻詞匯就需要停頓一下。研究團隊發現，大語言模型也有類似的特征。

FaceMind公司的研究者們提出了"文本頻率定律"這一核心理論。簡單來說，當兩個句子表達相同意思但使用不同詞匯時，使用更常見詞匯的句子會讓AI模型表現得更好。這就好比兩個人用不同方式問路，一個說"請問銀行怎么走"，另一個說"請問金融機構的地理位置如何抵達"，雖然意思相同，但前者顯然更容易被理解和回應。

為了驗證這個理論，研究團隊開發了一個巧妙的方法來估算句子層面的頻率。他們發現，由于許多AI模型的訓練數據都是保密的，無法直接獲取詞匯頻率信息，因此需要依靠公開的網絡資源來估算。這就像偵探無法直接獲得犯罪現場的完整信息，只能通過各種線索來推斷真相一樣。

研究團隊將句子頻率定義為組成這個句子的所有詞匯頻率的幾何平均值。這種計算方式雖然簡化了詞匯之間的復雜關系，但能夠有效地反映出一個句子整體的"常見程度"。就像評估一道菜的受歡迎程度時，我們會綜合考慮每種食材的常見性，最終得出這道菜的"大眾化"程度。

二、讓AI更聰明的三個法寶

為了讓這個理論更加實用，研究團隊開發了三個相互配合的方法，就像烹飪中的三道工序，每一步都為最終的美味佳肴做出貢獻。

第一個方法叫做"文本頻率提取"。由于我們無法知道AI模型具體看過哪些訓練數據，研究團隊通過讓模型完成故事續寫任務來間接獲取這些信息。他們給模型一些句子開頭，讓它自由續寫，然后分析續寫內容中詞匯的使用頻率。這就像通過觀察一個人的說話習慣來推斷他平時都讀什么書一樣。通過這種方法，他們能夠更準確地估算不同詞匯在模型"記憶"中的重要程度。

具體來說，研究團隊會給AI模型這樣的指令："請對以下數據進行故事續寫：某某句子"，然后收集模型生成的內容。這些生成的文本實際上反映了模型在訓練過程中學到的語言模式，因此可以作為估算詞匯頻率的重要依據。這種方法雖然需要額外的計算成本，但能夠顯著提高頻率估算的準確性。

第二個方法被稱為"課程式文本頻率訓練"。這個名字聽起來很復雜，但原理很簡單：就像教小孩子學習時要從簡單到復雜一樣，訓練AI模型時也要按照從低頻率到高頻率的順序來安排學習材料。研究發現，這種訓練方式能夠讓模型更好地理解語言的內在規律。

在實際操作中，研究團隊會首先計算訓練數據中每個句子的頻率分數，然后按照頻率從低到高的順序重新排列這些數據。這樣，模型在學習過程中會逐漸從處理相對生僻的表達轉向更常見的表達方式，就像學生從解決簡單問題開始，逐步挑戰更復雜的題目。

第三個方法則是在實際應用時選擇高頻率的表達方式。當我們需要與AI模型交互時，研究團隊建議使用一個"輸入改寫器"來將我們的問題轉換成更常見的表達方式。比如，將"請協助我完成數學運算"改寫為"請幫我算數學題"，雖然意思完全相同，但后者使用的都是更常見的詞匯，因此能夠獲得更好的回應效果。

三、覆蓋百種語言的大規模實驗

為了驗證理論的有效性，研究團隊進行了一系列規模龐大的實驗，涉及數學推理、機器翻譯、常識推理和智能工具調用等多個領域。他們的實驗覆蓋了100種不同的語言，這在人工智能研究中是相當罕見的。

在數學推理任務中，研究團隊使用了GSM8K數學題庫，這是一個包含小學到中學水平數學應用題的標準測試集。他們將每個數學題都改寫成高頻率和低頻率兩個版本，然后分別測試不同AI模型的解答準確率。結果顯示，使用高頻率表達的數學題在所有測試的模型上都獲得了更高的正確率。

以DeepSeek-V3模型為例，當使用低頻率表達時，數學題的正確率為63.55%，而使用高頻率表達時，正確率提升到了71.54%，提升幅度達到8個百分點。對于GPT-4o-mini模型，提升幅度更是達到了8個百分點，從60.70%提升到68.70%。這種改進對于實際應用來說是非常顯著的。

機器翻譯實驗的規模更加驚人。研究團隊測試了從英語翻譯到其他100種語言的效果，使用了BLEU、chrF和COMET等多種評估指標。實驗結果顯示，在DeepSeek-V3模型上，99%的語言對在使用高頻率輸入時都獲得了更好的翻譯效果。其中，63個語言對的BLEU分數提升超過1分，31個語言對提升超過3分，12個語言對甚至提升超過5分。

特別值得注意的是，研究團隊還發現了一個有趣的現象：當一個句子對的低頻率版本能夠被模型正確處理時，其高頻率版本也同樣能夠被正確處理。但是，當低頻率版本無法被正確處理時，使用高頻率版本往往能夠獲得正確的結果。這說明高頻率表達確實能夠幫助模型更好地理解和處理信息。

四、構建專門的測試數據集

為了支撐這項研究，團隊專門構建了一個名為"文本頻率配對數據集"（TFPD）的測試集合。這個數據集的創建過程本身就是一項精密的工程。

研究團隊首先從現有的標準數據集中選取了原始句子，包括GSM8K數學題庫、FLORES-200多語言翻譯數據庫和CommonsenseQA常識問答數據庫。然后，他們使用GPT-4o-mini模型來生成每個句子的多個改寫版本。為了確保改寫質量，他們制定了詳細的指令模板："我的目標是將原始句子轉換為常見表達和不常見表達兩種形式。注意：不要省略任何詞匯，如動詞、形容詞、名詞或副詞。你必須生成兩種類型的句子：十個使用不常見、復雜詞匯的句子，以及十個使用常見、簡單詞匯的句子。"

生成改寫版本后，研究團隊采用了嚴格的人工驗證流程。他們聘請了三位具有英語語言學相關學位的經驗豐富的標注員，對每組改寫句子進行意義一致性檢查。只有當所有三位標注員都認為句子表達相同意思時，這組句子才會被納入最終的數據集。標注員需要從三個選項中選擇："相同意義：我相信這三個句子表達相同的意思"，"可能相同意義：這三個句子可能表達相同意思，但我可能錯誤"，"不同意義：我確信這三個句子表達不同意思"。

經過這種嚴格的篩選過程，研究團隊最終從1319個原始GSM8K測試樣本中獲得了738個高質量的句子對，從1012個FLORES-200樣本中獲得了526個句子對。這些數據集為后續的實驗提供了可靠的基礎。

五、深入的理論分析和數學證明

除了大量的實驗驗證，研究團隊還提供了嚴格的數學理論分析。他們基于著名的齊普夫定律（Zipf's Law）構建了完整的理論框架，從數學角度解釋為什么高頻率文本能夠獲得更好的模型表現。

齊普夫定律是語言學中的一個重要規律，它描述了詞匯頻率的分布特征：在任何語言的大型文本集合中，第r個最常見詞匯的出現頻率大約是最常見詞匯頻率的1/r。研究團隊將這個規律引入到語言模型的損失函數分析中，建立了"標記級別的半對數線性關系"。

簡單來說，他們證明了模型在處理某個詞匯時的"困惑度"（可以理解為模型的"困難程度"）與這個詞匯的頻率排名的對數值呈線性關系。這意味著，排名靠前的高頻詞匯會讓模型感到更"容易"處理，而排名靠后的低頻詞匯則會增加模型的處理難度。

研究團隊進一步將這個標記級別的結論擴展到句子級別。他們將句子級別的頻率定義為組成句子的所有詞匯頻率的幾何平均值，然后證明了在一定條件下，使用高頻率詞匯的句子確實會獲得更低的模型損失值，從而帶來更好的任務表現。

這個理論分析包含了四個核心假設：詞匯頻率遵循齊普夫定律，模型訓練后的參數能夠較好地逼近真實的詞匯頻率分布，邊際概率和條件概率之間的差異是有界的，以及句子頻率可以通過詞匯頻率的幾何平均來近似。雖然這些假設在實際情況中可能不完全成立，但研究團隊通過大量實驗證明了理論預測與實際結果高度一致。

六、課程學習的新應用

研究中一個特別有趣的發現是課程式訓練方法的效果。傳統的課程學習通常按照任務難度從易到難安排學習順序，而這項研究提出了按照文本頻率從低到高的新型課程學習方式。

在機器翻譯任務的微調實驗中，研究團隊比較了幾種不同的訓練策略。傳統的方法是隨機打亂訓練數據的順序，而新的課程式文本頻率訓練方法則按照句子頻率分數對訓練數據重新排序。實驗結果顯示，使用課程式訓練的方法在所有測試語言上都獲得了最好的效果。

以Pangasinan語（pag_Latn）翻譯為例，使用原始訓練數據的BLEU分數為4.5129，而使用高頻率數據但沒有課程訓練的分數為3.7781，但采用課程式文本頻率訓練后，分數躍升至4.9102，提升幅度達到29.96%。這種顯著的改進在多種評估指標和不同語言中都得到了驗證。

研究團隊解釋說，這種訓練方式的效果可能源于語言學習的自然規律。就像兒童在學習語言時會先掌握常見詞匯，然后逐漸學會表達復雜概念一樣，讓AI模型按照這種順序學習可能更符合語言習得的內在規律。

七、跨語言的普遍性驗證

研究的另一個重要貢獻是驗證了文本頻率定律的跨語言普遍性。研究團隊的實驗涵蓋了100種不同的語言，包括高資源語言如英語、中文、西班牙語，也包括低資源語言如Kabuverdianu、Kikuyu、Pangasinan等。

根據語言資源的豐富程度分類，研究中超過一半的語言屬于相對低資源的類別（0類或1類語言）。即使在這些訓練數據相對稀少的語言上，文本頻率定律依然顯示出了顯著的效果。這說明該定律并非僅僅適用于數據豐富的主流語言，而是一個更為普遍的語言學規律。

在具體的實驗結果中，研究團隊發現了一些有趣的模式。對于語法結構相對簡單的語言，高頻率文本的改進效果通常更為明顯。而對于語法復雜、詞匯變化豐富的語言，雖然改進幅度相對較小，但依然能夠觀察到統計學上顯著的提升。

特別值得注意的是，研究團隊還分析了不同語言中高頻率和低頻率文本在復雜度指標上的差異。他們使用了最大依存樹深度、平均依存距離和Flesch-Kincaid等級水平等指標來衡量句子的語法和語義復雜度。結果顯示，高頻率文本通常具有較低的語法復雜度，這與人類語言使用的習慣是一致的：我們在日常交流中傾向于使用結構簡單、易于理解的表達方式。

八、實際應用的巨大潛力

這項研究的價值遠遠超出了學術范疇，它為改進人工智能系統的實際表現提供了一條清晰可行的路徑。在當前AI應用快速發展的背景下，這些發現具有直接的實用價值。

對于需要與AI系統交互的普通用戶來說，了解文本頻率定律意味著他們可以通過調整表達方式來獲得更好的AI服務體驗。比如，在使用AI助手進行數學計算時，說"幫我算這道題"比"請協助我進行數學運算"更容易獲得準確的結果。在使用翻譯軟件時，使用簡單常見的詞匯比使用復雜生僻的表達更容易得到高質量的翻譯。

對于AI系統的開發者和研究人員來說，這項研究提供了一個全新的優化思路。傳統的模型改進通常需要增加模型參數、擴大訓練數據或改進算法架構，這些方法往往需要大量的計算資源和時間投入。而文本頻率定律提供了一種幾乎零成本的改進方案：只需要在輸入處理階段增加一個文本改寫模塊，就能顯著提升模型的表現。

研究團隊還探索了將文本頻率定律應用于模型訓練過程的可能性。他們發現，使用高頻率文本進行微調不僅能夠提升模型在特定任務上的表現，還能夠減少訓練時間和計算成本。這對于資源有限的研究團隊或初創公司來說具有重要的實用價值。

九、深度分析和關聯研究

為了更全面地理解文本頻率定律的機制，研究團隊進行了多項深度分析。他們發現，模型對高頻率文本的偏好與人類的語言處理模式存在驚人的相似性。神經科學研究表明，人類大腦在處理高頻詞匯時會激活不同的神經網絡，這些詞匯的處理速度更快、準確率更高。

研究團隊還分析了思維鏈推理過程的變化。他們發現，當使用高頻率文本作為輸入時，AI模型生成的推理過程不僅更加準確，而且更容易被人類理解。在數學推理任務中，使用高頻率表達的問題產生的推理鏈在chrF得分上從18.823提升到32.873，ROUGE分數從0.175提升到0.310，BERTScore從0.492提升到0.838。這些指標的全面提升表明，文本頻率不僅影響最終答案的準確性，還影響整個推理過程的質量。

研究團隊通過相關性分析發現了一個重要規律：在某些語言中，文本頻率與最終翻譯性能之間的相關系數高達1.0，這意味著幾乎完全的正相關關系。這種強相關性進一步證實了文本頻率定律的可靠性和普遍性。

另一個有趣的發現是，文本頻率與傳統的文本復雜度指標之間的相關性相對較弱。這說明文本頻率定律不能簡單地等同于"使用簡單語言"的建議，而是一個更加精細和科學的指導原則。高頻率文本不一定意味著內容簡單，而是意味著使用了更常見、更容易被模型理解的詞匯組合。

十、技術實現的細節和挑戰

雖然文本頻率定律的概念相對簡單，但其技術實現涉及多個復雜的環節。首先是頻率估算的準確性問題。由于大多數商業AI模型的訓練數據都不公開，研究團隊需要依靠公開的網絡資源來估算詞匯頻率。他們使用了包括ParaCrawl在內的多個大規模爬蟲數據庫，并結合了Zipf頻率分析工具來提高估算準確性。

文本頻率蒸餾（TFD）方法的實現也面臨著計算成本的挑戰。讓AI模型進行故事續寫需要大量的API調用或計算資源，這在大規模應用中可能成為瓶頸。研究團隊通過實驗發現，隨著用于蒸餾的數據量增加，性能改進效果也相應提升，但成本也在增加。他們建議在實際應用中根據具體需求在成本和效果之間找到平衡點。

輸入改寫器的設計是另一個技術挑戰。改寫過程需要確保語義的完全保持，同時有效提升文本頻率。研究團隊發現，自動改寫可能引入語義偏移，因此在構建數據集時采用了人工驗證的方式。對于實際應用，他們建議使用半自動化的方法，結合自動改寫和人工審核來確保質量。

課程式訓練的實現相對簡單，主要是對訓練數據進行重新排序，但需要預先計算所有訓練樣本的頻率分數。對于大型數據集，這個預處理步驟可能需要相當的時間，但一旦完成就能夠重復使用。

說到底，FaceMind公司和香港中文大學的這項研究揭示了一個既簡單又深刻的道理：與AI交流時，使用常見詞匯就像說話時使用清晰的發音一樣重要。這個發現不僅為我們提供了立即可用的改進方法，還為未來的AI系統設計指明了新的方向。

研究團隊通過大量實驗證明，僅僅是調整詞匯選擇這樣一個看似微小的改變，就能帶來顯著的性能提升。在數學推理中準確率提升8個百分點，在機器翻譯中99%的語言對都獲得改進，這些數字背后體現的是AI技術優化的巨大潛力。

更重要的是，這種優化方法幾乎不需要額外的計算資源或復雜的技術改造，任何人都可以立即應用到與AI系統的日常交互中。這讓我們看到了一種更加民主化的AI優化方式：不是只有技術專家才能改進AI系統，普通用戶也能通過了解和應用這些規律來獲得更好的AI服務體驗。

當然，研究團隊也誠實地指出了當前方法的局限性，比如頻率估算的準確性、語義保持的挑戰等。但正如任何科學發現一樣，完美并不是第一步的要求，有效性和實用性才是最重要的標準。從這個角度來看，文本頻率定律無疑已經達到了這個標準。

展望未來，這項研究可能會催生更多相關的探索，比如如何將頻率信息更好地融入模型訓練過程，如何開發更智能的自動改寫工具，如何將這個理論擴展到多模態AI系統等。對于想要深入了解這項研究的讀者，可以通過arXiv:2604.02176v1查詢完整的研究論文。

Q&A

Q1：什么是Adam's Law文本頻率定律？

A：Adam's Law是FaceMind公司提出的理論，發現當兩個句子意思相同但用詞不同時，使用更常見詞匯的句子能讓AI模型表現更好。就像人類讀常見字詞更快一樣，AI處理高頻率文本時準確率也會顯著提升。

Q2：使用高頻詞匯能讓AI提升多少準確率？

A：實驗顯示提升效果相當明顯。在數學推理任務中，準確率能提升8-15個百分點，在機器翻譯中99%的語言對都獲得改進。比如DeepSeek-V3模型的數學題正確率從63.55%提升到71.54%。

Q3：普通人如何應用文本頻率定律改善AI交互體驗？

A：很簡單，就是用更常見的詞匯與AI對話。比如說"幫我算數學題"比"請協助我進行數學運算"效果更好，"銀行怎么走"比"金融機構地理位置如何抵達"更容易被AI理解和準確回應。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.