網易首頁 > 網易號 > 正文申請入駐

PNAS：大語言模型生成社會數據的統計真實性評估

2026-05-09 14:36:24　來源: 集智俱樂部

北京舉報

分享至

導語

大語言模型能否替代真實的社會調查數據？一項2026年5月8日發表于 PNAS 的研究給出了系統地檢驗。研究團隊回歸社會科學調查研究的基本原則，提出對大語言模型生成數據的評估，應借鑒代表性調查的邏輯：正如代表性樣本能夠得到接近總體統計矩的結果，LLM 生成數據的有效性也應聚焦于其能否再現真實世界總體層面的統計規律。基于此，研究團隊構建了 SSDataBench 基準測試，用 7 個真實社會調查數據集、15 個主流大語言模型，從五個維度系統評估了 LLM 生成社會科學數據的“統計真實性”（即合成數據能否復現真實人口的統計模式）。結果發現，即使是當前最強的模型，平均通過率也僅為 30%。且通用大語言模型（general-purpose LLMs）整體性地暴露出三種系統性缺陷——壓縮異質性、膨脹關聯性、坍縮生命軌跡。研究同時指出，領域微調可大幅提升總體層面統計真實性。

關鍵詞：統計真實性（Statistical Realism），大語言模型（LLM），社會調查數據（Survey Data），數字孿生（Digital Twin），基準測試（Benchmark），人口模擬（Population Simulation）

任筱芃丨作者

趙思怡丨審校

論文題目：Evaluating the Statistical Realism of LLM-Generated Social Science Data 論文鏈接：https://www.pnas.org/doi/10.1073/pnas.2538145123 發表時間：2026年5月8日論文來源：PNAS

不可能完美的抽樣

社會統計學家 Jerzy Neyman 將總體定義為“滿足特定定義但個體屬性各異的實體類別” (Neyman, 1937)。如果個體的屬性各不相同，那么“異質性”——即人與人之間的系統性差異——就不是數據的噪聲。好的數據采集方法的目標不是消滅變異，而是如實地再現它。變異是人類社會無法剝離的統計特征。收入不均、教育分化、健康差異、壽命分層如果被當作數據的“噪聲”來消除，那么所得的數據對社會科學家而言將毫無意義，因為社會科學要研究的恰恰就是這些差異本身。

近一個世紀后，大語言模型的發展似乎提供了一個非常方便的方法來補充甚至取代問卷調查。給 GPT 系列模型一個人的性別、種族、年齡，它就能輸出這個人的收入、婚姻狀況、健康水平。聽起來很方便。2023年的一項先驅性研究表明，GPT-3 生成的樣本在美國民意調查領域展現出了“顯著的保真度” (Argyle et al., 2023)。如果 LLM 真能生成足夠真實的人口數據，那么困擾社會科學幾十年的數據缺失、樣本流失、隱私約束、反事實不可觀測等問題都將被代償。這一愿景非常誘人。但在真正投入使用之前，我們需要對大模型生成的社會學數據進行全面評估。

過去對 LLM 生成數據的評估幾乎全部聚焦于“個體層面的預測準確率”，即模型能否猜對某個人的調查回答。社會科學家更關心的是這批合成數據能否復現真實人口的分布形態、變量關聯、結構關系。就像抽樣調查的價值不在于每個受訪者是否“真實”，而在于樣本能否近似總體的統計矩 (Groves et al., 2011)——均值是否對、方差是否對、相關系數矩陣是否對、分布的偏度和峰度是否對。統計矩才是關鍵。

這項提交至 PNAS 的研究系統地將社會科學抽樣調查的底層邏輯應用于 LLM 生成數據的評估。結果比預想的更令人不安。

研究背景與問題

社會科學的數據困境

社會科學研究長期受困于數據的五個根本性限制。關鍵變量（如財富、主觀幸福感、認知能力）難以采集且常伴生測量誤差；縱向追蹤數據的時間跨度不足；幾乎所有調查數據都面臨拒訪和樣本流失導致的缺失值；隱私限制和機構壁壘壓縮實證研究的空間；社會科學家永遠無法直接觀測反事實結果(Holland, 1986)。

這是老問題，因此 AI 生成數據被視為潛在的解決方案。近年的兩條主要研究脈絡分別是預測個體生命軌跡（如生育、教育、健康），以及開發基于 LLM 的社會智能體來理解交互行為（如調查響應、輿論極化）。但越來越多的證據表明，AI 生成數據無法代表真實人口，甚至可能產生有偏結論。早期研究發現語言模型往往未能完全反映代表性民意 (Santurkar et al., 2023)；更新的研究進一步表明，現代 LLM 展現出強烈的、主題依賴的“機器偏見”和變異性降低 (Boelaert et al., 2025)。偏差無處不在。

現有評估實踐幾乎全部圍繞個體層面的預測準確性展開。但社會科學本質上是人口科學 (Goldthorpe, 2016)。即使擁有豐富的背景信息，研究者也很少能對個體結果做出精確預測 (Lundberg et al., 2024)。個體層面的強預測性能不應被視為有效性的核心標準。

SSDataBench

研究團隊提出了 SSDataBench（SocialScienceDataBench），一個系統性的基準測試框架。其核心創新在于將評估標準從“個體準確率”轉向“人口層面的統計真實性”——即 LLM 生成的合成數據能否復現真實世界的統計模式。

五個評估維度

框架設計了五類統計模式評估，覆蓋社會科學研究的核心需求。

第一類，單變量分布（Type 1）。檢驗 LLM 能否復現各目標變量的分布形態。例如，受教育水平的分布是否與真實人口一致。使用 Kolmogorov-Smirnov 檢驗（數值型）和 Pearson 卡方檢驗（類別型）進行評估。

第二類，雙變量關聯（Type 2）。檢驗變量對之間的關聯強度是否與真實數據一致。使用 Fisher z 檢驗（數值×數值）、Delta-method z 檢驗（類別×類別、類別×數值）。

第三類，多變量結果預測（Type 3）。以性別、種族、最高學歷（橫截面數據集還包括年齡）為協變量，以數值型目標變量為結果，檢驗回歸模型的 R2 是否一致。

第四類，生命事件序列分布（Type 4）。檢驗人生軌跡的排列順序分布是否與真實人口一致。例如“先結婚→后工作→再生育”這條路徑在真實數據中占比多少，在合成數據中是否被保留。

第五類，生命事件序列與協變量的關聯（Type 5）。檢驗人生軌跡與社會經濟變量之間的關聯結構是否被復現。

七大數據集

研究使用了 4 個縱向追蹤數據集和 3 個橫截面數據集，涵蓋六大社會領域：

模擬方法

對每個數據集，隨機抽取 1000 個真實個體，用其背景變量（性別、種族等）作為輸入條件，讓 15 個 LLM 分別為每個個體生成一個“數字孿生”。合成數據集隨后與真實數據通過五類統計檢驗進行對比。規模相當可觀。

圖1：SSDataBench 基準測試框架概覽。(a) 從數據準備到模擬生成再到統計評估的完整流程。(b) 五類統計模式的評估方法，每類都通過假設檢驗判斷 LLM 生成數據是否與真實數據存在顯著差異。

四種系統性缺陷

15 個 LLM 在 7 個數據集、五類統計模式上的平均通過率普遍很低。表現最好的 GPT-4 和 Llama-3.1 平均通過率也僅 0.30，表現最差的 Claude-4.5-Haiku 僅為 0.19。值得注意的是，五類評估中存在清晰的梯度：分布類測試（Type 1 單變量分布、Type 4 生命事件序列分布）通過率最低，而關聯類測試（Type 2 雙變量關聯、Type 3 多變量預測、Type 5 軌跡-協變量關聯）通過率顯著更高。這意味著 LLM 捕捉變量間關聯結構的能力強于復現完整分布的能力，即它們能大致理解“學歷與收入相關”，卻無法準確再現“收入在人口中的具體分布形態”。在 NLSY 和 CFPS 等縱向數據集上，Type 4（生命事件序列分布）的通過率尤其慘淡，多數模型得分為 0。

圖2：15 個 LLM 在 7 個數據集上的五類統計模式通過率熱力圖。顏色越深表示通過率越高。Type 4（生命事件序列分布）大面積呈現白色（通過率為0），是最薄弱的環節。

缺陷一：壓縮異質性

LLM 生成的數據在分布上趨向于集中，喪失了真實人口的多樣性。

以 Gemini-2.5-Flash 在 NLSY 上的案例為例，真實數據中“初婚年齡”呈現寬泛分布，但合成數據中的分布明顯向典型值坍縮。

自我評估記憶力的分布也呈現類似模式——真實人口中存在從“極差”到“極好”的完整光譜，而 LLM 傾向于將大多數人的數據“生成”在中間值帶。

也就是說中間態被過度代表了，兩端泯滅了。量化這一現象的工具是信息熵。類別型變量的熵值對比顯示，合成數據的熵值系統性低于真實數據，意味著 LLM 在生成過程中丟失了變異信息。換言之，多樣性被吞噬了。

圖3：Gemini-2.5-Flash 在 NLSY 上的分布坍縮案例。

缺陷二：膨脹關聯性

LLM 不僅壓縮了分布，還膨脹了變量之間的關聯。

Cramér's V 統計量（衡量兩個類別變量之間關聯強度，范圍 0-1）在合成數據中系統性偏高。在真實 NLSY 數據中，最高學歷與性別、職業、自評健康之間的關聯相對溫和，但在合成數據中，這些關聯被大幅放大。生成數據中許多變量對的 Cramér's V 超過 0.6，部分甚至接近 0.8 或 1，在真實項目應用中就有可能高估現有知識、能力和判斷的準確性，低估風險和不確定性。部分情況下，LLM 放大了真實世界中已存在的微弱關聯（如學歷與職業的關系）；另一些情況下，LLM 則憑空創造了真實數據中不存在的強關聯。無論哪種情況，其結果都是將復雜的社會現象簡化為確定性的因果敘事——而使用者可能完全不知道生成數據中隱含了多少這種模式化的偏見。

從全局視角看，合成數據的 Cramér's V 分布整體右移——中位數高于真實數據，且出現大量高值聚集（>0.6），這在真實數據中幾乎不存在。這一現象在統計真實性較低的模型中尤為突出。更危險的是這種刻板關聯的投射是隱性的，即使用者可能完全不知道生成數據中包含了多少先驗偏見。

圖4：統計量在所有模型和數據集上的分布對比（箱線圖）。(b) Cramér's V——合成數據關聯偏強且高值聚集。

缺陷三：夸大可預測性

多變量回歸分析揭示了更深層的問題。

當以 Race、Gender、Highest Education 為自變量預測各類結果變量時，合成數據的 R2 值遠高于真實數據。以“30-40歲平均收入（對數）”為例：合成數據的回歸模型 R2 接近 0.6，意味著種族、性別和學歷“解釋”了 60% 以上的收入差異。但真實數據中，同樣的模型 R2 不到 0.1。

總之，LLM 們反而最終是在告訴我們僅憑種族、性別和學歷就能高度預測一個人的收入。這不是研究者得出的結論，而是模型輸出所投射的世界圖景，同時也是社會科學幾十年來試圖打破的刻板敘事。這種“過度可預測性”在統計真實性低的模型中尤為嚴重。許多合成數據的 R2 值超過 0.8，而真實數據中 R2 值普遍低于 0.2。

圖5：Gemini-2.5-Flash 在 NLSY 上的回歸模型 R2 對比——合成數據中預測力被嚴重夸大，尤其是收入預測。

缺陷四：類型的坍縮

五類評估中，Type 4（生命事件序列分布）的通過率最低。

LLM 生成的人生軌跡呈現嚴重的“坍縮”現象——多數虛擬個體的生命路徑被壓縮為極少數典型模式。人生被模板化了。以 NLSY 數據為例，真實人口中“初婚(M)→開始工作(W)→初次生育(C)”三事件的排序存在六種可能組合，且分布相對分散。但生成數據中，絕大多數虛擬個體被推向了最“規范”的路徑——“先工作、再結婚、后生育” (W→M→C)，其他排列被嚴重低估。六條路只剩一條。

信息熵的對比展示了合成數據的軌跡熵值顯著低于真實數據。LLM 在訓練過程中習得了“典型人生”的敘事模板——讀書、工作、結婚、生子。當被要求生成虛擬人口時，它傾向于把所有人都推向這條“標準路徑”，就好像全世界的 80 億人都在遵循同一種人生劇本一樣。模板化。單一化。扁平化。

但真實人生不是模板，而且從我們對故事性的直覺來看，即使有這樣的模板我們也不喜歡。有人先有孩子再結婚，有人中途輟學后創業成功，有人一輩子未婚并將有限的生命投入無限地開拓中。這些非典型但真實的人生軌跡，在 LLM 的輸出中幾乎消失了。真實 NLSY 數據中存在相當比例的非標準路徑，但在合成數據中這些排列被嚴重低估，多樣性急劇下降。

生命軌跡與協變量之間的關聯結構同樣失真。下圖展示了 NLSY 中“初婚、開始工作、初次生育”三事件序列與性別、最高學歷、移民狀態等變量之間的 Cramér's V。雖然 Type 5（軌跡-協變量關聯）不像 Type 2 那樣出現系統性膨脹，但偏差依然明顯。合成數據中大量關聯超過 0.5，而真實數據中幾乎沒有如此強的依賴。模型未能捕捉到性別、學歷、移民身份等變量對人生軌跡排序的關鍵影響。

圖6：Gemini-2.5-Flash 在 NLSY 上的生命事件序列分析。(e) 初婚(M)、開始工作(W)、初次生育(C) 三事件的排序分布——合成數據嚴重偏向 W→M→C 路徑。(f) 完成教育(E)、開始工作(W)、初次生育(C) 序列與協變量的 Cramér's V——偏差雖非系統性膨脹，但仍顯著偏離真實數據。

Scale不是答案

面對這些缺陷，一個順延的猜測是更大的模型、更新的版本，表現應該更好。過去幾年，通過擴大參數規模、延長上下文窗口、增加訓練數據，LLM 在幾乎所有標準能力基準測試上都實現了持續躍升。無論是編程、數學推理、多語言翻譯、專業考試，模型家族內的更新更大的版本幾乎總是碾壓舊版本。因此有理由期待統計真實性也會隨模型能力的提升而水漲船高。但數據否定了這個直覺。

模型容量與統計真實性之間并未呈現出預期的正向關聯。從 GPT-3.5-Turbo（平均通過率 0.28）到 GPT-5（0.20），性能不升反降。同一模型家族內，新一代并不比上一代更好。Claude-3-Haiku (0.23)、Claude-3.5-Haiku (0.21)、Claude-4.5-Haiku (0.19) 三代遞減。這一模式表明，統計真實性的缺失可能不是暫時的能力不足，而是一個結構性挑戰。

圖7：五類統計量在所有模型和數據集上的分布對比（箱線圖）。每對箱線圖分別對應真實數據（左）和合成數據（右）。(a) 類別變量信息熵——合成數據系統性偏低。(b) Cramér's V——合成數據關聯偏強且高值聚集。(c) R2——合成數據預測力系統性偏高。(d) 生命事件序列信息熵——合成數據軌跡多樣性顯著不足。(e) 軌跡-協變量 Cramér's V——合成數據仍存在偏差。

原因有二。在模型層面，LLM 的訓練目標優化的是逐例預測準確性（case-wise prediction accuracy），而非跨多例的分布保真度（distributional fidelity）。準確性導向的目標甚至會放大類型化傾向——模型傾向于為每個輸入給出“最可能”的答案，而真實人口需要的恰恰是變異。在數據層面，大量豐富的社會科學數據以表格等量化格式存儲和流通，而非自然語言。現有 LLM 難以從文本語料中內化這些結構化信息。

這意味著，改善統計真實性不能依賴單純擴大模型規模，而需要針對性的方法。

通往更好統計真實性的路徑三條改善路徑

更豐富的輸入有可能改善生成的結果。輔助實驗表明，當從輸入條件中移除性別和種族等背景變量時，統計真實性普遍惡化。在 Add Health 和 U.S. Census 兩個數據集上測試的研究使用了 GPT-4o、Gemini-2.5-Flash、Llama-3.1 三個模型，發現移除 Gender 和 Race 后所有模型的統計真實性均出現下降 (Xie et al., 2025)。這意味著，提供更豐富的輸入信息是改善合成數據質量的有效策略。在數據采集環節投入更多成本，直接反映在模擬結果的統計保真度上。研究者應當盡可能詳盡地提供人口學和社會經濟背景信息，而非僅用最少的變量組合。

情境條件有可能約束輸出。正如 American Voices Project 所倡導的，質性數據能夠捕捉量化調查難以測量的生活經驗和社會情境 (Edin et al., 2024)。將訪談文本作為 LLM 的輸入，可能提供比結構化變量更深的“錨定”。從人口統計數字轉向有溫度的生活敘事，從變量到故事，從表格到口述歷史，這些更貼近人的數據可能是未來模型上下文能力提升后值得嘗試的。LLM 在處理非結構化文本方面天然具有優勢 (Verhagen et al., 2025)。如果一個數字孿生不僅知道“這位受訪者是 35 歲的非裔美國女性、高中學歷”，還能讀到她關于成長經歷的口述歷史文本，模型就有可能生成更貼近真實變異的模擬結果。這恰好是 LLM 區別于傳統統計模型的核心能力。

微調是目前在工程實踐中最有可能被用上的。這是三條路徑中目前驗證最充分的一條。研究團隊用 CPS-ASEC (1970) 的 1000 個樣本對 Llama-3.1 (8B) 進行微調，然后在三個完全不同的數據集上評估泛化能力。

圖8：Llama-3.1 (8B) 在 CPS-ASEC (1970) 上微調前后的通過率對比。微調在三個未見數據集上均帶來顯著提升，其中同數據集跨情境遷移的提升最大。

微調數據來自與評估不同的社會情境（1970 vs. 1980），且在一個數據集上完全是跨數據集遷移。這表明領域特定的訓練數據能實質性增強統計真實性，且具有一定的泛化能力。

特別值得注意的是，CPS-ASEC (1970) 的 1000 個微調樣本在跨十年（1970→1980）的情境遷移中使通過率翻了一倍以上，在完全不同的 GSS 數據集上也帶來了 24% 的提升——這暗示統計真實性并非完全依賴特定數據的記憶，而是可以通過學習更一般的人口分布規律來改善。

局限性

研究團隊坦誠了三個主要局限。

第一，通過率涉及若干主觀決策。Bootstrap 樣本量的選擇、匯總統計量的定義、具體統計檢驗的選取及其參數化、以及 0.05 的常規顯著性閾值，都涉及不可避免的判斷。通過率應被理解為比較性而非絕對性指標。不同模型之間的相對性能排序是可靠的，因為所有模型都在同一套統計量、檢驗和閾值下評估。案例研究中的描述性結果也為二元通過/失敗的判定提供了補充。

第二，評估主要在稀疏條件下進行。模型僅被提供有限的人口背景變量，目標變量完全不可觀測。在這一設定下，傳統的插補方法并不直接適用，因為它們通常假設目標變量至少部分可觀測。在部分可觀測場景下將 LLM 與 SOTA 插補方法進行基準對比，是一個重要的未來方向。

第三，雖然使用了大規模調查作為最佳可用的實證基線，但調查數據本身并非完美的“真值”。覆蓋偏差、拒答偏差、流失偏差、訪員偏差、社會期望偏差、回憶誤差和測量誤差等問題在調查研究中普遍存在。任何以調查數據為“真值”的評估框架，都不可避免地受到這些偏差的污染。研究者在解讀評估結果時，應當總是將這一層不確定性納入考量。

因果推斷的潛在價值

以上缺陷們、縮放無效的困境、改善路徑的初步探索所反映的是當前的 LLM 生成數據距離統計保真還有顯著差距，但差距的方向是可辨識的、可干預的。正是這一條件性，使得討論下游應用的前景成為有可能的、有約束的技術愿景。

如果經過適當的訓練，AI 生成數據在社會科學中具有獨特的前景——尤其是在因果推斷領域。設想一個場景：研究者想知道“大學教育對收入的因果效應”，但現實中無法隨機分配大學入學機會。如果 LLM 能夠生成統計真實的合成人口，研究者就能在虛擬世界中為同一個人同時生成上大學和不上大學兩種反事實結果，直接估計因果效應。

Holland 四十年前指出，因果推斷的根本問題在于反事實結果不可觀測 (Holland, 1986)。如果 LLM 能夠生成統計真實的合成人口，研究者就能在虛擬世界中進行隨機化實驗、操縱關鍵變量、觀測反事實結果。可能性巨大。

這將從根本上改變社會科學的實證研究范式。隨機對照實驗——社會科學因果推斷的“金標準”——將從昂貴、耗時、倫理敏感的實地操作，轉變為可以在計算集群上批量運行的模擬過程。但前提是合成數據至少要先通過統計保真度的檢驗。SSDataBench 為這一目標提供了可操作的評估框架和受約束的改進路線。

路雖遠，行則將至。

這項研究的核心啟示可以濃縮為統計保真度是 LLM 生成數據的“生命線”。沒有它，一切下游應用——因果推斷、政策模擬、人口預測——都建立在泡影之上。SSDataBench 的五維框架（分布形態、雙變量關聯、多變量預測、軌跡分布、軌跡-協變量關聯）為后續研究設定了可用的標尺，而跨數據集的系統評估則提供了目前最全面的基準數據。

參考文獻

Argyle, Lisa P., et al. “Out of One, Many: Using Language Models to Simulate Human Samples.” Political Analysis, vol. 31, no. 3, Feb. 2023, pp. 337–51, doi:10.1017/pan.2023.2.
Bisbee, James, et al. “Synthetic Replacements for Human Survey Data? The Perils of Large Language Models.” Political Analysis, vol. 32, no. 4, May 2024, pp. 401–16, doi:10.1017/pan.2024.5.
Edin, Kathryn J., et al. “Listening to the Voices of America.” RSF: The Russell Sage Foundation Journal of the Social Sciences, vol. 10, no. 5, Aug. 2024, pp. 1–31, doi:10.7758/rsf.2024.10.5.01.
Goldthorpe, John H. Sociology as a Population Science. Cambridge University Press, 2016.
Groves, Robert M., et al. Survey Methodology. John Wiley & Sons, 2011.
Holland, Paul W. “Statistics and Causal Inference.” Journal of the American Statistical Association, vol. 81, no. 396, Dec. 1986, pp. 945–60, doi:10.1080/01621459.1986.10478354.
Neyman, Jerzy. “Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability.” A Selection of Early Statistical Papers of J. Neyman, University of California Press, 2023, pp. 250–90, https://doi.org/10.2307/jj.8501421.24
Santurkar, Shibani, et al. “Whose Opinions do Language Models Reflect?” arXiv.org, 30 Mar. 2023, https://arxiv.org/abs/2303.17548
Verhagen, Mark D., et al. “The Book of Life Approach: Enabling Richness and Scale for Life Course Research.” arXiv.org, 2 July 2025, https://arxiv.org/abs/2507.03027
Xie, Yu. “Population Heterogeneity and Causal Inference.” Proceedings of the National Academy of Sciences of the United States of America, vol. 110, no. 16, 2013, pp. 6262–68, doi:10.2307/42590407.
Xie, Yu, and Yueqi Xie. “Variance Reduction in Output from Generative AI.” arXiv.org, 2 Mar. 2025, https://arxiv.org/abs/2503.01033
Boelaert, Julien, et al. “Machine Bias. How do Generative Language Models Answer Opinion Polls? .” Sociological Methods &Amp; Research, vol. 54, no. 3, Apr. 2025, pp. 1156–96, doi:10.1177/00491241251330582.
Lundberg, Ian, et al. “The Origins of Unpredictability in Life Outcome Prediction Tasks.” Proceedings of the National Academy of Sciences, vol. 121, no. 24, June 2024, doi:10.1073/pnas.2322973121.

參考文獻可上下滑動查看

「大模型時代下的Agent建模與仿真」讀書會

集智俱樂部聯合山東工商學院副教授高德華、天津大學教授薛霄、北京師范大學教授張江、國防科技大學博士研究生曾利共同發起。讀書會自2025年7月8日開始，每周二晚上7:30-9:30進行，現讀書會已結束，支持查看課程回放。掃碼加入Agent建模與仿真的前沿探索之旅，一起共學、共創、共建、共享「大模型時代下的Agent建模與仿真」社區，共同暢想大模型時代人工社會的未來圖景！

核心問題

Agent建模與仿真是什么，核心技術發生了怎樣的演變？

大模型時代，Agent建模與仿真會給復雜系統理論帶來哪些突破？

大模型如何賦能Agent實現自主思考與動態適應？

大模型驅動的Agent交互會涌現出什么新型的社會現象？

Agent建模與仿真如何改變金融、心理、管理、軍事等領域的研究范式？

你將收獲

梳理Agent建模與仿真的歷史發展脈絡與方法論；

掌握一套理解、分析、控制、預測復雜系統的計算實驗框架；

掌握基于多主體強化學習的復雜系統優化方法；

領略領域前沿學者的研究體系與科研路徑。

詳情請見：

#解讀

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.