網易首頁 > 網易號 > 正文申請入駐

從貝葉斯到大語言模型：一文詳解「時序點過程」近年進展

2026-06-17 02:12:15　來源: 機器之心Pro

天津舉報

分享至

機器學習已經習慣了處理序列：一句話中的詞、視頻中的幀、推薦系統中的點擊、金融市場中的訂單。但在很多真實場景里，數據并不是按固定步長排好隊出現的。

神經元在某個瞬間放電，社交平臺上一條帖子突然被轉發，地震之后余震接連發生，交易系統里買賣訂單以毫秒級速度涌入。這些事件既有發生時間，也可能帶有類型、文本、空間位置、圖像或其他上下文信息；它們彼此影響，卻又不服從傳統時間序列的整齊采樣假設。

這類數據，正是時間點過程（Temporal Point Processes, TPPs）試圖建模的對象。

近日，來自中國人民大學、廣東工業大學、東南大學等機構的研究者在 TMLR 發表綜述論文《Advances in Temporal Point Processes: Bayesian, Neural, and LLM Approaches》，系統回顧了時間點過程近年來的進展。

與以往側重統計模型或神經 TPP 的綜述不同，這篇論文把 Bayesian TPP、Neural TPP、LLM-based TPP、訓練方法、應用場景和開放挑戰放在同一個框架下討論，覆蓋文獻一直更新到 2025 年。

論文標題：Advances in Temporal Point Processes: Bayesian, Neural, and LLM Approaches
作者：Feng Zhou、Quyu Kong、Jie Qiao、Cheng Wan、Yixuan Zhang、Ruichu Cai
論文鏈接：https://openreview.net/forum?id=SXgGKkShhT

為什么還需要重新梳理 TPP？

TPP 并不是一個新概念。Poisson 過程、Hawkes 過程、自校正過程等經典模型在統計學中已經有很長歷史，并被用于電話呼叫到達、地震余震、金融交易、神經 spike train、社交網絡傳播等任務。

但過去幾年，TPP 的研究對象和方法都發生了變化。

首先，傳統參數模型可解釋，但表達能力有限。Hawkes 過程可以直觀描述「過去事件提高未來事件發生概率」的自激效應，但真實世界中的事件影響往往非線性、非平穩、多類型且伴隨復雜上下文。

其次，深度學習讓 TPP 變得更靈活。RNN、LSTM、Transformer、ODE/SDE、diffusion 等模型被引入事件序列建模后，研究者可以用更強的表示學習能力擬合復雜動態。

第三，大語言模型開始改變 TPP 的邊界。過去的 TPP 多半只關心時間和事件類型，而現實事件往往還包含文本、圖像、外部知識與語義關系。LLM 的出現讓「預測下一個事件」擴展為「理解一段帶時間戳的多模態事件歷史」。

因此，這篇綜述把近年來的 TPP 進展概括為三條主線：

Bayesian TPP：強調不確定性量化和原則化推斷；
Neural TPP：強調表達能力、可擴展性和端到端預測；
LLM-based TPP：強調語義理解、多模態建模和更開放的時間推理任務。

TPP 的核心：用強度函數描述「下一件事何時發生」

如果把一個事件序列寫成t1, t2, ..., tN，TPP 建模的就是這些時間點在連續時間窗口內如何產生。更一般地，每個事件還可以帶有 mark，也就是事件類型，例如 ((t1, k1), ..., (tN, kN))。

論文首先回顧了 TPP 的兩個基本表述：條件密度函數和條件強度函數。后者是 TPP 中最核心的概念。直觀來說，條件強度函數回答這樣一個問題：

在已經觀察到過去所有事件的前提下，未來某個很短時間窗口里發生某類事件的瞬時可能性有多大？

Poisson 過程假設事件之間彼此獨立，可以用固定或隨時間變化的強度描述。Hawkes 過程則進一步引入歷史依賴：過去的事件會通過觸發函數影響未來事件的發生概率。多變量 Hawkes 過程還能描述不同事件類型之間的相互激發關系，例如買單是否會影響賣單，某個用戶的發帖是否會引發其他用戶轉發。

也正因為這種「歷史影響未來」的機制，TPP 不只適合做預測，也天然適合做因果發現，尤其是 Granger causality 意義下的事件類型依賴關系識別。

第一條路線：Bayesian TPP，讓模型知道自己有多不確定

經典參數化 TPP 的問題在于，研究者需要提前假設強度函數的形式。但現實數據常常太復雜，很難用固定函數描述。貝葉斯非參數 TPP 的核心思想是：不要把強度函數限制在某個有限維參數形式里，而是直接把強度函數本身當作無限維對象，并為其設置先驗。

論文重點討論了兩類 Bayesian nonparametric TPP：

Bayesian nonparametric Poisson process
Bayesian nonparametric Hawkes process

在 Poisson 場景中，常見做法是用 Gaussian Process 作為函數先驗，再通過 link function 保證強度非負。這樣一來，模型不僅能擬合復雜的時間變化強度，還能給出后驗不確定性。但代價也很明顯：推斷非常困難。

論文指出，相關后驗往往存在「雙重不可解」的問題，一方面似然里包含對時間的積分，另一方面還需要對函數空間積分。因此，研究者發展了 MCMC、Laplace approximation、variational inference、Pólya-Gamma 數據增強等方法來近似推斷。

在 Hawkes 過程中，難點進一步增加。因為強度函數通常由背景強度和觸發函數兩部分組成，二者在似然中耦合。一個常見技巧是引入 branching latent variable，用隱藏變量表示某個事件是由背景過程產生，還是由之前某個事件觸發。引入這個變量后，Hawkes 似然可以拆解成與背景強度和觸發函數相關的兩個部分，從而更容易套用非參數 Poisson 過程中的推斷技術。

這條路線的優點很清楚：可解釋、能量化不確定性、與統計理論聯系緊密。缺點也同樣明確：推斷復雜，擴展到大規模數據時成本較高。

第二條路線：Neural TPP，用深度模型提升表達能力

深度學習給 TPP 帶來的直接變化，是用神經網絡替代手工設計的強度函數或條件分布。論文把 Neural TPP 的主流架構分為幾類。

第一類是 recurrent neural TPP。早期代表工作使用 RNN 或 LSTM 逐個讀取事件，把歷史壓縮成 hidden state，再用 hidden state 參數化下一個事件的時間和類型分布。

它的優勢是在線預測效率高：歷史狀態更新完之后，預測下一步可以做到常數時間。但缺點是訓練難以并行，長程依賴建模能力有限。論文也特別提到一個新的方向：將 RWKV、S4、Mamba 等高效序列模型與 TPP 結合。這些模型仍具備遞歸式結構的高效性，同時支持并行訓練和長程依賴建模，有望改善傳統 RNN-TPP 的可擴展性。

第二類是 autoregressive neural TPP，典型代表是 Transformer TPP。Transformer 可以通過 self-attention 捕捉長距離事件依賴，并支持并行訓練。2020 年之后，大量工作圍繞 Transformer TPP 改進時間編碼、mark 編碼、注意力機制和條件強度函數設計。

但 Transformer 的代價也熟悉：訓練復雜度通常隨序列長度呈二次增長，長事件流上的時間和顯存成本都很高。對于高頻交易、日志監控這類超長序列場景，如何降低復雜度仍是關鍵問題。

第三類是 differential equation-based neural TPP。RNN 和 Transformer 通常只在事件發生時更新隱藏狀態，對事件間隔中的連續時間動態表達不足。ODE/SDE-based TPP 則讓隱藏狀態在無事件發生時連續演化，在事件發生時發生跳變，從而更自然地刻畫連續時間中的條件強度變化。這類方法表達力強，但訓練和采樣都更慢，因為它們往往需要數值求解微分方程，并反復計算強度函數積分。

此外，論文還討論了 diffusion-based TPP。與傳統自回歸模型逐個預測未來事件不同，擴散模型嘗試通過迭代去噪生成整段事件序列。這為長時域預測和序列模擬提供了新視角，但也帶來計算開銷大、時間一致性難保證、似然評估不直接等問題。

不只模型結構，參數化方式也很關鍵

TPP 中一個容易被忽略的問題是：神經網絡到底應該預測什么？最常見的做法是預測條件強度函數。但最大似然訓練時，強度函數需要在時間窗口上積分，這在神經模型中通常沒有閉式解，只能依賴數值積分，影響效率和精度。

因此，近年來不少工作轉向「intensity-free」建模，直接參數化條件密度函數、條件分布函數或累計強度函數。

例如，用 log-normal mixture 直接建模下一個事件的時間分布，或者用單調神經網絡 / 樣條函數建模累計強度。這樣可以避免數值積分，提高訓練和采樣效率。論文將這些參數化方式放在一起比較，提醒讀者：Neural TPP 的進展不只是換一個更大的 backbone，也包括對概率建模目標本身的重新設計。

第三條路線：LLM-based TPP，事件流開始擁有語義

這篇綜述最有新意的部分，是把 LLM-based TPP 納入時間點過程研究版圖。論文認為，LLM-based TPP 可以分為兩類。

第一類是 LLM-inspired TPP。它們并不直接用 LLM 取代 TPP 主干，而是借鑒 prompt learning、reasoning 等思想增強現有神經 TPP。例如 PromptTPP 使用可學習 temporal prompts 適應持續變化的數據分布；LAMP 則引入 LLM 的溯因推理能力，讓模型為候選未來事件生成可能原因，再從歷史事件中檢索證據。

這類方法的優點是相對高效，能增強適應性或可解釋性；局限是時間動態本身仍主要由傳統神經 TPP 建模。

第二類是 direct LLM-TPP integration，即直接把 LLM 作為事件序列的核心表示模型。TPP-LLM 將事件用文本描述表示，并通過時間嵌入注入時間信息，再用 LoRA 等參數高效微調方法適配事件預測任務。Language-TPP 則進一步把連續時間間隔編碼為 byte-level tokens，讓時間和語言進入同一 token 序列，由 LLM 統一建模。

這種方向的意義在于，TPP 不再只處理「時間 + 類型」的二維事件，而開始處理帶有自然語言描述、外部知識、多模態上下文的復雜事件流。

論文同時提醒，LLM-based TPP 正在擴展傳統 TPP 的邊界。經典 TPP 的核心是連續時間事件發生過程的概率律，任務通常包括似然建模、預測、模擬和因果結構發現。而 LLM 引入后，事件序列檢索、問答、多模態推理等任務也被納入討論。這些任務很有價值，但不一定都是嚴格意義上的點過程問題。未來社區需要更清楚地區分：哪些任務本質上是 TPP，哪些任務只是把 TPP 作為更大時間推理系統中的一個組件。

數據集和評測：TPP 社區還缺一個真正統一的基準

模型越來越復雜之后，評測問題變得更加重要。論文指出，TPP 研究長期面臨數據集碎片化、預處理不一致、訓練 / 驗證 / 測試劃分不同、指標定義不統一等問題。這使得不同論文之間的性能比較并不總是可靠。

近年來，EasyTPP 等統一 benchmark 工具開始緩解這一問題，提供標準化預處理、模型實現、訓練流程和評估腳本。論文認為，benchmark 標準化的重要性不亞于新模型本身，因為只有可比較、可復現的實驗結果才能真正積累為社區知識。

TPP 的評測任務也在擴展：

next-event prediction：預測下一個事件的時間和類型；
long-horizon prediction：預測未來一段窗口內的多個事件；
semantic or multimodal tasks：面向 LLM-based TPP 的檢索、問答、多模態推理等任務；
causal discovery：識別不同事件類型之間的 Granger 因果關系。

論文總結了一個相對謹慎的經驗判斷：Transformer-based neural TPP 在復雜數據上的 next-event prediction 往往優于經典參數模型；直接建模條件密度或累計強度的模型通常訓練更高效；長時域預測仍然困難；LLM-based 和 multimodal TPP 在語義理解任務上有優勢，但在純時間預測基準上的優勢還沒有那么明確。

應用：從預測下一次點擊，到發現事件之間的因果鏈

TPP 的應用可以粗略分成兩類：事件預測和因果發現。

事件預測關注未來會發生什么、什么時候發生、屬于哪一類。典型場景包括社交網絡中的轉發預測、疫情傳播預測、地震余震預測、金融市場訂單預測、推薦系統中的用戶行為預測等。

因果發現則更關心事件之間的影響結構。例如在神經科學中，多個神經元的 spike train 可以被視為多變量點過程，研究者希望推斷神經元之間是否存在功能連接；在高頻金融中，買單和賣單之間的相互影響可以用 Hawkes 過程刻畫；在 AIOps 中，系統故障事件的觸發關系有助于定位根因；在醫療和網絡安全中，事件依賴結構也能幫助理解復雜系統中的傳播機制。

這也是 TPP 區別于一般序列預測模型的重要價值：它不僅試圖預測未來，還試圖回答「過去的哪些事件以何種方式影響了未來」。

未來挑戰：可解釋性、可擴展性、采樣效率和多模態

論文最后總結了 TPP 領域仍待解決的幾個核心挑戰。

第一是數據和模型標準化。事件序列通常具有不規則時間間隔、變長序列、多樣 mark 空間和不同時間粒度。不同數據處理方式會顯著影響模型表現，也會讓論文間比較變得困難。

第二是模型可解釋性。傳統 Hawkes 模型中的背景強度和觸發函數有明確含義，而神經 TPP 往往把動態編碼進高維隱狀態中，難以解釋過去事件如何影響未來強度。在因果發現、科學建模和決策支持中，這一問題尤其關鍵。

第三是可擴展性。真實事件流可能包含數萬甚至更多時間戳，而模型還要處理連續時間積分、長程依賴和多類型事件交互。簡單把 Transformer 換成 Mamba 或其他高效模塊還不夠，未來需要理解這些架構如何表示 hazard function、歷史依賴和長期時間因果。

第四是采樣效率。經典 thinning 或 inverse transform sampling 需要反復評估強度函數，對復雜神經模型來說代價很高。擴散模型、flow-based 方法、speculative decoding 等方向正在嘗試并行或塊狀生成事件序列，但仍需平衡時間一致性、條件結構和計算成本。

第五是多模態建模。真實事件往往伴隨文本、圖像、視頻幀、傳感器讀數等上下文信息。LLM 和多模態大模型為這類問題提供了新工具，但也帶來時間對齊、不確定性校準、可控生成等新問題。

結語：TPP 正在從「預測事件時間」走向「理解事件世界」

這篇 TMLR 綜述傳遞出的一個重要信號是：TPP 正處在一個重新匯合的階段。統計學傳統提供了強度函數、似然、貝葉斯推斷和因果解釋；深度學習提供了強大的表示能力和端到端預測能力；大語言模型則把文本、知識、多模態和推理能力帶入事件序列建模。

未來的 TPP 可能不再只是一個預測「下一個事件何時發生」的模型，而是一個能夠理解連續時間中復雜事件流的通用框架。它既要知道時間，也要理解語義；既要能預測，也要能解釋；既要足夠靈活，也要保留統計建模中的可校準性和可靠性。

對機器學習研究者來說，這意味著TPP 不是一個偏門的統計工具，而是連接連續時間建模、序列學習、因果發現和大模型推理的重要交叉點。而這篇綜述的價值，正在于它把這些正在分散發展的線索重新放回了一張圖里。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.