![]()
機器學習已經習慣了處理序列:一句話中的詞、視頻中的幀、推薦系統中的點擊、金融市場中的訂單。但在很多真實場景里,數據并不是按固定步長排好隊出現的。
神經元在某個瞬間放電,社交平臺上一條帖子突然被轉發,地震之后余震接連發生,交易系統里買賣訂單以毫秒級速度涌入。這些事件既有發生時間,也可能帶有類型、文本、空間位置、圖像或其他上下文信息;它們彼此影響,卻又不服從傳統時間序列的整齊采樣假設。
這類數據,正是時間點過程(Temporal Point Processes, TPPs)試圖建模的對象。
近日,來自中國人民大學、廣東工業大學、東南大學等機構的研究者在 TMLR 發表綜述論文 《Advances in Temporal Point Processes: Bayesian, Neural, and LLM Approaches》,系統回顧了時間點過程近年來的進展。
![]()
與以往側重統計模型或神經 TPP 的綜述不同,這篇論文把 Bayesian TPP、Neural TPP、LLM-based TPP、訓練方法、應用場景和開放挑戰放在同一個框架下討論,覆蓋文獻一直更新到 2025 年。
![]()
- 論文標題:Advances in Temporal Point Processes: Bayesian, Neural, and LLM Approaches
- 作者:Feng Zhou、Quyu Kong、Jie Qiao、Cheng Wan、Yixuan Zhang、Ruichu Cai
- 論文鏈接:https://openreview.net/forum?id=SXgGKkShhT
為什么還需要重新梳理 TPP?
TPP 并不是一個新概念。Poisson 過程、Hawkes 過程、自校正過程等經典模型在統計學中已經有很長歷史,并被用于電話呼叫到達、地震余震、金融交易、神經 spike train、社交網絡傳播等任務。
但過去幾年,TPP 的研究對象和方法都發生了變化。
首先,傳統參數模型可解釋,但表達能力有限。Hawkes 過程可以直觀描述「過去事件提高未來事件發生概率」的自激效應,但真實世界中的事件影響往往非線性、非平穩、多類型且伴隨復雜上下文。
其次,深度學習讓 TPP 變得更靈活。RNN、LSTM、Transformer、ODE/SDE、diffusion 等模型被引入事件序列建模后,研究者可以用更強的表示學習能力擬合復雜動態。
第三,大語言模型開始改變 TPP 的邊界。過去的 TPP 多半只關心時間和事件類型,而現實事件往往還包含文本、圖像、外部知識與語義關系。LLM 的出現讓「預測下一個事件」擴展為「理解一段帶時間戳的多模態事件歷史」。
因此,這篇綜述把近年來的 TPP 進展概括為三條主線:
- Bayesian TPP:強調不確定性量化和原則化推斷;
- Neural TPP:強調表達能力、可擴展性和端到端預測;
- LLM-based TPP:強調語義理解、多模態建模和更開放的時間推理任務。
TPP 的核心:用強度函數描述「下一件事何時發生」
如果把一個事件序列寫成t1, t2, ..., tN,TPP 建模的就是這些時間點在連續時間窗口內如何產生。更一般地,每個事件還可以帶有 mark,也就是事件類型,例如 ((t1, k1), ..., (tN, kN))。
論文首先回顧了 TPP 的兩個基本表述:條件密度函數和條件強度函數。后者是 TPP 中最核心的概念。直觀來說,條件強度函數回答這樣一個問題:
在已經觀察到過去所有事件的前提下,未來某個很短時間窗口里發生某類事件的瞬時可能性有多大?
Poisson 過程假設事件之間彼此獨立,可以用固定或隨時間變化的強度描述。Hawkes 過程則進一步引入歷史依賴:過去的事件會通過觸發函數影響未來事件的發生概率。多變量 Hawkes 過程還能描述不同事件類型之間的相互激發關系,例如買單是否會影響賣單,某個用戶的發帖是否會引發其他用戶轉發。
也正因為這種「歷史影響未來」的機制,TPP 不只適合做預測,也天然適合做因果發現,尤其是 Granger causality 意義下的事件類型依賴關系識別。
![]()
第一條路線:Bayesian TPP,讓模型知道自己有多不確定
經典參數化 TPP 的問題在于,研究者需要提前假設強度函數的形式。但現實數據常常太復雜,很難用固定函數描述。貝葉斯非參數 TPP 的核心思想是:不要把強度函數限制在某個有限維參數形式里,而是直接把強度函數本身當作無限維對象,并為其設置先驗。
論文重點討論了兩類 Bayesian nonparametric TPP:
- Bayesian nonparametric Poisson process
- Bayesian nonparametric Hawkes process
在 Poisson 場景中,常見做法是用 Gaussian Process 作為函數先驗,再通過 link function 保證強度非負。這樣一來,模型不僅能擬合復雜的時間變化強度,還能給出后驗不確定性。但代價也很明顯:推斷非常困難。
論文指出,相關后驗往往存在「雙重不可解」的問題,一方面似然里包含對時間的積分,另一方面還需要對函數空間積分。因此,研究者發展了 MCMC、Laplace approximation、variational inference、Pólya-Gamma 數據增強等方法來近似推斷。
在 Hawkes 過程中,難點進一步增加。因為強度函數通常由背景強度和觸發函數兩部分組成,二者在似然中耦合。一個常見技巧是引入 branching latent variable,用隱藏變量表示某個事件是由背景過程產生,還是由之前某個事件觸發。引入這個變量后,Hawkes 似然可以拆解成與背景強度和觸發函數相關的兩個部分,從而更容易套用非參數 Poisson 過程中的推斷技術。
這條路線的優點很清楚:可解釋、能量化不確定性、與統計理論聯系緊密。缺點也同樣明確:推斷復雜,擴展到大規模數據時成本較高。
第二條路線:Neural TPP,用深度模型提升表達能力
深度學習給 TPP 帶來的直接變化,是用神經網絡替代手工設計的強度函數或條件分布。論文把 Neural TPP 的主流架構分為幾類。
第一類是 recurrent neural TPP。早期代表工作使用 RNN 或 LSTM 逐個讀取事件,把歷史壓縮成 hidden state,再用 hidden state 參數化下一個事件的時間和類型分布。
它的優勢是在線預測效率高:歷史狀態更新完之后,預測下一步可以做到常數時間。但缺點是訓練難以并行,長程依賴建模能力有限。論文也特別提到一個新的方向:將 RWKV、S4、Mamba 等高效序列模型與 TPP 結合。這些模型仍具備遞歸式結構的高效性,同時支持并行訓練和長程依賴建模,有望改善傳統 RNN-TPP 的可擴展性。
第二類是 autoregressive neural TPP,典型代表是 Transformer TPP。Transformer 可以通過 self-attention 捕捉長距離事件依賴,并支持并行訓練。2020 年之后,大量工作圍繞 Transformer TPP 改進時間編碼、mark 編碼、注意力機制和條件強度函數設計。
但 Transformer 的代價也熟悉:訓練復雜度通常隨序列長度呈二次增長,長事件流上的時間和顯存成本都很高。對于高頻交易、日志監控這類超長序列場景,如何降低復雜度仍是關鍵問題。
第三類是 differential equation-based neural TPP。RNN 和 Transformer 通常只在事件發生時更新隱藏狀態,對事件間隔中的連續時間動態表達不足。ODE/SDE-based TPP 則讓隱藏狀態在無事件發生時連續演化,在事件發生時發生跳變,從而更自然地刻畫連續時間中的條件強度變化。這類方法表達力強,但訓練和采樣都更慢,因為它們往往需要數值求解微分方程,并反復計算強度函數積分。
![]()
此外,論文還討論了 diffusion-based TPP。與傳統自回歸模型逐個預測未來事件不同,擴散模型嘗試通過迭代去噪生成整段事件序列。這為長時域預測和序列模擬提供了新視角,但也帶來計算開銷大、時間一致性難保證、似然評估不直接等問題。
不只模型結構,參數化方式也很關鍵
TPP 中一個容易被忽略的問題是:神經網絡到底應該預測什么?最常見的做法是預測條件強度函數。但最大似然訓練時,強度函數需要在時間窗口上積分,這在神經模型中通常沒有閉式解,只能依賴數值積分,影響效率和精度。
因此,近年來不少工作轉向「intensity-free」建模,直接參數化條件密度函數、條件分布函數或累計強度函數。
例如,用 log-normal mixture 直接建模下一個事件的時間分布,或者用單調神經網絡 / 樣條函數建模累計強度。這樣可以避免數值積分,提高訓練和采樣效率。論文將這些參數化方式放在一起比較,提醒讀者:Neural TPP 的進展不只是換一個更大的 backbone,也包括對概率建模目標本身的重新設計。
第三條路線:LLM-based TPP,事件流開始擁有語義
這篇綜述最有新意的部分,是把 LLM-based TPP 納入時間點過程研究版圖。論文認為,LLM-based TPP 可以分為兩類。
第一類是 LLM-inspired TPP。它們并不直接用 LLM 取代 TPP 主干,而是借鑒 prompt learning、reasoning 等思想增強現有神經 TPP。例如 PromptTPP 使用可學習 temporal prompts 適應持續變化的數據分布;LAMP 則引入 LLM 的溯因推理能力,讓模型為候選未來事件生成可能原因,再從歷史事件中檢索證據。
這類方法的優點是相對高效,能增強適應性或可解釋性;局限是時間動態本身仍主要由傳統神經 TPP 建模。
第二類是 direct LLM-TPP integration,即直接把 LLM 作為事件序列的核心表示模型。TPP-LLM 將事件用文本描述表示,并通過時間嵌入注入時間信息,再用 LoRA 等參數高效微調方法適配事件預測任務。Language-TPP 則進一步把連續時間間隔編碼為 byte-level tokens,讓時間和語言進入同一 token 序列,由 LLM 統一建模。
![]()
這種方向的意義在于,TPP 不再只處理「時間 + 類型」的二維事件,而開始處理帶有自然語言描述、外部知識、多模態上下文的復雜事件流。
論文同時提醒,LLM-based TPP 正在擴展傳統 TPP 的邊界。經典 TPP 的核心是連續時間事件發生過程的概率律,任務通常包括似然建模、預測、模擬和因果結構發現。而 LLM 引入后,事件序列檢索、問答、多模態推理等任務也被納入討論。這些任務很有價值,但不一定都是嚴格意義上的點過程問題。未來社區需要更清楚地區分:哪些任務本質上是 TPP,哪些任務只是把 TPP 作為更大時間推理系統中的一個組件。
數據集和評測:TPP 社區還缺一個真正統一的基準
模型越來越復雜之后,評測問題變得更加重要。論文指出,TPP 研究長期面臨數據集碎片化、預處理不一致、訓練 / 驗證 / 測試劃分不同、指標定義不統一等問題。這使得不同論文之間的性能比較并不總是可靠。
近年來,EasyTPP 等統一 benchmark 工具開始緩解這一問題,提供標準化預處理、模型實現、訓練流程和評估腳本。論文認為,benchmark 標準化的重要性不亞于新模型本身,因為只有可比較、可復現的實驗結果才能真正積累為社區知識。
TPP 的評測任務也在擴展:
- next-event prediction:預測下一個事件的時間和類型;
- long-horizon prediction:預測未來一段窗口內的多個事件;
- semantic or multimodal tasks:面向 LLM-based TPP 的檢索、問答、多模態推理等任務;
- causal discovery:識別不同事件類型之間的 Granger 因果關系。
![]()
論文總結了一個相對謹慎的經驗判斷:Transformer-based neural TPP 在復雜數據上的 next-event prediction 往往優于經典參數模型;直接建模條件密度或累計強度的模型通常訓練更高效;長時域預測仍然困難;LLM-based 和 multimodal TPP 在語義理解任務上有優勢,但在純時間預測基準上的優勢還沒有那么明確。
應用:從預測下一次點擊,到發現事件之間的因果鏈
TPP 的應用可以粗略分成兩類:事件預測和因果發現。
事件預測關注未來會發生什么、什么時候發生、屬于哪一類。典型場景包括社交網絡中的轉發預測、疫情傳播預測、地震余震預測、金融市場訂單預測、推薦系統中的用戶行為預測等。
因果發現則更關心事件之間的影響結構。例如在神經科學中,多個神經元的 spike train 可以被視為多變量點過程,研究者希望推斷神經元之間是否存在功能連接;在高頻金融中,買單和賣單之間的相互影響可以用 Hawkes 過程刻畫;在 AIOps 中,系統故障事件的觸發關系有助于定位根因;在醫療和網絡安全中,事件依賴結構也能幫助理解復雜系統中的傳播機制。
這也是 TPP 區別于一般序列預測模型的重要價值:它不僅試圖預測未來,還試圖回答「過去的哪些事件以何種方式影響了未來」。
未來挑戰:可解釋性、可擴展性、采樣效率和多模態
論文最后總結了 TPP 領域仍待解決的幾個核心挑戰。
第一是數據和模型標準化。事件序列通常具有不規則時間間隔、變長序列、多樣 mark 空間和不同時間粒度。不同數據處理方式會顯著影響模型表現,也會讓論文間比較變得困難。
第二是模型可解釋性。傳統 Hawkes 模型中的背景強度和觸發函數有明確含義,而神經 TPP 往往把動態編碼進高維隱狀態中,難以解釋過去事件如何影響未來強度。在因果發現、科學建模和決策支持中,這一問題尤其關鍵。
第三是可擴展性。真實事件流可能包含數萬甚至更多時間戳,而模型還要處理連續時間積分、長程依賴和多類型事件交互。簡單把 Transformer 換成 Mamba 或其他高效模塊還不夠,未來需要理解這些架構如何表示 hazard function、歷史依賴和長期時間因果。
第四是采樣效率。經典 thinning 或 inverse transform sampling 需要反復評估強度函數,對復雜神經模型來說代價很高。擴散模型、flow-based 方法、speculative decoding 等方向正在嘗試并行或塊狀生成事件序列,但仍需平衡時間一致性、條件結構和計算成本。
第五是多模態建模。真實事件往往伴隨文本、圖像、視頻幀、傳感器讀數等上下文信息。LLM 和多模態大模型為這類問題提供了新工具,但也帶來時間對齊、不確定性校準、可控生成等新問題。
結語:TPP 正在從「預測事件時間」走向「理解事件世界」
這篇 TMLR 綜述傳遞出的一個重要信號是:TPP 正處在一個重新匯合的階段。統計學傳統提供了強度函數、似然、貝葉斯推斷和因果解釋;深度學習提供了強大的表示能力和端到端預測能力;大語言模型則把文本、知識、多模態和推理能力帶入事件序列建模。
未來的 TPP 可能不再只是一個預測「下一個事件何時發生」的模型,而是一個能夠理解連續時間中復雜事件流的通用框架。它既要知道時間,也要理解語義;既要能預測,也要能解釋;既要足夠靈活,也要保留統計建模中的可校準性和可靠性。
對機器學習研究者來說,這意味著TPP 不是一個偏門的統計工具,而是連接連續時間建模、序列學習、因果發現和大模型推理的重要交叉點。而這篇綜述的價值,正在于它把這些正在分散發展的線索重新放回了一張圖里。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.