網易首頁 > 網易號 > 正文 申請入駐

西澳大學等聯合團隊給模型裝上了一套"事件日歷"

0
分享至


這項由西澳大學、騰訊優圖實驗室、香港中文大學(深圳)、南方科技大學和莫納什大學聯合開展的研究,以預印本形式于2026年4月6日發布在arXiv平臺,論文編號為arXiv:2604.04415。研究的核心成果是一個名為Factum-4B的視頻理解模型,以及一套訓練它的全新方法體系。

你有沒有想過,當一個人工智能模型"看"一段視頻時,它究竟在做什么?表面上,它好像在"理解"畫面,但實際上,現有的大多數視頻AI都像一個記憶力不太好的觀眾——剛看完一段,就忘了前面發生了什么,更別提推斷出各個事件之間的前因后果。

這恰恰是當前視頻AI領域的核心痛點。研究團隊發現,那些被設計為"會思考"的AI模型,在處理視頻問題時往往比普通模型表現更差。這就好比你買了一個"加強版"學習工具,結果它學了半天,反而越學越亂。問題出在哪里?這支研究團隊認為,根源在于這些模型沒有建立起一套有條理的"事件日歷",就直接開始推理,導致思維飄移、證據丟失、邏輯混亂。

這項研究的解法,借鑒了人類大腦處理視頻的方式。心理學研究早就發現,人在理解一段視頻時,并不是一幀一幀地死記硬背,而是先在腦海里建立一個結構化的草圖——誰在做什么、在哪里做、大概什么時間——然后再基于這個草圖去推理。Factum-4B就是按照這個思路被設計出來的:先建立一份"結構化事件檔案",再據此進行有據可查的因果推理。

一、視頻AI的通病:看了又忘,想了又亂

要理解這項研究解決了什么問題,先得搞清楚現有的視頻AI到底哪里出了問題。

現有的視頻大語言模型(也就是那些能回答關于視頻問題的AI)普遍依賴一種叫做"思維鏈"的方法。這種方法本來是為文字任務設計的:讓AI在給出答案之前,先寫出一步步的推理過程,就像數學題的解題步驟一樣。這在純文字任務上效果不錯,但視頻不是文字。

視頻的特點是信息量極度密集,而且充滿了時間上的冗余。如果你讓AI對著一段十分鐘的視頻做自由推理,它很容易陷入這樣的困境:花了大量篇幅描述不重要的畫面細節,把真正關鍵的線索淹沒在一堆廢話里;或者跳來跳去地分析幾個孤立的時間點,完全沒有把握住事件之間的連續性和因果關系。

研究團隊做了一個直接的實驗驗證:他們把同一個基礎模型分成兩個版本,一個是普通的"指令跟隨版",一個是加入了自由思維鏈的"思考增強版"。結果發現,那個號稱更會思考的版本,在幾乎所有視頻理解測試上都不如普通版本。這個結論聽起來反直覺,但背后的道理很清晰:不加約束的思考,在視頻這種高度時序化的信息面前,只會制造混亂,而不是帶來洞見。

這就是這支研究團隊要解決的核心問題:如何給AI的"思考"加上一套有意義的框架,讓它既不亂說廢話,又能真正理解視頻里發生了什么。

二、解法核心:先記"事件日歷",再推理

研究團隊提出的解法,圍繞一個他們命名為"結構化事件檔案"(Structured Event Facts)的概念展開。簡單來說,這就是一份關于視頻的結構化摘要,在AI開始回答任何問題之前,必須先把這份摘要寫完。

這份摘要的格式非常具體。對于視頻中的每一個時間段(大約每10到30秒一段),AI必須記錄下以下六類信息:時間段的起止時間、畫面中出現的人物、人物的具體動作、所處的場景、畫面中的關鍵物體、攝像機的運動方式,以及一段把上述所有信息整合在一起的事件描述。

以論文中的示例為例——一段關于在停車場鏟雪的視頻——AI會先寫下類似這樣的檔案:在0到39秒,一位穿黑色外套的女士用鏟子清理人行道上的積雪,手持攝像機跟隨拍攝;在39到100秒,一位戴王冠、穿米色夾克的男士進入停車場,開始鏟除一輛銀色汽車引擎蓋上的積雪……如此逐段記錄,直到視頻結束。

有了這份"事件日歷",AI在回答"這個人什么時候開始鏟地上的雪"這類問題時,就不再需要憑印象瞎猜,而是可以像偵探翻閱案件筆記一樣,逐條核對檔案,找出符合條件的時間段,然后通過檢驗前后事件的邏輯連貫性來確認答案。

研究團隊把后續的推理過程也設計得同樣有條理,分為三個步驟。第一步叫"全局搜索與定位":AI在事件檔案中尋找與問題相關的關鍵詞,快速鎖定候選的時間段。第二步叫"因果驗證":AI檢查候選時間段的前一段和后一段,確認這個時間段在整個事件鏈中是否說得通——前面有沒有合理的鋪墊,后面有沒有合理的延續。第三步叫"最終對齊":AI進行全局一致性檢查,確保推斷出的時間范圍真的包含在觀察到的活動序列之內。

這三步放在一起,構成了一套從"找線索"到"驗線索"再到"得結論"的完整推理流程,而不是像以前那樣東一句西一句地亂想。

三、數據工程:60000條訓練樣本是怎么造出來的

有了好的設計思路,還得有足夠高質量的訓練數據,模型才能真正學會這套方法。研究團隊為此專門構建了一個名為CausalFact-60K的數據集,總計包含32049條視頻樣本和約60000條標注。

數據來源方面,研究團隊從多個高質量的視頻時序理解數據集中篩選素材,包括ActivityNet-Captions、QVHighlights、COIN、Charades-STA等,所有視頻均來自這些數據集的訓練集,不使用原始的文字標注。為確保數據密度,團隊設定了一個篩選標準:一段150秒的視頻,至少要包含5個標注事件,才夠資格進入訓練集。那些事件密度不夠的視頻不會被完全丟棄,而是被保留下來用于后續的強化學習階段。

數據標注過程分為兩大階段。第一階段專注于生成結構化事件檔案。團隊使用了兩個當時最強大的視覺語言模型交替工作:Qwen3-VL-235B負責生成初稿,Gemini 2.5 Pro負責審核和質量打分;然后兩者對換角色,讓生成方和審核方相互牽制,避免任何一個模型的偏好污染數據質量。生成好的檔案還會經過人工抽樣檢查,每批1000條樣本中隨機抽取500條進行人工核驗。

第二階段在已有事件檔案的基礎上生成推理思維鏈。由于思維鏈對邏輯質量的要求更高,這個階段只使用Gemini 2.5 Pro作為生成器,Qwen3-VL擔任質量審核員。流程同樣包含人工抽樣檢查。

在任務類型分布上,這批訓練數據以時序定位任務為主,占53%,因為這類任務有明確的時間重疊率(IoU)作為評判標準,能給強化學習提供穩定的獎勵信號。空間問答和推理問答各占約21%和20%,確保模型不只會定位時間,還保有基本的語義理解能力。剩余少量任務包括時序問答、全局描述和局部描述,起到補充覆蓋的作用。

四、四階段訓練:從"認字"到"寫作文"

拿到了數據,研究團隊面臨的下一個問題是:怎么把這些能力一步步注入模型?如果一上來就讓模型學"先寫檔案、再推理、再給答案"這一整套流程,模型會因為任務太難而直接崩潰——要么檔案寫得一團糟,要么推理過程毫無結構,兩者兼顧根本學不會。

解決辦法是把訓練拆成四個漸進式階段,就像學寫文章要先認字、再造句、再寫段落、再寫完整作文一樣。

第一階段專注于讓模型學會"寫事件檔案"。這個階段的任務只有一件事:給模型看視頻,讓它輸出格式正確、內容準確的結構化事件描述。沒有任何推理,純粹是訓練模型的結構化感知能力。

第一階段半是一個過渡步驟,研究團隊稱之為"格式預熱"。這個階段的任務內容和第一階段一模一樣——還是寫事件檔案——但輸出格式變了:模型現在必須把檔案放在特定的XML標簽里,后面再跟著一個思考標簽和一個回答標簽,只是思考內容暫時是個空占位符。這看起來微不足道,但實踐發現如果跳過這步,模型在下一階段會產生大量格式錯誤,就像要求一個從沒寫過格式文件的人突然交出規范的合同一樣。

第二階段是"思維預熱"。這時候,訓練數據換成了真實的視頻問答任務,模型需要先生成事件檔案,再按照三步推理框架(全局搜索、因果驗證、最終對齊)寫出完整的推理過程,最后給出答案。通過第一和第一半階段的鋪墊,模型這時候已經有了足夠的基礎來學習這套完整流程。

第三階段是強化學習階段,也是整個訓練體系最復雜的部分,后面會專門展開講。

五、獎勵機制:如何評判AI的"答卷"質量

在強化學習階段,AI需要知道自己做對了還是做錯了,才能改進。研究團隊設計了四類獎勵信號,分別衡量AI回答的不同維度。

第一類是格式獎勵,檢查AI的回答是否嚴格遵守了"事件檔案+思考過程+最終答案"的結構,以及思考過程里是否包含了"全局搜索"、"因果驗證"、"最終對齊"、"前因"、"視覺驗證"、"后果"這六個關鍵詞。格式完全正確得滿分1.0,只滿足基本格式要求但缺少關鍵詞得0.5分,格式完全錯誤得0分。

第二類是時序定位獎勵,用于時間段定位類任務。評判標準是AI預測的時間段與正確答案的重疊程度。如果AI預測的是單個連續時間段,但正確答案是多個不連續片段,系統會取"覆蓋率"和"區間重疊率"中較高的一個分數,避免因為格式差異而錯誤懲罰了實質正確的答案。

第三類是多項選擇準確率,用于選擇題類任務,非零即一,選對了就是滿分,選錯了就是零分。

第四類是長度獎勵,這是最有趣的一個設計。研究團隊發現,讓AI在寫完整推理鏈的同時保持簡潔,是一件很難的事。如果任由AI自由生成,它很容易變成一個"廢話大王",把簡單問題寫成論文。為此團隊設計了一個"軟懲罰"機制:在目標長度以內不扣分,超過目標長度之后按比例線性扣分,超過上限則直接給零分。這比一刀切的硬截斷要溫和得多,不會造成訓練的不穩定。

六、平衡的難題:強化學習遇上多目標沖突

四類獎勵聽起來很全面,但同時優化它們卻帶來了一個頭疼的問題。研究團隊發現,這四個目標之間存在天然的緊張關系——特別是"內容完整性"和"長度效率"之間的矛盾。要寫一份完整、詳細的事件檔案,必然需要更多的篇幅;但長度獎勵又在懲罰過長的輸出。這兩個目標在拉鋸,導致模型在訓練時無所適從。

傳統的解決方法是把多個獎勵加權求和,化為一個綜合分數。但這種方法有一個根本缺陷:權重是固定的,而實際訓練過程中不同獎勵信號之間的相對重要性會動態變化。固定權重往往會讓模型傾向于把容易拿高分的獎勵做到極致,而忽視那些本來更稀缺、更關鍵的信號。

研究團隊借鑒了一種叫做"多梯度下降算法"(MGDA)的數學工具,提出了他們自己的解法,稱為"帕累托前沿引導優勢平衡"算法,簡稱P-FAB。

這個名字聽起來很嚇人,但核心思想可以用一個簡單的比喻來理解。假設你在組織一支四人樂隊,四個人分別代表格式、準確性、因果完整性和簡潔性四個目標。每個人都有自己想要演奏的方向,如果四個人各說各話,演出就會一團糟。P-FAB的作用,就是找出一個指揮方向,讓這四個人都往同一個方向走,同時確保那些平時搶不到話語權的成員(比如因果完整性這個難以滿足的目標)能得到更多關注。

具體在數學上,P-FAB的做法是這樣的:先對每個獎勵信號做中心化處理,消除基準差異;再對各信號做標準化處理,消除量綱不同帶來的影響;然后用一個叫"弗蘭克-沃爾夫算法"的迭代方法,在標準化空間里尋找一組權重,使得加權后的綜合方向對所有目標都盡可能有利,而不是偏向某一個。

最終得到的權重是動態的——每一批訓練數據,權重都會重新計算。那些當前表現較差、信號稀疏的目標會自動獲得更高的權重,從而得到更多關注;那些已經做得不錯的目標則適當降權。這就像一個有彈性的管理系統,總是把資源優先投入到最需要改進的地方。

論文中給出了一個對比示例:同樣一組訓練樣本,在傳統GRPO方法下,四個不同的候選回答可能計算出完全相同的優勢值,模型根本無法區分它們的高下;而P-FAB方法下,四個樣本得到了明顯不同的分數,讓模型能夠清晰地判斷哪個方向值得追求。

七、實驗結果:小模型的大表現

Factum-4B是以Qwen3-VL-4B-Instruct為基礎模型訓練出來的,參數量只有40億,屬于相當輕量的規模。研究團隊在多個視頻理解基準測試上進行了評估,結果出人意料地強勢。

在視頻時序定位任務上,研究團隊測試了三個數據集:Charades-TimeLens(一個重新標注了高質量時間戳的室內活動視頻集)、ActivityNet-TimeLens(重新標注了更精確邊界的開放域視頻集)以及ActivityNet-Captions(一個廣泛使用的大規模基準)。評判指標是"Recall@1",即AI給出的最優預測答案與正確答案的時間重疊率超過某個閾值的比例,閾值分別為0.3、0.5和0.7——閾值越高,對精度的要求越嚴格。

在ActivityNet-Captions上,Factum-4B的R1@0.5達到48.4%,R1@0.7達到28.1%,大幅超過了參數量更大的Time-R1-7B模型(后者R1@0.5僅39.0%,R1@0.7僅21.4%)。在高精度指標R1@0.7上,Factum-4B在所有開源模型中排名第一。更值得注意的是,Factum-4B使用的幀率僅為每秒1幀,而對比的開源模型普遍使用每秒2幀,相當于Factum-4B用更少的視覺信息取得了更好的結果。

在通用視頻理解基準上,研究團隊還測試了VideoMME(涵蓋電影、體育、紀錄片的長視頻評測集)、MLVU(面向長視頻的多任務評測集)、ETBench(細粒度時間敏感視頻理解基準)和NExT-GQA(基于因果和時序問答的視覺定位基準)。

Factum-4B在VideoMME上達到64.7%的準確率,在NExT-GQA上達到73.6%,比同參數量的Qwen3-VL-4B-Thinking版本高出整整7個百分點。在ETBench的8個子任務中,Factum-4B在6個上取得了最高分,其中時序視頻定位子任務得分66.1%,時序事件匹配子任務得分26.8%,后者甚至超過了專有閉源模型GPT-4o。

消融實驗進一步驗證了每個設計模塊的貢獻。去掉事件檔案只保留推理過程,VideoMME準確率從64.7%跌至60.8%;去掉推理過程只保留事件檔案,準確率跌至58.5%,是所有變體中跌幅最大的,說明如果沒有推理橋梁,檔案里的信息也無法被有效利用。去掉強化學習只用監督微調,ActivityNet R1@0.3比完整模型低8.3個百分點。將P-FAB替換為普通GRPO,在group size為4時性能差距為1.2個百分點,在group size為8時差距擴大到2.5個百分點,表明P-FAB的優勢在更大規模的對比組設置下更加突出。

八、這項研究的邊界與展望

研究團隊在論文中也坦率地指出了當前工作的局限性。Factum-4B的訓練數據規模仍然有限,總共只有約32000個視頻樣本,相比業界頭部模型的訓練規模還有相當大的差距。這意味著模型在某些特定類型的視頻任務上可能表現不穩定,要想在所有視頻理解任務上都取得優異表現,需要進一步擴展數據規模。

此外,這項研究目前聚焦于視頻時序理解和因果推理方向,對于純粹的空間理解(比如精確定位畫面中的物體位置)、復雜的多輪對話或需要外部知識的問答,尚未進行系統性探索。

從更宏觀的視角來看,這項研究揭示了一個有趣的認知科學啟示:人工智能的設計越接近人類認知的實際工作方式,往往就越有效。人類不是靠強大的蠻力逐幀記憶視頻,而是靠構建有意義的事件結構來理解視頻;AI也不應該靠無結構的冗長推理來處理視頻,而應該先建立結構化的認知地圖,再在地圖上尋路。

歸根結底,這項研究做的事情可以用一句話概括:它給AI看視頻時加上了一個"先記筆記、再動筆答題"的習慣。這個習慣看起來簡單,卻解決了長期困擾視頻AI的核心難題——如何在時間維度上保持因果邏輯的連貫性。

以前的視頻AI像一個只會隨手亂寫讀書筆記的學生,內容散亂、重點不突出、前后矛盾;Factum-4B更像一個養成了良好學習習慣的學生,每次讀完一段就整理好時間線,標注好關鍵事件,然后再基于這份有條理的筆記去回答問題。成績的差距,從實驗數據來看是顯而易見的。

對于普通人來說,這項研究離日常生活的距離或許比想象中近得多。視頻內容的智能檢索、安防攝像頭的行為分析、體育比賽的自動解說、醫療手術視頻的質量審查——所有這些應用場景都需要AI不僅能"看到"視頻中發生了什么,更要能理解事件之間的時間順序和因果關系。Factum-4B的方法提供了一條可擴展的路徑,而且它用一個40億參數的小模型就做到了許多70億參數模型做不到的事情,這對于資源有限的研究者和開發者來說是一個頗具參考價值的信號。

對這項研究感興趣的讀者,可以通過arXiv編號2604.04415查閱完整論文,論文題目為"Structured Causal Video Reasoning via Multi-Objective Alignment"。

Q&A

Q1:Factum-4B的"結構化事件檔案"和普通視頻字幕有什么區別?

A:普通視頻字幕通常是對畫面的自由描述,格式隨意,內容可能冗長也可能遺漏關鍵信息。Factum-4B的結構化事件檔案則嚴格要求每個時間段必須記錄六類信息:人物、動作、場景、物體、攝像機運動和事件描述,格式固定且每類信息都有明確的填寫規則(比如畫面中沒有人時,動作一欄必須寫"None")。這種強制結構確保了檔案的信息密度和格式一致性,也讓后續的推理過程有可靠的依據可查,而不是在模糊描述中猜測。

Q2:P-FAB算法為什么比傳統的多獎勵加權方法更有效?

A:傳統方法把多個獎勵信號乘以固定權重后加總,得到一個綜合分數。這有兩個問題:權重固定意味著無法適應訓練過程中不同目標的動態變化;加總之后不同目標之間的差異被抹平,模型看不出哪些樣本在哪些方面更優秀。P-FAB在標準化空間里動態計算權重,確保稀缺的、難以滿足的目標獲得更多關注,同時為每個訓練樣本生成更有區分度的優勢值,讓模型在正確的方向上學習。

Q3:Factum-4B在視頻理解上比GPT-4o強在哪里?

A:Factum-4B并不是全面超越GPT-4o,而是在特定的時間敏感任務上表現更優。具體來說,在ETBench基準的時序事件匹配子任務上,Factum-4B得分26.8%,高于GPT-4o的13.6%;在時序視頻定位子任務上同樣領先。這主要得益于Factum-4B專門針對時間因果推理進行了優化訓練,而通用大模型在這類精細化時序任務上并不具備專項優勢。不過在其他通用理解任務上,GPT-4o等大型閉源模型整體上仍有較大優勢。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
阿斯:國際足聯傾向于在馬德里舉辦2030年世界杯決賽

阿斯:國際足聯傾向于在馬德里舉辦2030年世界杯決賽

懂球帝
2026-04-21 09:50:56
澤連斯基怒批特朗普:烏克蘭之所以打不贏俄羅斯,全是你幫倒忙

澤連斯基怒批特朗普:烏克蘭之所以打不贏俄羅斯,全是你幫倒忙

流年恰似繁花汐
2026-04-21 18:00:40
吉姆·法利叫囂:美貿易保護丑態畢露

吉姆·法利叫囂:美貿易保護丑態畢露

烽火瞭望者
2026-04-21 19:22:28
身家一年暴漲560億元成“惠州首富” 勝宏科技創始人陳濤:加速擴充高端產能

身家一年暴漲560億元成“惠州首富” 勝宏科技創始人陳濤:加速擴充高端產能

每日經濟新聞
2026-04-21 11:13:18
伊朗議會要員:外交語言無效時將選擇繼續戰事

伊朗議會要員:外交語言無效時將選擇繼續戰事

新華社
2026-04-21 22:36:01
王立群教授:用權力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價還價...

王立群教授:用權力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價還價...

深度知局
2026-04-08 07:41:14
喜歡肌膚白皙無瑕,自帶柔光的樣子

喜歡肌膚白皙無瑕,自帶柔光的樣子

飛娛日記
2026-04-14 07:47:36
當年為什么查辦褚時健?

當年為什么查辦褚時健?

百曉生談歷史
2025-08-20 21:55:53
特朗普訪華行程推進中,團隊擬加入新成員,中方再拋售美債!

特朗普訪華行程推進中,團隊擬加入新成員,中方再拋售美債!

近史博覽
2026-04-22 01:10:38
時長超過蘇德戰爭,俄羅斯該點到為止了

時長超過蘇德戰爭,俄羅斯該點到為止了

新車知多少
2026-04-21 18:28:58
今年,科創板「最大IPO」誕生!

今年,科創板「最大IPO」誕生!

芯榜
2026-04-21 20:46:18
茅臺不行了,貴州靠什么?

茅臺不行了,貴州靠什么?

BT財經
2026-04-21 22:25:03
一周最少8次,54歲女子肛裂住院,丈夫哭訴:怎么勸她就是不聽!

一周最少8次,54歲女子肛裂住院,丈夫哭訴:怎么勸她就是不聽!

健康之光
2026-04-13 09:01:59
令英國痛苦的“入侵花”,在中國淪為咸菜,吃到人工種植成笑談

令英國痛苦的“入侵花”,在中國淪為咸菜,吃到人工種植成笑談

真的好愛你
2026-04-21 12:37:54
能得分能組織還能防守,森林狼完全應該給后場新援多一些信任?

能得分能組織還能防守,森林狼完全應該給后場新援多一些信任?

稻谷與小麥
2026-04-21 23:00:24
美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

夜深愛雜談
2026-03-08 21:28:24
賴清德,恐成為新中國歷史上,唯一在任上出事的臺灣地區領導人

賴清德,恐成為新中國歷史上,唯一在任上出事的臺灣地區領導人

真正能保護你的
2026-04-05 00:55:35
女兒用父親公司賬戶1700萬元打賞主播、拆卡,已前往當地派出所自首 能否以“職務侵占”立案仍需調查

女兒用父親公司賬戶1700萬元打賞主播、拆卡,已前往當地派出所自首 能否以“職務侵占”立案仍需調查

紅星新聞
2026-04-21 12:54:20
收拾完伊朗,下一個輪到中國?以色列發戰爭威脅,中方送出5個字

收拾完伊朗,下一個輪到中國?以色列發戰爭威脅,中方送出5個字

千羽解讀
2026-04-18 10:12:15
定了!中國隊進“死亡之組”!

定了!中國隊進“死亡之組”!

五星體育
2026-04-22 01:19:29
2026-04-22 04:47:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業世界
8088文章數 562關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

游戲
家居
數碼
教育
藝術

漲價兩周即回調!索尼官方PS5數字版定價重回399美元

家居要聞

詩意光影 窺見自然之境

數碼要聞

大疆DJI Mic Mini 2發布:329元起 可更換麥克風磁吸前蓋

教育要聞

對不起,我有點“摳”

藝術要聞

任伯年寫竹,真帶勁

無障礙瀏覽 進入關懷版