ACL 2026｜AI for聾啞群體，港理工開源思考型手語翻譯模型

2026-05-05 15:22:29　來源: 機器之心Pro

河北舉報

分享至

本文作者分別來自香港理工大學(xué)以及四川大學(xué)。第一作者江奕飏是來自香港理工大學(xué)的博士生，指導(dǎo)老師為李青教授與魏驍勇教授。

長期以來，聽障群體在信息獲取、公共服務(wù)和社會交流中都處于相對邊緣的位置。主流社會的大量信息傳播方式默認(rèn)建立在語音和文字之上，這意味著許多依賴手語進行表達和理解的人群，在教育、醫(yī)療、政務(wù)服務(wù)以及日常溝通中，往往天然面臨更高門檻。與此同時，當(dāng)人工智能正在快速改變內(nèi)容生產(chǎn)、知識獲取和人機交互方式時，這部分群體卻并沒有同等程度地享受到技術(shù)發(fā)展的紅利。如何讓 AI 真正服務(wù)更多人，而不是只服務(wù)于主流交互方式下的多數(shù)群體，已經(jīng)成為一個越來越重要的問題。

也正是在這樣的背景下，手語翻譯（Sign Language Translation, SLT）的研究顯得尤為重要。它不僅關(guān)乎一個具體的多模態(tài)任務(wù)，更關(guān)乎如何借助人工智能幫助聽障群體更順暢地接入主流社會，降低溝通壁壘，提升信息可達性與社會參與度。從這個意義上說，SLT 不只是「把視頻翻譯成文字」，而是在嘗試搭建一座連接不同表達體系與社會環(huán)境的橋梁。

但從技術(shù)角度看，手語翻譯遠比想象中復(fù)雜。長期以來，許多方法默認(rèn)手語視頻中的局部片段可以直接對應(yīng)到自然語言中的詞語或短語，仿佛只要完成逐段對齊，就能得到正確翻譯。然而，這一假設(shè)在真實場景中并不總是成立。手語表達往往依賴動作軌跡、空間位置、身體朝向以及上下文關(guān)系共同構(gòu)成語義，同一個手型或動作在不同語境下甚至可能表達完全不同的含義。也正因如此，這篇論文提出：手語翻譯本質(zhì)上更接近一種跨模態(tài)推理問題，而不只是簡單的視頻到文本映射。

針對這一問題，研究團隊提出了 SignThought。這是一種面向 gloss-free 手語翻譯的全新框架，其核心思想是在視頻理解與文本生成之間，引入一條有序的 latent thoughts 鏈條，讓模型在生成翻譯之前，先逐步組織中間語義表示，再根據(jù)這些中間語義去檢索視頻證據(jù)，最終完成更連貫、更忠實的翻譯。與此同時，論文還提出了 plan-then-ground 的解碼方式：模型先決定「要說什么」，再回到視頻中尋找「證據(jù)在哪里」。

目前，該工作已被 ACL 2026 Main Conference 接收，并擬推薦為口頭報告。

論文標(biāo)題：Think in Latent Thoughts: A New Paradigm for Gloss-Free Sign Language Translation
論文地址：
https://arxiv.org/abs/2604.15301
代碼地址：
https://github.com/fletcherjiang/SignThought

研究背景

近年來，gloss-free 手語翻譯逐漸成為研究熱點。與傳統(tǒng)依賴 gloss 標(biāo)注的方案不同，這類方法希望直接從手語視頻生成自然語言句子，避免昂貴而繁瑣的中間標(biāo)注成本。

但真正的困難在于，手語的語義往往并不是由某一個固定手勢直接決定的，而是由動作軌跡、空間位置和上下文關(guān)系共同生成。如圖所示，同樣與「車輛」相關(guān)的手型，如果只做直接的視頻到文本映射，模型可能只能識別出「車輛」和「樹」這類表層元素，最終生成類似「一輛車在樹旁邊」這樣的描述；但實際上，手語中真正的含義可能來自運動方向和空間關(guān)系本身，例如「車輛」從位置 A 朝位置 B 移動，并與「樹」發(fā)生交互，這時更準(zhǔn)確的語義應(yīng)是「一輛車撞上了一棵樹」。換句話說，同一個與車輛相關(guān)的手型，在不同動作方式和空間配置下，可能表達「停車」「撞擊」或「行駛」等完全不同的含義。

這也說明，現(xiàn)有 gloss-free 方法面臨一個關(guān)鍵瓶頸：模型往往需要同時完成兩件事。第一，它要決定當(dāng)前到底應(yīng)該表達什么語義；第二，它還要在長視頻中定位支持這一語義的時序證據(jù)。這兩件事被強行耦合在一起后，很容易造成語義規(guī)劃不穩(wěn)定、注意力分散，或者雖然生成的句子表面流暢，卻沒有真正對應(yīng)到視頻中的核心語義關(guān)系。

相比文本推理任務(wù)可以顯式維護中間 reasoning steps，手語翻譯中的推理更難，因為它橫跨視覺與語言兩種模態(tài)，缺乏天然離散、可直接操作的中間推理單元。也正因如此，這篇論文提出：手語翻譯本質(zhì)上更接近一種跨模態(tài)推理問題，而不只是簡單的視頻到文本映射。論文正是從這里切入，嘗試為 gloss-free 手語翻譯建立一個顯式的中間推理接口。

核心方法

SignThought 的整體框架主要由三部分組成。第一部分是Sign Encoder，負(fù)責(zé)把輸入的手語視頻編碼成稠密的時序證據(jù)特征；第二部分是核心的Latent Chain-of-Thought Thinking Module，它通過一組可學(xué)習(xí)的 thought slots，把長視頻中的連續(xù)證據(jù)逐步壓縮成一條有順序的 latent thought chain；第三部分是Dual-Stream Decoder，先基于 thought chain 完成語義規(guī)劃，再回到視頻特征中做細(xì)粒度 grounding，最終生成翻譯文本。

這套設(shè)計背后有三個關(guān)鍵點。首先，論文把 latent thoughts 視為視覺證據(jù)與自然語言生成之間的中間語義接口，不再把所有信息都壓縮進一個黑盒 encoder 表示中。其次，模型通過plan-then-ground把「語義決策」和「證據(jù)檢索」顯式拆開，減少兩者相互干擾。最后，latent thoughts 不只是內(nèi)部狀態(tài)，還能作為可追蹤的中間錨點，把生成文本與輸入視頻中的特定時間區(qū)域?qū)?yīng)起來，從而提升翻譯的 faithful grounding 能力。

SignThought 的內(nèi)部推理過程：完整模型能夠形成沿時間順序遞進且較為集中的 thought-to-frame 對齊。

更具體地說，在 thinking module 中，模型先用帶有因果約束的 thought 更新機制，讓前面的 thoughts 偏向表示較粗粒度的語義，后面的 thoughts 再逐漸補充細(xì)節(jié)；隨后，通過結(jié)構(gòu)化路由機制，把不同時間段的視覺證據(jù)分配給不同 thoughts；到了 decoder 階段，模型會先查看當(dāng)前最相關(guān)的 thought，再根據(jù) thought 對應(yīng)的時序先驗去視頻中查找證據(jù)。這使得「先想清楚，再去找依據(jù)」第一次以相對明確的方式寫進了手語翻譯模型結(jié)構(gòu)里。

數(shù)據(jù)集構(gòu)建

除了方法本身，這項工作還同步構(gòu)建了一個新的大規(guī)模香港手語數(shù)據(jù)集LC-HKSLT。論文介紹，LC-HKSLT 主要來自公開視頻場景中的播報式內(nèi)容，具有持續(xù)可見的手語翻譯員，并且只保留句子級監(jiān)督信號，不引入 gloss 標(biāo)注或 SLR vocabulary，更貼近真實部署環(huán)境。

從規(guī)模上看，LC-HKSLT 總計包含1311 小時的手語視頻、432K clips，覆蓋14 位 signer，SLT vocabulary 達到125,833。論文還特別說明，完整數(shù)據(jù)集是在大規(guī)模真實場景中收集而來，而本文實驗主要使用其中一個精心整理的30 小時子集，以便和現(xiàn)有中文手語翻譯 benchmark 保持更可比的評測設(shè)置。

這個數(shù)據(jù)集的意義不只是「更大」。更重要的是，它提供了一種更真實的弱監(jiān)督訓(xùn)練條件：模型拿到的不是干凈、精細(xì)的人為對齊標(biāo)注，而是更接近真實世界的數(shù)據(jù)形態(tài)。也正是在這樣的設(shè)定下，顯式的跨模態(tài)推理與證據(jù)組織能力才會真正變得重要。

實驗結(jié)果

論文在五個手語翻譯 benchmark 上進行了實驗，包括PHOENIX14T、CSL-Daily、How2Sign、OpenASL以及新提出的LC-HKSLT。結(jié)果顯示，SignThought 在這些數(shù)據(jù)集上都取得了最好的 gloss-free BLEU-4，并且在PHOENIX14T、How2Sign、OpenASL 和 LC-HKSLT上拿到了最高的 ROUGE，整體表現(xiàn)非常穩(wěn)定。

具體來看，在PHOENIX14T上，SignThought 達到27.22 BLEU-4 / 54.50 ROUGE；在CSL-Daily上達到23.92 BLEU-4 / 50.99 ROUGE。在更大規(guī)模的數(shù)據(jù)集上，提升更加明顯：How2Sign的 BLEU-4 從此前方法的9.37提升到13.39，OpenASL從13.21提升到19.55。

在自建數(shù)據(jù)集LC-HKSLT上，SignThought 同樣取得了很強結(jié)果。論文報告，公開設(shè)置下模型達到21.15 BLEU-4 / 47.87 ROUGE；進一步在其余 LC-HKSLT 數(shù)據(jù)上進行預(yù)訓(xùn)練后，再在 30 小時子集上微調(diào)，性能提升到30.22 BLEU-4 / 60.01 ROUGE。這也說明，對于手語翻譯而言，大規(guī)模、領(lǐng)域內(nèi)一致的 sign-text 數(shù)據(jù)仍然具有非常高的價值。

論文中的消融實驗也支持了這套設(shè)計的有效性。結(jié)果表明，一旦去掉 latent thinking module，性能下降最明顯；而去掉 causal thought 更新、結(jié)構(gòu)化 routing、dual-stream decoder 或 thought-guided prior injection，也都會帶來不同程度的退化。這說明 SignThought 的提升并不來自某個單獨技巧，而是來自「中間推理鏈 + 路由 + grounding」這一整套機制的協(xié)同作用。

總結(jié)與展望

這項工作的價值，不只是提出了一個新的手語翻譯模型，更重要的是，它嘗試重新定義這個任務(wù)：手語翻譯不應(yīng)只被看成視頻到文本的映射問題，而應(yīng)被視作跨模態(tài)推理問題。圍繞這一判斷，SignThought 給出了一個相對完整的答案：通過 latent thoughts 建立中間語義層，通過 plan-then-ground 解耦語義規(guī)劃與證據(jù)檢索，再借助大規(guī)模真實場景數(shù)據(jù)驗證這一方向的可行性。

當(dāng)然，目前模型中的「thinking」仍然是 latent 的，而不是完全顯式、可讀、可控的人類語言推理鏈。換句話說，這項工作并不是終點，但它向前邁出了一步：它讓手語翻譯第一次更明確地?fù)碛辛恕赶冉M織語義、再 grounded 生成」的中間過程。

對于整個手語語言技術(shù)領(lǐng)域來說，這個方向很值得期待。未來如果進一步把 latent planning 與更顯式的語義結(jié)構(gòu)、文本 rationale 或可控推理機制結(jié)合起來，手語翻譯模型或許不僅能給出更準(zhǔn)確的輸出，還能更好地解釋「為什么這樣翻譯」。而這，也可能成為下一階段多模態(tài)理解與生成系統(tǒng)的重要突破口。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.