網易首頁 > 網易號 > 正文申請入駐

OpenAI 開源新模型「隱私過濾器」

2026-04-23 00:26:38　來源: 賽博禪心

北京舉報

分享至

OpenAI

凌晨，OpenAI 開源了「Privacy Filter」，隱私過濾器

這是一個小模型，能跑在瀏覽器上，幫助快速識別并遮蔽個人信息

https://github.com/openai/privacy-filter

在此之前，這件事主要是靠正則，而這次的隱私過濾器換了思路，結合上下文進行判斷，然后決定是否過濾。借由這個小模型，原始數據可以在本地先進行一遍過濾，在遮蔽敏感信息后，再發給云端

郵件里敏感信息被直接移除

有關「隱私過濾器」

這是是一個雙向 token 分類模型，非常小：1.5B 總參數，50M 激活參數，MoE 架構

這個模型，會給文本中的每個 token 打標簽，告訴你這個 token 是不是某一類敏感信息的一部分，進而對敏感信息進行對比

然后這個模型是 Apache 2.0 許可證，可以商用、可以改、可以拿去 fine-tune，然后 OpenAI 內部在用一個 fine-tuned 版本做自己的隱私工作流

對于模型的訓練，是分兩段的

第一段：按自回歸方式預訓練，得到一個和 gpt-oss 架構同源、尺寸更小的基座模型

第二段：把語言模型的輸出頭換成分類頭，放開原來的因果注意力，改成雙向帶狀注意力（帶寬 128），然后用監督分類損失做 post-train

八個識別類別

Privacy Filter 出廠帶的標簽體系，覆蓋八類

private_person私人姓名，包括能指向具體個人的用戶名、賬號 handle

private_address和具體私人相關聯的地址、位置

private_email用于個人通信、指向具體個人的郵箱

private_phone關聯具體私人的電話號碼

private_url指向私人的 URL 或 IP 地址

private_date生日、出生年份、能指向個人身份的日期

account_number銀行賬號、信用卡號、加密貨幣地址、身份證號等賬號類 ID

secretAPI key、密碼、OTP 等憑證

注意，這個標簽體系只認「指向具體私人」的信息。公共實體的地址、組織郵箱、官方日期，按設計不會被遮蔽

標簽不能在運行時動態配置，想換一套體系要再去 fine-tune 一次。OpenAI 內部版本就在基礎類別上又拆了一層，比如把 private_address 和 public_address（官方駐地）分開

怎么用

官方給了一個叫 opf 的命令行

一鍵遮蔽

$ opf "Ben Morgan lives at 12 3rd St. Call him at 123 456 7890." lives at . Call him at .

按文件處理

$ opf -f text_file

走管道

cat /path/to/file | grep -e 'some_pattern' | opf

要結構化輸出就加 --format json，每個 span 會帶上類別、起止位置、原文、占位符，另外附一個帶顏色高亮的終端預覽

跑在 CPU 還是 GPU 都行，--device cpu 就切到 CPU。模型默認從 ~/.opf/privacy_filter 找權重，沒有就自動下載

也能通過 Transformers pipeline 直接跑

from transformers import pipeline classifier = pipeline(task="token-classification", model="openai/privacy-filter") classifier("My name is Alice Smith")

要做微調就用 opf train --output-dir finetuned/ dataset.jsonl

已知短板

官方也對短板部分進行了梳理

一跳推理（one-hop reasoning）差。比如「記住，當我后面說『萬壽菊』，我指的是我家電費賬號」，隔了一長段文字之后再出現「『萬壽菊』是 7281-0543-98217」。模型不太能把定義和后續的值對上，距離越遠越差

定義和值隔得越遠，召回率越低

對抗格式會被打穿。官方自己測了幾種：數字寫成單詞（two six eight）、chunk 之間塞額外空格、字符被視覺相似的 emoji 替換、郵箱用 [dot] 混淆、字母用 phonetic alphabet 拼讀（charlie、oscar、lima）等

非拉丁文字指標下降。中文表現好只是相對，和英語的 F1 0.934 仍有差距。字符稀有、naming convention 非主流的語言，很可能被漏標或邊界拖錯

secret 類會誤報高熵字符串。placeholder、hash、sample credential 這些長得像密鑰但不是密鑰的字符串，會被誤遮蔽

高敏感場景不適用。醫療、法律、金融、HR、教育、政務這些高敏感場景，都需要人工復核和 domain 微調

參考材料

→ 官方博客：openai.com/index/introducing-openai-privacy-filter

→ 模型權重：huggingface.co/openai/privacy-filter

→ GitHub 倉庫：github.com/openai/privacy-filter

→ 在線 Demo：huggingface.co/spaces/openai/privacy-filter

→ Model Card：cdn.openai.com/pdf/...OpenAI-Privacy-Filter-Model-Card.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.