Reddit 上的 r/DHExchange 板塊從來都不缺奇怪的交易。但月初的一個(gè)帖子,還是讓見多識廣的我打了個(gè)問號。
「我囤積了一個(gè)非常有價(jià)值的大型數(shù)據(jù)庫,只是不是你想的那種……15 萬張糞便圖像。」
![]()
![]()
圖片來自小紅書@暴打小番茄
(正在吃飯的讀者先退出去吧。
發(fā)帖人在正文解釋,他幾年前開發(fā)了一款叫 PoopCheck 的腸胃健康 App,通過它積累了超過 25000 名用戶上傳的糞便照片,經(jīng)過標(biāo)注和分類,形成了規(guī)模達(dá) 15 萬張的圖像數(shù)據(jù)庫。
他現(xiàn)在想賣掉訪問權(quán)限,稱這批數(shù)據(jù)「極為稀缺」,「對機(jī)器學(xué)習(xí)訓(xùn)練和癌癥研究都很有價(jià)值」,只是還沒想好定價(jià),感覺自己「坐在一堆 shi...ny coins 上,卻找不到買家」。
坐擁金礦的人,把礦場開在你的馬桶旁邊
PoopCheck 創(chuàng)始人在 Reddit 上并不完全是在吹牛,他確實(shí)坐在一座金礦上,盡管這座礦的味道有些沖。
這款 App 的開發(fā)公司叫 Soft All Things LLC。404 Media 的記者聯(lián)系了發(fā)帖人后,收到了創(chuàng)始人之一「Marco」的郵件回復(fù),表示可以提供樣本數(shù)據(jù),并詢問所需規(guī)模和用途。
記者說他需要 10000 條數(shù)據(jù)用于 AI 訓(xùn)練,Marco 沒有拒絕。數(shù)據(jù)集分兩個(gè)檔位,一種是 AI 自動(dòng)標(biāo)注的,另一種是人工精標(biāo)的,精標(biāo)版更貴。
每張圖片都關(guān)聯(lián)著一系列用戶報(bào)告的數(shù)據(jù)點(diǎn),以及對每張圖片的人工智能分析結(jié)果。
用戶報(bào)告包括對一系列問題的回答,例如「你上次進(jìn)食是什么時(shí)候」「排便時(shí)是否有不適?(排便困難;灼熱感;銳痛等)」「花了多長時(shí)間?」 「氣味是否比平時(shí)更重?」「過去12小時(shí)內(nèi)是否飲用咖啡或酒精?」
數(shù)據(jù)還包含人口統(tǒng)計(jì)信息,包括年齡段、性別、身高、體重,以及「乳糖不耐受」或「腸易激綜合征」等敏感狀況。每張圖像都通過一個(gè)名為「externalIndividualID」的字段與特定用戶相關(guān)聯(lián)。
![]()
AI 分析的數(shù)據(jù)點(diǎn)包括排便時(shí)間、每份糞便的布里斯托爾分級、是否「健康」或「不健康」、糞便的「形狀」和「質(zhì)地」、是否含有血液或粘液、排便量(多、正常或少),以及是否「漂浮」。每個(gè)數(shù)據(jù)點(diǎn)還配有一個(gè)「置信度」評分,反映 AI 對其分析結(jié)果的信心程度。
PoopCheck 在應(yīng)用商店的介紹頁面寫著「隱私第一」「絕不收集數(shù)據(jù)」。它承諾用先進(jìn)的 AI 技術(shù)分析你的糞便,給出每日腸道健康評分。應(yīng)用界面簡潔友好,有清晰的圖表展示你的排便規(guī)律,還有一個(gè)名為 SOFTie 的 AI 助手隨時(shí)解答你的腸道問題。
最吸引人的是,用戶可以選擇分享自己的糞便照片,獲得其他用戶的評論和建議,還能登上排行榜。截至 2026 年 5 月 14 日,社區(qū)里已經(jīng)有 151317 張「共享糞便」。帖子標(biāo)題五花八門,「像橡皮泥一樣」「有點(diǎn)擔(dān)心」「過去三周斷斷續(xù)續(xù)這樣」。
![]()
![]()
或許沒有人會想到,這些在私密的時(shí)刻拍下的照片,會被打包成數(shù)據(jù)庫在網(wǎng)上叫賣。
這也讓我想到去年衛(wèi)浴品牌科勒 (Kohler) 做的一款叫 Dekoda 的新設(shè)備。它將一枚攝像頭夾在馬桶側(cè)邊,借助 AI 視覺分析排泄物,為用戶養(yǎng)成健康習(xí)慣提供數(shù)據(jù)支持。
![]()
科勒,你老實(shí)說,是不是拿圖去訓(xùn)練大模型了?
不是第一坨,也不會是最后一坨
如果你以為 PoopCheck 是一個(gè)孤立的奇葩事件,那說明你低估了這個(gè)行業(yè)的創(chuàng)造力。
Flo 是一款被數(shù)億女性用來記錄經(jīng)期、排卵、懷孕的 App,曾在隱私政策里承諾不會把用戶的健康數(shù)據(jù)分享給第三方。然而 Flo 通過內(nèi)嵌的軟件開發(fā)工具包(SDK),把用戶的記錄傳輸給 Facebook、Google 的分析部門及多家廣告平臺。
Flo 在《華爾街日報(bào)》報(bào)道刊出后的當(dāng)天,立刻停止了向 Facebook 共享數(shù)據(jù)。美國 FTC 于 2021 年與 Flo 達(dá)成和解,要求其通知受影響用戶并接受獨(dú)立隱私審計(jì)。圍繞同一事件的集體訴訟此后持續(xù)發(fā)酵,到 2025 年,F(xiàn)lo、Google、Flurry 三方合計(jì)面臨 5950 萬美元的和解金額。
![]()
在線心理咨詢平臺 BetterHelp 收集的是抑郁狀態(tài)、自殺念頭、當(dāng)前服用的藥物等信息,平臺在多個(gè)頁面反復(fù)承諾保護(hù)用戶隱私。
但在 2023 年,BetterHelp 被指控將超過 200 萬用戶的敏感健康數(shù)據(jù)共享給 Facebook、Snapchat、Criteo 和 Pinterest,用于精準(zhǔn)廣告投放。
該平臺還在網(wǎng)站上展示了一個(gè) HIPAA 合規(guī)徽章,暗示自己符合美國醫(yī)療數(shù)據(jù)保護(hù)規(guī)范,實(shí)際上沒有任何機(jī)構(gòu)認(rèn)證過它的合規(guī)性。FTC 最終要求 BetterHelp 賠償 780 萬美元。
有用戶在 FTC 案件評論區(qū)寫道:「我在心理危機(jī)期間注冊了這個(gè)網(wǎng)站……現(xiàn)在我聽說他們賣了我的信息。」
而 23andMe 讓數(shù)百萬用戶把唾液樣本郵寄給它,承諾數(shù)據(jù)只用于健康研究,用戶對自己的數(shù)據(jù)擁有控制權(quán)。可公司于 2025 年申請破產(chǎn)后,基因數(shù)據(jù)庫突然成了清算資產(chǎn),客戶的遺傳信息隨時(shí)可能流向最高出價(jià)者。
FTC 向法院發(fā)出警告,要求任何收購方須遵守原有隱私政策。但在破產(chǎn)法框架下,隱私承諾究竟能被保護(hù)多少,答案并不樂觀。
數(shù)據(jù)是新石油,但油井在你腸子里
AI 時(shí)代對數(shù)據(jù)的需求是結(jié)構(gòu)性的、無止境的。大模型需要數(shù)據(jù),帶標(biāo)注的、來自真實(shí)人類的、覆蓋邊緣場景的高質(zhì)量數(shù)據(jù)尤其稀缺,而且稀缺程度隨著模型能力天花板的提升在不斷加劇。
我想問 PoopCheck 開發(fā)者的是:你確實(shí)擁有一批稀缺數(shù)據(jù),可這批數(shù)據(jù)是否經(jīng)過了真實(shí)的知情同意?
知情同意(informed consent)這個(gè)概念來自醫(yī)學(xué)倫理,核心在于「知情」必須先于「同意」。用一份沒有人讀的協(xié)議來替代真正的告知,是在制度層面制造一種合法的欺騙。
還有一個(gè)容易被忽視的技術(shù)問題。即便數(shù)據(jù)經(jīng)過了去識別化處理,通過「再識別攻擊」(re-identification attack),仍然可以把看似匿名的記錄與其他公開數(shù)據(jù)庫交叉比對,從而還原具體個(gè)人身份。
有研究顯示,只需 15 個(gè)數(shù)據(jù)點(diǎn),就可以識別出幾乎任何一個(gè)美國人。PoopCheck 的每條數(shù)據(jù)記錄附帶的字段遠(yuǎn)不止 15 個(gè),而且根本沒有做去識別化處理。
![]()
一旦這批數(shù)據(jù)被買走并用于訓(xùn)練模型,它就幾乎無法被真正刪除。大型語言模型和其他生成式 AI 系統(tǒng)可能記憶并再現(xiàn)訓(xùn)練數(shù)據(jù)中的內(nèi)容,這一特性意味著,要從已訓(xùn)練的模型中外科手術(shù)式地移除某個(gè)具體個(gè)人的數(shù)據(jù),在技術(shù)上往往是不可能的,除非從頭重新訓(xùn)練整個(gè)模型。
美國沒有任何綜合性的聯(lián)邦科技公司數(shù)據(jù)隱私法律,HIPAA 只覆蓋醫(yī)療機(jī)構(gòu),消費(fèi)級健康 App 幾乎完全游離在外。FTC 在 2024 年的一份聲明中說:「沒有哪條法律給 AI 公司設(shè)立豁免權(quán)。欺騙性數(shù)據(jù)收集就是違法,不管它是不是打著 AI 的旗號。」
一款免費(fèi) App 需要活下去,數(shù)據(jù)變現(xiàn)是最直接的路徑,AI 訓(xùn)練數(shù)據(jù)的需求在這幾年急速膨脹,高質(zhì)量的真實(shí)健康數(shù)據(jù)尤其罕見,于是一個(gè)開發(fā)者發(fā)現(xiàn)自己手里攢了 15 萬張帶標(biāo)注的人類生理數(shù)據(jù),打開 Reddit,問:這東西值多少錢?
Flo 的經(jīng)期數(shù)據(jù)賣給了廣告商,BetterHelp 的抑郁記錄流向了 Facebook,23andMe 的 DNA 要被拍賣,現(xiàn)在 PoopCheck 的便便圖庫掛在數(shù)據(jù)交易論壇上。
![]()
用戶的身體信息,在足夠大的數(shù)據(jù)量面前,是可以被貨幣化的資產(chǎn),而用戶之所以愿意上傳這些信息,往往是因?yàn)橄嘈艑Ψ讲粫@么做。
那么,普通用戶能做什么?答案老生常談,但還是值得說一遍。
下載任何免費(fèi) App 之前,先搜一下這家公司的商業(yè)模式,如果沒有清晰的付費(fèi)路徑,想想它靠什么活著。翻一翻服務(wù)協(xié)議里關(guān)于「數(shù)據(jù)使用」和「第三方許可」的條款,搜關(guān)鍵詞「sell」「license」「third party」看看。
參考:https://www.404media.co/ai-poop-analysis-app-offered-to-sell-me-access-to-its-users-poops/
我們正在招募伙伴
簡歷投遞郵箱 hr@ifanr.com
?? 郵件標(biāo)題 「姓名+崗位名稱」(請隨簡歷附上項(xiàng)目/作品或相關(guān)鏈接)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.