網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

84%暴跌52%：一個(gè)開發(fā)者的AI幻覺檢測自救方案

2026-04-14 14:31:48　來源: 碳基打工人

北京舉報(bào)

分享至

三天前系統(tǒng)提示詞還是好的，三天后直接腰斬——這種斷崖式下跌，Aayush花了11天才發(fā)現(xiàn)。

不是監(jiān)控沒報(bào)警，是根本沒監(jiān)控到"AI在胡說"這件事。TraceMind v2的誕生，源于一個(gè)被忽視的真相：評分低只是癥狀，幻覺才是病根。

從"事后救火"到"當(dāng)天攔截"

TraceMind的第一版解決的是評分追蹤。用戶反饋很直接：有用，但不夠。他們想知道AI是不是在編造事實(shí)，而不只是表現(xiàn)變差。

Aayush的應(yīng)對很產(chǎn)品經(jīng)理：先拆問題。幻覺檢測被他拆成兩個(gè)獨(dú)立的LLM調(diào)用——第一步提取原子化聲明，第二步逐個(gè)核對事實(shí)。這個(gè)設(shè)計(jì)避開了單模型"邊想邊查"的混亂，分離架構(gòu)讓錯(cuò)誤定位精確到具體哪句話在撒謊。

輸入結(jié)構(gòu)很干凈：問題、AI回答、可選的參考上下文。輸出直接指認(rèn)問題聲明，比如"我們提供60天退款"被標(biāo)記為假，因?yàn)樯舷挛膶懙氖?0天。

這個(gè)同步檢測是v2的亮點(diǎn)，也是暫時(shí)的瓶頸。1000條trace的生產(chǎn)環(huán)境用戶得逐條等待，后臺異步化是明確的下一步。

A/B測試的統(tǒng)計(jì)學(xué)較真

建幻覺檢測的過程中，Aayush發(fā)現(xiàn)自己需要系統(tǒng)對比不同提示詞的效果。于是A/B測試模塊順勢加入。

這里有個(gè)反直覺的細(xì)節(jié)：小樣本數(shù)據(jù)集（5-20條）的平均分對比基本是噪聲。他引入了Mann-Whitney U檢驗(yàn)和Cohen's d，給"提示詞B更好"這件事加上置信度評分，而不是讓用戶被隨機(jī)波動誤導(dǎo)。

這個(gè)設(shè)計(jì)選擇暴露了開源工具和商業(yè)SaaS的區(qū)別——后者往往直接給你"勝率68%"的簡化數(shù)字，但TraceMind把統(tǒng)計(jì)透明度交還給開發(fā)者。

驗(yàn)證環(huán)節(jié)用了44個(gè)測試用例覆蓋11個(gè)功能域，端到端跑通真實(shí)服務(wù)器。Aayush的原話是：這比單元測試更能抓集成問題。

自托管、免費(fèi)、無鎖

部署方式很克制：Render一鍵托管，或自己拎走代碼。沒有功能分級，沒有用量焦慮。

代碼調(diào)用四行搞定初始化，裝飾器模式接入現(xiàn)有函數(shù)。API key、項(xiàng)目名、base_url——配置項(xiàng)比大多數(shù)SaaS少一半。

GitHub倉庫公開，許可證沒提限制。這種"拿走去用"的姿態(tài)，在LLM基礎(chǔ)設(shè)施領(lǐng)域反而少見。

Sonar同期發(fā)布的開發(fā)者調(diào)研有個(gè)數(shù)據(jù)：96%的人不信任AI生成代碼的功能正確性，但只有48%每次都會檢查。TraceMind v2瞄準(zhǔn)的，正是這中間48%的慣性缺口——讓驗(yàn)證從"記得做"變成"自動做"。

Aayush在發(fā)布帖末尾留了句話：如果你正在用LLM做東西，我很想知道你的場景。沒有CTA，沒有星標(biāo)號召，只是一個(gè)開發(fā)者在找同類。

你的AI上次"自信地胡說"是什么時(shí)候被發(fā)現(xiàn)的？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.