![]()
三天前系統(tǒng)提示詞還是好的,三天后直接腰斬——這種斷崖式下跌,Aayush花了11天才發(fā)現(xiàn)。
不是監(jiān)控沒報(bào)警,是根本沒監(jiān)控到"AI在胡說"這件事。TraceMind v2的誕生,源于一個(gè)被忽視的真相:評分低只是癥狀,幻覺才是病根。
從"事后救火"到"當(dāng)天攔截"
TraceMind的第一版解決的是評分追蹤。用戶反饋很直接:有用,但不夠。他們想知道AI是不是在編造事實(shí),而不只是表現(xiàn)變差。
Aayush的應(yīng)對很產(chǎn)品經(jīng)理:先拆問題。幻覺檢測被他拆成兩個(gè)獨(dú)立的LLM調(diào)用——第一步提取原子化聲明,第二步逐個(gè)核對事實(shí)。這個(gè)設(shè)計(jì)避開了單模型"邊想邊查"的混亂,分離架構(gòu)讓錯(cuò)誤定位精確到具體哪句話在撒謊。
輸入結(jié)構(gòu)很干凈:問題、AI回答、可選的參考上下文。輸出直接指認(rèn)問題聲明,比如"我們提供60天退款"被標(biāo)記為假,因?yàn)樯舷挛膶懙氖?0天。
這個(gè)同步檢測是v2的亮點(diǎn),也是暫時(shí)的瓶頸。1000條trace的生產(chǎn)環(huán)境用戶得逐條等待,后臺異步化是明確的下一步。
A/B測試的統(tǒng)計(jì)學(xué)較真
建幻覺檢測的過程中,Aayush發(fā)現(xiàn)自己需要系統(tǒng)對比不同提示詞的效果。于是A/B測試模塊順勢加入。
這里有個(gè)反直覺的細(xì)節(jié):小樣本數(shù)據(jù)集(5-20條)的平均分對比基本是噪聲。他引入了Mann-Whitney U檢驗(yàn)和Cohen's d,給"提示詞B更好"這件事加上置信度評分,而不是讓用戶被隨機(jī)波動誤導(dǎo)。
這個(gè)設(shè)計(jì)選擇暴露了開源工具和商業(yè)SaaS的區(qū)別——后者往往直接給你"勝率68%"的簡化數(shù)字,但TraceMind把統(tǒng)計(jì)透明度交還給開發(fā)者。
驗(yàn)證環(huán)節(jié)用了44個(gè)測試用例覆蓋11個(gè)功能域,端到端跑通真實(shí)服務(wù)器。Aayush的原話是:這比單元測試更能抓集成問題。
自托管、免費(fèi)、無鎖
部署方式很克制:Render一鍵托管,或自己拎走代碼。沒有功能分級,沒有用量焦慮。
代碼調(diào)用四行搞定初始化,裝飾器模式接入現(xiàn)有函數(shù)。API key、項(xiàng)目名、base_url——配置項(xiàng)比大多數(shù)SaaS少一半。
GitHub倉庫公開,許可證沒提限制。這種"拿走去用"的姿態(tài),在LLM基礎(chǔ)設(shè)施領(lǐng)域反而少見。
Sonar同期發(fā)布的開發(fā)者調(diào)研有個(gè)數(shù)據(jù):96%的人不信任AI生成代碼的功能正確性,但只有48%每次都會檢查。TraceMind v2瞄準(zhǔn)的,正是這中間48%的慣性缺口——讓驗(yàn)證從"記得做"變成"自動做"。
Aayush在發(fā)布帖末尾留了句話:如果你正在用LLM做東西,我很想知道你的場景。沒有CTA,沒有星標(biāo)號召,只是一個(gè)開發(fā)者在找同類。
你的AI上次"自信地胡說"是什么時(shí)候被發(fā)現(xiàn)的?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.