很多團隊評估大模型時,靠的不是指標,是"感覺"——回答流暢、格式工整、例子順眼,就給高分。這叫"vibe check",一種極不靠譜的評測方式。
問題在哪?人類偏好和實際能力是兩回事。模型可能擅長討好你,卻在關鍵任務上翻車。更糟的是,不同人"感覺"不同,結果無法復現,團隊內部吵成一團。
![]()
替代方案很明確:用標準化基準測硬能力,用盲測去標識化比較,用任務成功率代替主觀打分。核心原則只有一個——把"我覺得"換成"數據說"。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.