每晚11點,我走進廚房,從柜子里摸出兩種零食,蹲下來對著一只83磅、33英寸高的灰狗Bebop說:“選擇。”然后伸出雙手,等它用行動投票。養了它幾年,我居然連它最喜歡什么零食都答不上來——它能從孩子手里搶披薩,也能偷吃貓糧,可哪種才是它的心頭好?問它,它只會搖尾巴。
沒法兒直接問,那就得用統計學繞路。布拉德利-特里模型專門應付這種“只能兩兩比較”的場景:給每個零食分配一個“強度分數”,A比B好吃的概率就是p_i/(p_i+p_j)。換成指數形式p_i = e^{β_i},概率就變成e^{β_i}/(e^{β_i}+e^{β_j})。說人話就是,兩個選項背后的隱藏實力差,決定了勝率的對數幾率。你不用開口問“哪個更好”,靠選擇數據就能還原出排名。
![]()
這套邏輯和棋類用的埃洛評分幾乎是一個媽生的。Elo里選手贏的概率寫成10^{R_i/400}/(10^{R_i/400}+10^{R_j/400}),每比完一場就用R_A' = R_A + K(S_A - E_A)更新分數。K控制波動幅度;你贏了預期中該贏的,分數只微微上浮;爆冷滅了強手,分數馬上躥升。可以把它看成布拉德利-特里的在線版——每打一場排名立刻刷新。電影《社交網絡》里扎克伯格拿它做FaceSmash,讓兩兩比較生成全校女生排名;如今聊天機器人競技場也用同樣的思路給AI模型打榜。只不過我的實驗數據少,用不著在線更新,一次性擬合布拉德利-特里就好。
![]()
實驗設置簡單到荒誕。拿一堆零食貼好標簽,每天固定時間(晚上11點),我隨機抓兩種,喊一聲“choice”,雙手各舉一種伸向Bebop,只許它選一個。它迅速學會了這個口令,每次興奮地沖過來,叼走自己認定的一側。我把所有選擇記錄成一張“誰贏了誰”的表格。數據量夠了之后,模型一跑,每個零食的強度分數就浮出水面——排序一拉,狗子的真實偏好根本藏不住。
![]()
這套方法不只對狗管用,任何沒法兒填問卷的“用戶”——從實驗室大鼠到還不會說話的幼兒——都能用它挖出真實偏好。關鍵是你得愿意每天花幾分鐘,當個認真的記錄員。有人會嘀咕:狗的口味會不會天天變?它隨手一叼是不是在逗我?布拉德利-特里模型的好處就在于,概率本身就是在對隨機性建模。連續多天選下來,真實偏好會從噪聲里穩穩浮出來。下次你家毛孩子對著零食架猶豫,不妨試一把這套統計學手段:讓數據代替它開口。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.