我們用一個(gè)生活中的小故事來通俗解釋 大模型的源頭---Word2Vec 的基本原理:
假設(shè)你是語(yǔ)言學(xué)習(xí)機(jī),目標(biāo)是學(xué)會(huì)“詞語(yǔ)的秘密”
1. 你的任務(wù):理解詞語(yǔ)的關(guān)系
比如,你知道“蘋果”是一種水果,“香蕉”也是一種水果。那么當(dāng)看到“蘋果”時(shí),你應(yīng)該能聯(lián)想到“香蕉”,因?yàn)樗鼈儗儆谕活悺?/p>
2. Word2Vec 的訓(xùn)練方式:通過“猜詞游戲”學(xué)習(xí)
假設(shè)給你一本小說的段落(比如《哈利波特》),你的工作是通過以下兩種方式“猜詞”:
(a) CBOW 方式(根據(jù)上下文猜詞)
- 輸入:一段話中的部分詞語(yǔ)(比如“魔法石被__藏在__”)。
- 任務(wù):根據(jù)前后文(“被”“藏在”)猜測(cè)中間缺失的詞(比如“哈利”)。
- 學(xué)習(xí)效果:你會(huì)發(fā)現(xiàn)“魔法石”經(jīng)常和“哈利”“伏地魔”等角色一起出現(xiàn),從而把這些詞在腦海中標(biāo)記為“相關(guān)”。
(b) Skip-Gram 方式(根據(jù)詞猜上下文)
- 輸入:一個(gè)詞(比如“貓”)。
- 任務(wù):預(yù)測(cè)這個(gè)詞前后可能出現(xiàn)的詞(比如“喵”“老鼠”“沙發(fā)”)。
- 學(xué)習(xí)效果:你會(huì)意識(shí)到“貓”通常和“喵”“抓”“寵物”等詞關(guān)聯(lián),因此這些詞的向量會(huì)在你的大腦中離得很近。
3. 向量空間的秘密
- 每個(gè)詞變成一個(gè)坐標(biāo)點(diǎn):比如“國(guó)王”對(duì)應(yīng)坐標(biāo) (1,2,3),而“男人”對(duì)應(yīng) (1,2.5,4)。
- 距離越近=關(guān)系越緊密:如果“國(guó)王”和“王子”在坐標(biāo)上很接近,說明它們經(jīng)常一起出現(xiàn)或有相似含義。
- 神奇的向量運(yùn)算:比如 `國(guó)王 - 男人 + 女人 ≈ 皇后`(類似數(shù)學(xué)中的向量加減法)。
- 如果模型學(xué)得好,即使沒見過“皇后”,也能通過已知的詞推斷它的位置。
4. 訓(xùn)練的訣竅:用“排除法”快速學(xué)習(xí)
- 負(fù)采樣(Negative Sampling):假設(shè)你猜詞時(shí),不僅要記住正確的答案(比如“哈利”),還要記住哪些詞不可能出現(xiàn)在這里(比如“蘋果”“電腦”)。
- 這就像考試作弊被抓住一次,下次就不會(huì)犯同樣的錯(cuò)誤。
- 局部更新:每次只調(diào)整一點(diǎn)點(diǎn)參數(shù),而不是從頭再來,這樣學(xué)習(xí)效率極高。
5. 最終成果:詞語(yǔ)的“超能力”
- 舉個(gè)例子:
- 輸入“上海”,模型能輸出“東方明珠”“外灘”“陸家嘴”等關(guān)聯(lián)詞。
- 輸入“北京”,模型可能給出“故宮”“長(zhǎng)城”“霧霾”等詞。
- 即使沒學(xué)過“深圳”,但看到“深圳”時(shí),模型也能根據(jù)“中國(guó)”“城市”“科技”等詞的向量,大致定位它的位置。
Word2Vec 的本質(zhì)是通過大量文本數(shù)據(jù),讓計(jì)算機(jī)像人類一樣通過上下文“猜詞”,逐漸掌握詞語(yǔ)之間的隱藏關(guān)系。最終,每個(gè)詞都被編碼成一個(gè)高維空間的坐標(biāo),相似的詞在空間中緊緊抱團(tuán),形成一張“語(yǔ)義網(wǎng)”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.