无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

訓(xùn)練自動(dòng)駕駛大模型的數(shù)據(jù)并不是越多越好?

0
分享至

[首發(fā)于智駕最前沿微信公眾號(hào)]對(duì)于自動(dòng)駕駛大模型的訓(xùn)練,不知道是否有人感覺(jué),訓(xùn)練的數(shù)據(jù)越多,模型就會(huì)越聰明。這個(gè)說(shuō)法只能說(shuō)在一定程度上是對(duì)的,但如果把這個(gè)結(jié)論簡(jiǎn)單理解為無(wú)限堆訓(xùn)練數(shù)據(jù)就能讓模型越聰明,那只會(huì)偏離實(shí)際情況。

自動(dòng)駕駛大模型的訓(xùn)練數(shù)據(jù),不能只單純看數(shù)量,而是要看數(shù)量、質(zhì)量、結(jié)構(gòu)等多個(gè)方面。

數(shù)據(jù)越多,模型真的就越強(qiáng)嗎?

在模型訓(xùn)練的早期階段,增加數(shù)據(jù)量確實(shí)會(huì)明顯提升性能。模型性能一般會(huì)隨著數(shù)據(jù)規(guī)模增長(zhǎng)而持續(xù)改善,甚至呈現(xiàn)出規(guī)模定律。

簡(jiǎn)單說(shuō),就是投入越多、數(shù)據(jù)越大、參數(shù)越多,模型就越聰明。



圖片源自:網(wǎng)絡(luò)

之所以出現(xiàn)這個(gè)現(xiàn)象,是因?yàn)樽詣?dòng)駕駛本質(zhì)是在學(xué)習(xí)駕駛經(jīng)驗(yàn),數(shù)據(jù)越多,模型見(jiàn)過(guò)的道路情況就越豐富,對(duì)常見(jiàn)場(chǎng)景的理解也會(huì)更穩(wěn)定。像是常規(guī)的跟車(chē)、變道、紅綠燈識(shí)別等高頻場(chǎng)景只要數(shù)據(jù)量夠大,模型一般都能學(xué)得比較可靠。

但隨著訓(xùn)練數(shù)據(jù)的增加,這種提升是逐漸變緩的。當(dāng)數(shù)據(jù)規(guī)模達(dá)到一定程度之后,再增加同類(lèi)型的數(shù)據(jù),收益會(huì)明顯下降。換句話說(shuō),如果新增的數(shù)據(jù)只是重復(fù)已有場(chǎng)景,本質(zhì)上是在讓自動(dòng)駕駛大模型“刷題”,而不是學(xué)習(xí)新的能力。

為什么“多”不等于“有效”?

自動(dòng)駕駛數(shù)據(jù)有一個(gè)很典型的特征,就是分布極不均衡。絕大多數(shù)數(shù)據(jù)來(lái)自日常的正常駕駛,很多內(nèi)容都是與直行、跟車(chē)、停車(chē)相關(guān),而真正決定安全性能的,恰恰是那些極少出現(xiàn)的特殊情況,也就是常說(shuō)的長(zhǎng)尾場(chǎng)景。

這些場(chǎng)景包括突發(fā)橫穿、異常行為車(chē)輛、復(fù)雜施工、極端天氣等,這類(lèi)數(shù)據(jù)天然稀缺。即使采集了海量數(shù)據(jù),絕大部分仍然是“普通樣本”,而關(guān)鍵的長(zhǎng)尾樣本占比很低。



圖片源自:網(wǎng)絡(luò)

這就讓自動(dòng)駕駛大模型訓(xùn)練數(shù)據(jù)呈現(xiàn)出一個(gè)矛盾,那就是數(shù)據(jù)量在增加,但有效信息并沒(méi)有同步增加。

其實(shí)只要適當(dāng)增加少量長(zhǎng)尾數(shù)據(jù),就可能對(duì)模型在對(duì)應(yīng)邊緣場(chǎng)景下的表現(xiàn)帶來(lái)明顯提升,而盲目增加常規(guī)數(shù)據(jù),大模型的能力提升其實(shí)很有限。



數(shù)據(jù)質(zhì)量,比數(shù)量更關(guān)鍵

如果說(shuō)數(shù)據(jù)量決定了大模型“上限”,那么數(shù)據(jù)質(zhì)量決定的是其“底線”。

自動(dòng)駕駛訓(xùn)練數(shù)據(jù)對(duì)質(zhì)量的要求非常高,不只是清晰與否的問(wèn)題,而是包括標(biāo)注準(zhǔn)確性、時(shí)間同步、多傳感器對(duì)齊等一整套細(xì)節(jié)。如果這些環(huán)節(jié)出現(xiàn)問(wèn)題,模型學(xué)到的就不是正確的駕駛邏輯,而是帶偏差的經(jīng)驗(yàn)。



圖片源自:網(wǎng)絡(luò)

舉個(gè)簡(jiǎn)單的例子,如果同一幀中,攝像頭和激光雷達(dá)的數(shù)據(jù)沒(méi)有對(duì)齊,那么模型看到的“位置關(guān)系”就是錯(cuò)的。這種錯(cuò)誤不會(huì)在訓(xùn)練時(shí)暴露,但會(huì)在真實(shí)道路中放大。

再說(shuō)說(shuō)標(biāo)注,如果目標(biāo)類(lèi)別、位置或運(yùn)動(dòng)狀態(tài)標(biāo)錯(cuò),模型就會(huì)在這些邊界條件下產(chǎn)生系統(tǒng)性誤判。

所以在自動(dòng)駕駛大模型訓(xùn)練中會(huì)看到一個(gè)現(xiàn)象,那就是清洗一批“臟數(shù)據(jù)”,比新增同規(guī)模數(shù)據(jù)更有價(jià)值。

真正難的是“覆蓋”和“結(jié)構(gòu)”

自動(dòng)駕駛模型并不是在做簡(jiǎn)單的識(shí)別,而是在學(xué)習(xí)一個(gè)動(dòng)態(tài)系統(tǒng),其中包括感知、預(yù)測(cè)和決策。因此,數(shù)據(jù)不僅要多,還要“覆蓋得對(duì)”。

有效的數(shù)據(jù)通常需要滿(mǎn)足多樣性、時(shí)序性、多態(tài)性等多個(gè)關(guān)鍵特征。



圖片源自:網(wǎng)絡(luò)

多樣性就是要覆蓋不同天氣、光照、道路類(lèi)型和交通密度,否則模型只是在特定環(huán)境下有效。

時(shí)序性則強(qiáng)調(diào)的是大模型訓(xùn)練數(shù)據(jù)同一場(chǎng)景下時(shí)刻的要求,單幀數(shù)據(jù)只能描述“此刻是什么”,但駕駛決策依賴(lài)的是“接下來(lái)會(huì)發(fā)生什么”,所以必須有連續(xù)幀來(lái)學(xué)習(xí)運(yùn)動(dòng)關(guān)系。

多模態(tài)則是指攝像頭、激光雷達(dá)、毫米波雷達(dá)等信息需要融合,否則感知能力會(huì)有明顯短板。

這些要求也體現(xiàn)出自動(dòng)駕駛大模型訓(xùn)練的一個(gè)要求,那就是數(shù)據(jù)不能只是簡(jiǎn)單堆積,而是需要結(jié)構(gòu)化設(shè)計(jì)。

數(shù)據(jù)閉環(huán),比數(shù)據(jù)規(guī)模更重要

在實(shí)際量產(chǎn)的系統(tǒng)中,真正能拉開(kāi)差距的,不是“誰(shuí)的數(shù)據(jù)多”,而是“誰(shuí)的數(shù)據(jù)用得更有效”。



圖片源自:網(wǎng)絡(luò)

數(shù)據(jù)閉環(huán)對(duì)于自動(dòng)駕駛大模型來(lái)說(shuō)非常重要,所謂數(shù)據(jù)閉環(huán),就是指自動(dòng)駕駛系統(tǒng)在道路行駛過(guò)程中運(yùn)行的一整套邏輯,即車(chē)輛在道路上運(yùn)行→發(fā)現(xiàn)問(wèn)題→回傳數(shù)據(jù)→針對(duì)性訓(xùn)練→再部署驗(yàn)證。

數(shù)據(jù)閉環(huán)強(qiáng)調(diào)的不是數(shù)據(jù)規(guī)模,而是“針對(duì)性采集”。尤其是長(zhǎng)尾問(wèn)題,需要通過(guò)閉環(huán)機(jī)制不斷補(bǔ)齊,否則再多的歷史數(shù)據(jù)也覆蓋不到。

也正因?yàn)槿绱耍恍┘夹g(shù)方案并不會(huì)被動(dòng)依賴(lài)自然采集,而是會(huì)通過(guò)影子模式、仿真生成等方式,主動(dòng)挖掘或構(gòu)造稀缺場(chǎng)景。

最后的話

回到最初的問(wèn)題,自動(dòng)駕駛模型訓(xùn)練數(shù)據(jù)并不是越多越好,若單純?cè)黾訑?shù)量,并不能持續(xù)提升能力。只有在數(shù)據(jù)質(zhì)量和結(jié)構(gòu)合理的前提下,規(guī)模越大才越有價(jià)值。

若想真正提升模型上限,其實(shí)需要關(guān)注幾個(gè)方面,即:

  • 數(shù)據(jù)是否覆蓋關(guān)鍵場(chǎng)景,尤其是長(zhǎng)尾;
  • 數(shù)據(jù)是否干凈、標(biāo)注準(zhǔn)確、時(shí)序完整;
  • 數(shù)據(jù)是否形成閉環(huán),可不斷補(bǔ)齊缺失能力;

自動(dòng)駕駛行業(yè)其實(shí)已經(jīng)從“拼數(shù)據(jù)量”逐漸轉(zhuǎn)向“拼數(shù)據(jù)效率”。誰(shuí)能更快發(fā)現(xiàn)問(wèn)題、采到關(guān)鍵數(shù)據(jù)、形成有效訓(xùn)練,誰(shuí)的系統(tǒng)就更接近真實(shí)可用。如果只靠堆數(shù)據(jù),而忽略結(jié)構(gòu)和質(zhì)量,模型很容易在看似訓(xùn)練充分的情況下,在關(guān)鍵時(shí)刻失效。這也是自動(dòng)駕駛一直沒(méi)有完全落地的核心原因之一。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
騰訊文檔裁員取消北京辦公地?知情人士回應(yīng)

騰訊文檔裁員取消北京辦公地?知情人士回應(yīng)

三言科技
2026-05-22 13:40:05
為啥一片紫蘇葉,能把人骨頭縫里的陰寒濕氣逼出來(lái)?

為啥一片紫蘇葉,能把人骨頭縫里的陰寒濕氣逼出來(lái)?

江江食研社
2026-05-21 20:30:05
揭秘“崩老頭”騙局全流程,打打字竟然可以輕松月入過(guò)萬(wàn)!

揭秘“崩老頭”騙局全流程,打打字竟然可以輕松月入過(guò)萬(wàn)!

爆角追蹤
2026-05-22 15:11:02
CBA樂(lè)透抽簽:0勝42負(fù)四川獲狀元簽 江蘇榜眼簽天津探花簽

CBA樂(lè)透抽簽:0勝42負(fù)四川獲狀元簽 江蘇榜眼簽天津探花簽

醉臥浮生
2026-05-22 14:16:56
涉嫌嚴(yán)重違紀(jì)違法,張團(tuán)結(jié)被查

涉嫌嚴(yán)重違紀(jì)違法,張團(tuán)結(jié)被查

都市快報(bào)橙柿互動(dòng)
2026-05-22 14:07:21
7.99萬(wàn),吉利把很多車(chē)企不愿碰的一塊肉,直接掀桌子了。

7.99萬(wàn),吉利把很多車(chē)企不愿碰的一塊肉,直接掀桌子了。

侃故事的阿慶
2026-05-22 15:39:25
疑似景甜代孕協(xié)議曝光,知情人曬出英文合同,簽名與景甜高度相似

疑似景甜代孕協(xié)議曝光,知情人曬出英文合同,簽名與景甜高度相似

四斤
2026-05-22 11:09:59
騰訊越來(lái)越像茅臺(tái):賺錢(qián)、分紅、穩(wěn)定,但卻正在被年輕人拋棄

騰訊越來(lái)越像茅臺(tái):賺錢(qián)、分紅、穩(wěn)定,但卻正在被年輕人拋棄

西游日記
2026-05-22 16:39:30
日本國(guó)腳發(fā)狠:要進(jìn)中國(guó)隊(duì)2個(gè)球 U17國(guó)足隊(duì)長(zhǎng):堅(jiān)信冠軍是我們的

日本國(guó)腳發(fā)狠:要進(jìn)中國(guó)隊(duì)2個(gè)球 U17國(guó)足隊(duì)長(zhǎng):堅(jiān)信冠軍是我們的

風(fēng)過(guò)鄉(xiāng)
2026-05-22 13:07:13
炸了!周也戀情曝光,對(duì)象身份不簡(jiǎn)單

炸了!周也戀情曝光,對(duì)象身份不簡(jiǎn)單

黎兜兜
2026-05-22 12:29:13
真猛!女演員周也臥室親密被拍,擁抱接吻一條龍,粉絲提醒拉窗簾

真猛!女演員周也臥室親密被拍,擁抱接吻一條龍,粉絲提醒拉窗簾

四斤
2026-05-22 12:22:16
英格蘭世界杯26人名單出爐!凱恩賴(lài)斯領(lǐng)銜,福登馬奎爾遺憾落選

英格蘭世界杯26人名單出爐!凱恩賴(lài)斯領(lǐng)銜,福登馬奎爾遺憾落選

奧拜爾
2026-05-22 17:06:14
最多判一千年,骨灰都不讓出獄!英國(guó)主持人拍攝薩爾瓦多超級(jí)監(jiān)獄,這是當(dāng)?shù)厝说逆?zhèn)妖塔...

最多判一千年,骨灰都不讓出獄!英國(guó)主持人拍攝薩爾瓦多超級(jí)監(jiān)獄,這是當(dāng)?shù)厝说逆?zhèn)妖塔...

英國(guó)那些事兒
2026-05-21 23:17:51
6月1日零點(diǎn)起!車(chē)管所“下崗”?3.3億車(chē)主迎來(lái)特大喜訊

6月1日零點(diǎn)起!車(chē)管所“下崗”?3.3億車(chē)主迎來(lái)特大喜訊

娛樂(lè)圈的筆娛君
2026-05-21 15:48:40
英18歲名校生慘死移民刀下?瀕死時(shí)被警察銬住嘲諷,馬斯克怒嗆愿砸錢(qián)嚴(yán)懲!

英18歲名校生慘死移民刀下?瀕死時(shí)被警察銬住嘲諷,馬斯克怒嗆愿砸錢(qián)嚴(yán)懲!

英國(guó)報(bào)姐
2026-05-21 21:32:20
山姆會(huì)員費(fèi)成自助餐費(fèi)?貨架現(xiàn)骨頭殘?jiān)涂掌浚谌A67家店被呼吁約束“薅羊毛”

山姆會(huì)員費(fèi)成自助餐費(fèi)?貨架現(xiàn)骨頭殘?jiān)涂掌浚谌A67家店被呼吁約束“薅羊毛”

界面新聞
2026-05-22 13:50:31
談判失敗,輪到中方掀桌子,拒絕美軍高層訪華,中方已定調(diào)統(tǒng)一

談判失敗,輪到中方掀桌子,拒絕美軍高層訪華,中方已定調(diào)統(tǒng)一

掉了顆大白兔糖
2026-05-22 11:52:45
公牛起訴小米:一個(gè)插線板的十年恩仇錄,遠(yuǎn)不止插線板

公牛起訴小米:一個(gè)插線板的十年恩仇錄,遠(yuǎn)不止插線板

品牌紀(jì)要
2026-05-22 11:34:54
“日本民航將不能過(guò)境中國(guó)”?誰(shuí)在給日本民粹右翼遞彈藥

“日本民航將不能過(guò)境中國(guó)”?誰(shuí)在給日本民粹右翼遞彈藥

觀察者網(wǎng)
2026-05-21 16:49:06
炒美股的天塌了

炒美股的天塌了

販財(cái)局
2026-05-22 17:24:40
2026-05-22 19:11:00
智駕最前沿
智駕最前沿
自動(dòng)駕駛領(lǐng)域?qū)I(yè)的技術(shù)、資訊分享平臺(tái)。我們的slogan是:聚焦智能駕駛 ,緊盯行業(yè)前沿。
455文章數(shù) 11關(guān)注度
往期回顧 全部

科技要聞

雷軍:輸給特斯拉不丟人

頭條要聞

80后地產(chǎn)女王自殺倒在樓市黎明前 曾稱(chēng)或面臨刑事責(zé)任

頭條要聞

80后地產(chǎn)女王自殺倒在樓市黎明前 曾稱(chēng)或面臨刑事責(zé)任

體育要聞

最糟糕裁判?他想要退役當(dāng)市長(zhǎng)

娛樂(lè)要聞

周也戀情曝光!對(duì)象身份不簡(jiǎn)單

財(cái)經(jīng)要聞

證監(jiān)會(huì)擬對(duì)老虎、富途、長(zhǎng)橋依法嚴(yán)厲處罰

汽車(chē)要聞

舒適智能配置滿(mǎn) 昊鉑S600開(kāi)著沒(méi)那么運(yùn)動(dòng)也挺好

態(tài)度原創(chuàng)

手機(jī)
游戲
時(shí)尚
本地
軍事航空

手機(jī)要聞

三星Galaxy S26 FE手機(jī)系統(tǒng)固件現(xiàn)身,有望9月登場(chǎng)

LCK第二賽段:大冤種,KRX連下兩城擊潰DNS

沒(méi)想到今年最火的發(fā)型是它,從18歲到80歲都適合

本地新聞

用云錦的方式,打開(kāi)江蘇南京

軍事要聞

俄羅斯試射具備核打擊能力的高超音速導(dǎo)彈

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版