![]()
一個(gè)極度樂觀主義者心目中具身智能的模樣。
文丨申遠(yuǎn)
編輯丨宋瑋
見過李銀川的人都說他是一個(gè)天才。學(xué)生時(shí)代他直接保送北理工校長的博士,在讀期間就參與了大賣的雷達(dá)產(chǎn)品研發(fā)。留學(xué)美國期間,李銀川做了一個(gè)量化交易的軟件,賣給了華爾街。“對學(xué)生來說是很大一筆錢。”
在華為諾亞實(shí)驗(yàn)室待了五年,李銀川 “拿遍了公司主流大獎(jiǎng)”,即使以華為的標(biāo)準(zhǔn)看,他也是一個(gè)全力以赴的卷王。
但李銀川真正想做的是創(chuàng)業(yè),他給自己設(shè)定了一個(gè)時(shí)間節(jié)點(diǎn): 30 歲,方向也很早就清晰,To c 硬件產(chǎn)品。疊加他的 AI 技術(shù)背景,這一切自然指向了機(jī)器人。
2025 年,30 歲的李銀川從華為離職創(chuàng)辦了諾因智能。一個(gè)主打家用智能機(jī)器人的具身智能品牌,選擇的技術(shù)路線也略顯小眾,合成數(shù)據(jù)。
諾因成立半年就完成了 3 輪融資,估值超過 20 億人民幣。許多人沖著他堅(jiān)實(shí)的學(xué)術(shù)背景而來。
坦率地說,已經(jīng)十分擁擠的具身智能賽道并不缺少天才,也不缺少技術(shù)路線,缺的是落地能力,至少是落地的可能性。
李銀川需要以一種和學(xué)術(shù)完全不同的方式證明自己是對的,但他非但不焦慮,反倒信心爆棚,用他的原話說,被 200 個(gè)人質(zhì)疑拒絕,他也不會(huì)感到受挫。
下面呈現(xiàn)的,是一個(gè)極度樂觀主義者心中具身智能的模樣。
諾因版 L1 - L5 家庭機(jī)器人能力等級(jí)
這是李銀川第一次接受媒體訪問,為此他專程從深圳飛到北京。深冬的北京和深圳的溫差達(dá)到 20 多度,誘發(fā)了他的鼻炎,這讓他慢條斯理的說話言語中帶著一些鼻音。李銀川是安徽人,盡管之前曾在北京求學(xué)和工作過數(shù)年,但顯然,溫暖潮濕更適合他。采訪前一天他六點(diǎn)才睡,這似乎也是天才的一個(gè)普遍特征:晚睡晚起,作息并不規(guī)律。
晚點(diǎn):網(wǎng)上關(guān)于你的個(gè)人資料很少,但論文超級(jí)多,乍看上去涉及很多主題,你怎么總結(jié)你這種復(fù)雜的學(xué)術(shù)背景?它們都和 AI 或具身智能相關(guān)嗎?
李銀川:論文也沒有超級(jí)多啦,其實(shí)我的研究都可以歸類為決策推理。從最早的信號(hào)處理開始,然后到強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí),再到流模型、生成式方法,包括生成流網(wǎng)絡(luò),它們都是決策推理大方向上的不同分支,本質(zhì)都是在研究如何學(xué)習(xí)高維概率分布,在約束下高效采樣、組合 / 優(yōu)化出新的可行解,在具身領(lǐng)域就是把生成與推理能力落到動(dòng)作策略上。
2017 年 Transformer 出來那會(huì)兒我還在研究強(qiáng)化學(xué)習(xí),當(dāng)時(shí)它和 NLP 大模型幾乎是兩條平行線。2020 年做聯(lián)邦學(xué)習(xí)和分布式訓(xùn)練研究的時(shí)候,我開始嘗試訓(xùn)練一些大模型。
晚點(diǎn):轉(zhuǎn)向訓(xùn)練大模型的過程困難嗎?或者說,這對你來說是一種研究主題的轉(zhuǎn)變嗎?
李銀川:我覺得更像是工具和范式升級(jí),其實(shí)從早期做信號(hào)處理的時(shí)候就開始用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)了,所以你能看到早期很多做 AI 的人都是信號(hào)處理轉(zhuǎn)過去的,它們之間的理論是相通的。
Transformer 的出現(xiàn)改進(jìn)了傳統(tǒng)深度學(xué)習(xí)架構(gòu)的缺點(diǎn),讓基于文本和圖像訓(xùn)練非常大的模型變得可能,但決策推理領(lǐng)域在 2020 年的時(shí)候并沒有這樣一種架構(gòu)范式。
晚點(diǎn):在決策推理領(lǐng)域,事情朝著什么方向發(fā)展了?
李銀川:當(dāng)時(shí)決策推理有一個(gè)重要技術(shù)流派是強(qiáng)化學(xué)習(xí),但人們逐漸從理論和應(yīng)用上都發(fā)現(xiàn)它有一些局限性,在求解非常大規(guī)模問題的時(shí)候,它的探索復(fù)雜度太高了。
除了強(qiáng)化學(xué)習(xí),別的流派還包括模仿學(xué)習(xí)以及流網(wǎng)絡(luò),但逐漸地有個(gè)趨勢變得越來越明顯,大家的研究目標(biāo)不約而同開始朝著構(gòu)建一個(gè)生成式?jīng)Q策大模型發(fā)展,一個(gè)好的決策模型應(yīng)該把策略知識(shí)都學(xué)進(jìn)去,就像語言模型能夠生成新的內(nèi)容那樣,決策模型生成新的動(dòng)作。
晚點(diǎn):聽上去就是 VLA 了。
李銀川:可以這么理解,但我更愿意叫它 “生成式?jīng)Q策大模型”,它的概念范圍比 VLA 更廣。
當(dāng)時(shí)構(gòu)建這種模型有很多思路,其中一種是把流網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)相結(jié)合,也就是生成流網(wǎng)絡(luò)。它不像傳統(tǒng)強(qiáng)化學(xué)習(xí)那樣只追求一個(gè)最優(yōu)動(dòng)作,而是通過學(xué)習(xí)完整策略分布,采樣出多種可行的方案,探索效率能夠提升很多倍。
還有一種是模仿學(xué)習(xí)結(jié)合擴(kuò)散策略(diffusion policy),這部分技術(shù)一定程度上促進(jìn)了早期具身 VLA 架構(gòu)的誕生。
晚點(diǎn):當(dāng)時(shí)這種架構(gòu)最大的缺點(diǎn)是什么?
李銀川:很多早期 VLA 模型實(shí)際上還是依賴擴(kuò)散策略的模仿學(xué)習(xí)能力,本質(zhì)上是把人的操作軌跡給背會(huì)。數(shù)據(jù)覆蓋足夠的時(shí)候會(huì)表現(xiàn)很好,但數(shù)據(jù)不足的時(shí)候就容易變得不穩(wěn)定,一旦遇到訓(xùn)練分布之外的組合、長鏈條任務(wù)里的意外分支它就比較吃力,它更擅長 “復(fù)現(xiàn)做過的動(dòng)作”,因此泛化到復(fù)雜場景比較吃力,不是一個(gè)能涌現(xiàn)能力的架構(gòu)。
我們一直在做的,就是把更多生成式?jīng)Q策思想引入 VLA 架構(gòu),讓模型不僅學(xué)會(huì)模仿,還要學(xué)會(huì)在約束獎(jiǎng)勵(lì)下建模和采樣動(dòng)作分布,把動(dòng)作片段做可組合的表征,再通過后訓(xùn)練把多種能力進(jìn)行對齊,逐步逼近具身決策大模型應(yīng)有的能力形態(tài),也就是在復(fù)雜場景下執(zhí)行長鏈條任務(wù)的泛化能力。
晚點(diǎn):我看到了一個(gè)你們內(nèi)部的材料,劃分了具身智能 L1 到 L5 能力范疇,這是你寫的嗎?
李銀川:是我自己做的,因?yàn)楝F(xiàn)在行業(yè)內(nèi)還沒有一個(gè)對具身智能標(biāo)準(zhǔn)的公認(rèn)的劃分方法。不過這個(gè)也算不上是原創(chuàng),主要對標(biāo)了自動(dòng)駕駛領(lǐng)域的劃分方法。
具體來說:
L1 (輔助操作):以遙控操作為主,能在遙操作機(jī)器人時(shí)提供基礎(chǔ)輔助,這也是當(dāng)前行業(yè)內(nèi)用動(dòng)捕、手柄等技術(shù)遙操作機(jī)器人的主流形態(tài);
L2 (簡單能力、隨時(shí)接管):這個(gè)階段的機(jī)器人可以模仿人類完成特定動(dòng)作,能實(shí)現(xiàn)一些看似酷炫的功能,但需要人一直守著;
L3 (長鏈條執(zhí)行、待命接管):最具商業(yè)價(jià)值,此階段人只是待命接管,而不是隨時(shí)接管的狀態(tài),機(jī)器人可以自主、長鏈條的去完成一些任務(wù);
L4 (系統(tǒng)運(yùn)行、無需接管):機(jī)器人可以完成限定場景內(nèi)的各種各樣的復(fù)雜任務(wù),是無需接管的;
L5 (完全智能):是無需任何干預(yù),機(jī)器人可完成任意場景下的各類任務(wù),真的和真人一樣。
晚點(diǎn):諾因的技術(shù)現(xiàn)在處于哪個(gè)階段?L3 嗎?
李銀川:按照我們的技術(shù)路線,可以到 L3,現(xiàn)在是從 L2 到 L3 跨越的關(guān)鍵階段。現(xiàn)階段機(jī)器人已經(jīng)可以在特定場景和任務(wù)下,實(shí)現(xiàn)閉環(huán)執(zhí)行,人只需要待命接管。
晚點(diǎn):這意味著模型一定要有泛化能力。
李銀川:在我們的定義下肯定是這樣。沒有泛化能力,根本無法實(shí)現(xiàn)長鏈條任務(wù)的自主閉環(huán)和執(zhí)行嘛。
晚點(diǎn):這條技術(shù)路線,長遠(yuǎn)看會(huì)通向 L5 嗎?
李銀川:我覺得這更像一個(gè)偽命題。L5 會(huì)不會(huì)出現(xiàn),不僅要看技術(shù)能力,還要看它的商業(yè)價(jià)值,如果沒有商業(yè)價(jià)值了,盡管技術(shù)上能實(shí)現(xiàn),它也永遠(yuǎn)不會(huì)真正走向市場。比如 L5 的自動(dòng)駕駛真的會(huì)出現(xiàn)嗎?不一定吧。
晚點(diǎn):為什么不一定?
李銀川:越往后遇到的是越極端的長尾場景,投入會(huì)越來越大,但帶來的用戶價(jià)值增量未必成比例,當(dāng)消費(fèi)者不會(huì)為它買單的時(shí)候,它就不會(huì)到來了,比如停在 L4 階段,或者后面的進(jìn)步非常緩慢。
晚點(diǎn):你是說邊際效率遞減對么?
李銀川:對,當(dāng)然在具身上這個(gè)問題并不是絕對的,我只是說 L5 也有可能不會(huì)到來。至少目前來看,沒有哪家公司會(huì)把研發(fā) L5 級(jí)別的具身智能作為目標(biāo),這就有點(diǎn)不著邊際了。
晚點(diǎn):在具身領(lǐng)域,大家對什么是端到端莫衷一是,說什么的都有,你怎么看這個(gè)問題?
李銀川:因?yàn)槿狈?biāo)準(zhǔn)定義。端到端這三個(gè)字,你可以指訓(xùn)練端到端,也可以說模型架構(gòu)端到端,但在模型架構(gòu)上,除非你只用一個(gè) Transformer 結(jié)構(gòu)解決所有問題,不然你很難說任何 VLA 模型是純粹的端到端。
晚點(diǎn):總結(jié)起來,諾因機(jī)器人上應(yīng)用的會(huì)是一個(gè)端到端的具有泛化能力的生成式?jīng)Q策大模型,而不是分層模型,對么?
李銀川:非要這么劃分的話,是的我們會(huì)偏端到端。因?yàn)槠鋵?shí)現(xiàn)在很難說還有純粹分層的架構(gòu)了,打個(gè)比方,即使是分層的架構(gòu),在工業(yè)落地的時(shí)候大家還是會(huì)做一系列后訓(xùn)練,那么它就還是一個(gè)端到端訓(xùn)練的模型。
“你沒法證明你的直覺是對的。”
晚點(diǎn):什么時(shí)候下定決心出來創(chuàng)業(yè)?
李銀川:GPT-4o 發(fā)布。
晚點(diǎn):當(dāng)時(shí)你還在華為。
李銀川:對,創(chuàng)業(yè)想法我其實(shí)很早就有了,但博士畢業(yè)后我還是想在 AI 領(lǐng)域積累更多經(jīng)驗(yàn),在當(dāng)時(shí)諾亞研究院是國內(nèi)公認(rèn)的最好的 AI 研究院之一,我就加入了諾亞,一直工作了 5 年。
晚點(diǎn):在華為的時(shí)候你主要負(fù)責(zé)什么?
李銀川:我加入的是決策推理實(shí)驗(yàn)室,規(guī)模相當(dāng)大,這和其他公司不太一樣,因?yàn)槿A為有很多業(yè)務(wù)都和決策推理、強(qiáng)化學(xué)習(xí)等技術(shù)高度相關(guān)。
晚點(diǎn):聽說你在華為內(nèi)部拿遍了員工能得的主流獎(jiǎng)項(xiàng)。
李銀川:我做事追求全力以赴,在華為績效一直都挺好,確實(shí)也拿了很多獎(jiǎng)。 ChatGPT 大火那一年,公司讓我成立了新項(xiàng)目組,開始專注做生成模型相關(guān)研究,所以也可以算是吃到大模型爆火的一波紅利吧。
晚點(diǎn):你的項(xiàng)目組主要做什么?
李銀川:這個(gè)項(xiàng)目組叫生成模型理論項(xiàng)目組,方向之一是 AIGA,最后一個(gè) A 就是 action,所以我們重點(diǎn)關(guān)注如何基于生成式學(xué)習(xí)來生成動(dòng)作,它的應(yīng)用范圍很廣,包括自動(dòng)駕駛、具身智能等多個(gè)領(lǐng)域。
其實(shí)在 23 年早期我就提出過類似后來 OpenAI o1 推理架構(gòu)的想法,因?yàn)楫?dāng)時(shí)我在尋找 AIGA 在大模型訓(xùn)練上的應(yīng)用方向。
晚點(diǎn):但這個(gè)方向最后沒有推進(jìn)下去。
李銀川:有很多原因吧,具體就不展開了。歸根結(jié)底很多時(shí)候你沒法證明你的直覺是對的,對吧?
晚點(diǎn):你認(rèn)為你有一種準(zhǔn)確地技術(shù)直覺。
李銀川:對,因?yàn)槲乙恢痹谶@個(gè)方向上做研究,對行業(yè)的技術(shù)發(fā)展趨勢有自己的判斷和積累。其實(shí)最拼的那段時(shí)間就是 23 年,當(dāng)時(shí)經(jīng)常處于一種特別興奮的狀態(tài),很長一段時(shí)間每天只能睡 3 個(gè)小時(shí),看各種論文,有點(diǎn)像追漫畫,論文一更新,我就拿來讀,讀得多了之后,一篇新論文只需要幾分鐘我就能抓到重點(diǎn)了。
晚點(diǎn):說回來,為什么 GPT-4o 讓你覺得可以出來創(chuàng)業(yè)了?
李銀川:因?yàn)樗鉀Q了一直困擾我的問題,那就是具身的數(shù)據(jù)來源。很多人覺得合成數(shù)據(jù)就是生成逼真的畫面,但機(jī)器人需要的不是好看的圖片,而是能學(xué)到動(dòng)作的數(shù)據(jù)。
GPT-4o 模型已經(jīng)能夠理解和生成具有物理結(jié)構(gòu)的內(nèi)容,指令遵從性也非常高,只要在具身場景下做進(jìn)一步提升,從中提取動(dòng)作相關(guān)的信息是可行的,這讓我覺得用合成數(shù)據(jù)做具身這條路可以走通了。
當(dāng)時(shí) GPT-4o 的吉卜力風(fēng)格特別出圈,說實(shí)話我還挺驚訝的。
晚點(diǎn):連你也沒預(yù)料到進(jìn)步會(huì)這么快?
李銀川:對,當(dāng)時(shí)確實(shí)沒有料到。我們當(dāng)時(shí)還聚焦在研究大語言模型上,突然發(fā)現(xiàn)多模態(tài)能力都已經(jīng)開始快速涌現(xiàn)了。
晚點(diǎn):你沒有想探究一下它能力提升的原因嗎?
李銀川:原理我是大概知道的。GPT-4o 能做到這么出色,不是因?yàn)槟骋黄撐奶岢隽艘粋€(gè)劃時(shí)代的技術(shù),而是依靠背后龐大工程團(tuán)隊(duì)的技術(shù)整合能力和工程落地能力,把各類前沿技術(shù)進(jìn)行了高效融合和落地。
晚點(diǎn):總結(jié)起來邏輯就是多模態(tài)模型可以生成高質(zhì)量合成數(shù)據(jù),它們能被用來訓(xùn)練具身模型。
李銀川:對,要用模型生成具身數(shù)據(jù),而不是人采集具身數(shù)據(jù)。這是我們基于這代多模態(tài)大模型摸索出的全新技術(shù)和數(shù)據(jù)路線,目前行業(yè)內(nèi)還沒有形成廣泛共識(shí)。和大部分具身公司基于自動(dòng)駕駛的技術(shù)體系不一樣,而我們是完全圍繞多模態(tài)大模型和家庭具身場景,打造的專屬體系。
晚點(diǎn):為什么人采集具身數(shù)據(jù)不行?
李銀川:這和我們的創(chuàng)業(yè)方向有關(guān),諾因是一家專注 To C 的具身智能公司,機(jī)器人會(huì)進(jìn)入家庭。你很難想象讓機(jī)器人走進(jìn) 1 萬個(gè)家庭采集遙控操作的數(shù)據(jù)吧?仿真數(shù)據(jù)也是,它需要很精細(xì)的物理建模,還要投入大量的人力去標(biāo)定仿真數(shù)據(jù),這在復(fù)雜的家庭環(huán)境下實(shí)現(xiàn)成本太高了。
晚點(diǎn):成本高不意味著不可行,如果模型最終出現(xiàn)了很好的泛化能力,成本高一點(diǎn)也是可以接受的?
李銀川:首先,我們做的是 To C 產(chǎn)品,這些成本最終都會(huì)疊加到產(chǎn)品的售價(jià)上。其次,模型的泛化能力并不是憑空出現(xiàn)的,一定是數(shù)據(jù)足夠多,質(zhì)量足夠高才可以。
好的數(shù)據(jù)就像好的模型架構(gòu)一樣,必須簡單、可擴(kuò)展,合成數(shù)據(jù)恰好有這樣的特點(diǎn),同時(shí)成本更低。這會(huì)讓其它的數(shù)據(jù)采集路線雖然理論上可行,但最終會(huì)失去商業(yè)價(jià)值。
晚點(diǎn):訓(xùn)練數(shù)據(jù)都采用生成方式,不會(huì)容易出現(xiàn)過擬合的問題么,出來的數(shù)據(jù)都太類似。
李銀川:為什么你覺得真人采集的數(shù)據(jù)就不會(huì)過擬合呢?其實(shí)在實(shí)踐中你會(huì)發(fā)現(xiàn),你很難教會(huì)一個(gè)人什么叫采集 “非同質(zhì)化” 數(shù)據(jù),比如倒水這個(gè)動(dòng)作,真人采集 1000 條數(shù)據(jù),最終 90% 對模型來說可能都是類似的,因?yàn)樗茈y每次都做出非常不一樣的動(dòng)作、產(chǎn)生很大不同的變化。
但合成數(shù)據(jù)可以做到,只要工程能力足夠強(qiáng)、生成質(zhì)量足夠高,就能把數(shù)據(jù)差異化做得很大。另外這里還有一個(gè)對模型能力的理解問題,不是隨便變就叫多樣性,有些維度上的變化對模型泛化幫助很大,但大部分的變化都是有害的,我們花了不少時(shí)間去找到這條邊界。
晚點(diǎn):諾因生成數(shù)據(jù)的模型是怎么做的?
李銀川:現(xiàn)在沒有一個(gè)拿來就能生成高質(zhì)量家務(wù)操作的模型,所以我們在針對具身任務(wù)微調(diào)開源模型。
晚點(diǎn):這個(gè)東西聽上去沒有很難。
李銀川:聽起來就是正常訓(xùn)練大模型的那些技巧,對我們做過的人來說可能不難。當(dāng)然我們現(xiàn)在敢出來講,肯定這里面還是有非常非常多 know-how 的,核心難點(diǎn)不在于訓(xùn)練模型,而在于定義什么是好的合成數(shù)據(jù)。
模型生成的是像素,但機(jī)器人從中學(xué)的是動(dòng)作策略,這兩者之間的橋怎么搭,目前沒有現(xiàn)成答案。我們的合成數(shù)據(jù)針對的是我們自研的具身決策大模型架構(gòu),它們結(jié)合起來門檻就非常高了,我們走了非常多彎路。
晚點(diǎn):你們不是才成立了半年多時(shí)間嗎?
李銀川:大模型時(shí)代每個(gè)月都能算是一個(gè)技術(shù)新周期了。你會(huì)不會(huì)覺得 GPT-5 已經(jīng)到來很長一段時(shí)間了?其實(shí)也才半年多。
晚點(diǎn):你提到了好幾次技術(shù)和成本效率之間的關(guān)系,你是不是很早就想好了要?jiǎng)?chuàng)業(yè)?
李銀川:我 20 歲就開始準(zhǔn)備創(chuàng)業(yè)了,而且明確定的就是 30 歲下場。
晚點(diǎn):那要是 30 歲等不到風(fēng)口怎么辦?
李銀川:其實(shí)風(fēng)口來的更早啊,如果是做大模型的話 23 年就是很好的時(shí)機(jī)了。當(dāng)時(shí)沒做,一來是因?yàn)榇竽P筒⒉皇俏易钌瞄L的方向,二來我覺得做大模型很難跟大廠競爭。
晚點(diǎn):大模型很難跟大廠競爭,機(jī)器人呢?
李銀川:To C 機(jī)器人完全可以呀,它屬于消費(fèi)電子賽道,商業(yè)模式和大模型完全不一樣。消費(fèi)電子是做出一個(gè)好產(chǎn)品賣出去就能賺錢,這個(gè)賽道不存在壟斷。不管是初創(chuàng)公司還是大廠,消費(fèi)電子想做好還是要聚焦產(chǎn)品,所以從第一性原理上來講我們并沒有什么劣勢。
晚點(diǎn):你從什么時(shí)候起想要做機(jī)器人的?
李銀川:我從小就對機(jī)器人比較感興趣,本科讀的就是電子工程,對硬件和算法都有一定的了解和積累。整個(gè) AI 學(xué)科,如果非要我選一個(gè)最擅長的領(lǐng)域,那確實(shí)就是具身。我以前挺喜歡搗鼓電路板這些東西的,讀博時(shí)我還參與過一個(gè)雷達(dá)產(chǎn)品的研發(fā)。
不過讀博參與項(xiàng)目對我沖擊更大的還是周圍的同學(xué),當(dāng)你親眼看到一幫通過自己努力成功創(chuàng)業(yè)的人之后,你會(huì)意識(shí)到成立一家公司并不是遙不可及的。
晚點(diǎn):但是據(jù)我所知你在美國曾有一次創(chuàng)業(yè)經(jīng)歷,和機(jī)器人沒什么關(guān)系。
李銀川:一個(gè)基于強(qiáng)化學(xué)習(xí)的量化軟件,最后賣給了一家投資公司。
晚點(diǎn):為什么沒有延續(xù)這個(gè)創(chuàng)業(yè)路線?
李銀川:純粹做技術(shù)研發(fā),如果要給更多人提供價(jià)值,那賣掉是正確的選擇。第一次創(chuàng)業(yè)我就發(fā)現(xiàn)了這一點(diǎn),做個(gè)技術(shù)把它賣掉,確實(shí)能賺一些錢,但似乎對這個(gè)世界沒什么改變?我還是想做一個(gè)真正能改變世界的偉大公司,這需要足夠大的市場規(guī)模,也就是 To C 市場。
晚點(diǎn):大家都在說機(jī)器人進(jìn)工廠,基本做的都是 To B 生意。
李銀川:我認(rèn)可工業(yè)場景先落地,這點(diǎn)沒有問題。但真的很少有公司能同時(shí)把 B 端和 C 端業(yè)務(wù)都做好,華為是很少數(shù)的個(gè)例。我還是更愿意做規(guī)模更大的市場。
晚點(diǎn):后面的事就是在等風(fēng)口了。
李銀川:對,我之前一直沒有想清楚 To C 到底要怎么做,比如訓(xùn)練數(shù)據(jù)怎么收集?就像前面說的,雇很多人走進(jìn)家庭去采集數(shù)據(jù)我覺得肯定不行。等到 GPT-4o 出來,數(shù)據(jù)的事情比較清晰之后,創(chuàng)業(yè)的決心就比較堅(jiān)定了。
不像人的家務(wù)機(jī)器人
![]()
諾因機(jī)器人原型機(jī),來源:諾因。
晚點(diǎn):考慮到你的背景,To C 市場你之前的經(jīng)驗(yàn)并不多,對吧?
李銀川:人要追求進(jìn)步,要學(xué)習(xí)嘛。
晚點(diǎn):就你個(gè)人來說,你覺得最需要進(jìn)步的是什么?
李銀川:需要去學(xué)習(xí)很多 To C 產(chǎn)品定義相關(guān)的事,不然很多時(shí)候會(huì)想當(dāng)然。比如,你覺得機(jī)器人價(jià)格多少是合理的?如果一個(gè)家務(wù)機(jī)器人賣 10 萬塊,你愿意買嗎?
晚點(diǎn):當(dāng)然不買啊。
李銀川:所以你看,真的不能想當(dāng)然,不同人的想法真的差異挺大的。
晚點(diǎn):你難道覺得 10 萬塊這個(gè)價(jià)格合理?
李銀川:沒有到十萬,但最開始我確實(shí)覺得大家愿意花更多的錢買一個(gè)家務(wù)機(jī)器人。汽車十幾萬、幾十萬的都有人買,那如果一個(gè)足夠強(qiáng)的家務(wù)機(jī)器人,能給你做好多個(gè)領(lǐng)域的家務(wù),每天都能用到,對標(biāo)保姆的話,貴一點(diǎn)應(yīng)該也是有人買的。
晚點(diǎn):什么讓你改變了這個(gè)想法?
李銀川:這就是產(chǎn)品定義我需要補(bǔ)課的一部分。消費(fèi)電子產(chǎn)品定價(jià)不能簡單根據(jù)已有功能的強(qiáng)弱定價(jià)。
晚點(diǎn):那應(yīng)該怎么定價(jià)?
李銀川:跟成本掛鉤。如果售價(jià)比成本高出太多,那一定會(huì)出現(xiàn)一家公司賣的比你便宜,然后你就失敗了,盡管對方功能可能并沒有你好,但它足夠便宜。
晚點(diǎn):怎么定義 To C 家庭機(jī)器人的功能好?
李銀川:至少有一個(gè)功能,讓用戶每天,或者至少每周能用個(gè)幾次,而不是放在那里吃灰,這就是好。
家庭是機(jī)器人最大和最難的場景。我比較擅長算法,肯定要做最難的事才能發(fā)揮自己的優(yōu)勢。諾因正在關(guān)注的家庭高頻場景大部分是清潔相關(guān),比如案面清潔、洗衣服等,此外還有像老人孩子的照顧,寵物照顧清潔這些同樣比較高頻的需求。
晚點(diǎn):洗衣服包含大家喜聞樂見、最愛展示的折疊衣物環(huán)節(jié)對嗎?
李銀川:我們想的是從拿衣服開始,到把它放到洗衣機(jī)里,洗完然后晾曬,一個(gè)完整流程。
晚點(diǎn):上面你提到的這些需求,每一個(gè)聽上去都很難。
李銀川:是的,實(shí)際做起來也不容易。
晚點(diǎn):你答應(yīng)的蠻干脆的,這些 L3 級(jí)別的任務(wù)諾因目前完成到什么程度了呢?
李銀川:我們認(rèn)為技術(shù)路線是收斂的,也就是說這些事情是可以做到的,只是還需要一些時(shí)間把它做好。
晚點(diǎn):這個(gè)技術(shù)路線收斂的判斷是你做的嗎?
李銀川:我做的判斷,然后大家也會(huì)有共識(shí)。其實(shí)去年注冊公司的時(shí)候我就做了這個(gè)判斷了,大概在 7-8 月份,這半年技術(shù)上的進(jìn)展和我們的預(yù)期是相符的。
采訪時(shí)李銀川給我們展示了兩段視頻。一段是機(jī)器人在一個(gè)橫向放置宛如桌子的電視屏幕上疊衣服,電視同時(shí)在播放著五光十色的視頻片段,而機(jī)器人旁邊還有包括迪斯科燈球在內(nèi)的各種復(fù)雜光源。機(jī)器人依舊可以順利折疊任意形態(tài)的衣服。另一段視頻里,機(jī)器人在調(diào)節(jié)洗衣機(jī)的旋鈕,李銀川說,諾因的機(jī)器人已經(jīng)可以做到精準(zhǔn)控制洗衣機(jī)操作旋鈕的角度。任意形態(tài)、任意背景、任意光照條件下的泛化,這種能力,根據(jù)李銀川的說法,完全來自使用足夠多的合成數(shù)據(jù)。
晚點(diǎn):聊了這么久,還沒說你們的產(chǎn)品形態(tài)。第一款產(chǎn)品是什么樣子的?大概多久會(huì)上市?
李銀川:第一款是基于輪式底盤,沒有上靈巧手,預(yù)計(jì)明年開始發(fā)布,然后用大概半年時(shí)間量產(chǎn)交貨。Sunday Robotics 之前的視頻挺火的,給大家?guī)砹艘恍┫胂螅覀円呀?jīng)有一些類似但不一樣的設(shè)計(jì)概念了。
晚點(diǎn):一個(gè)老生常談但又不得不問的問題,為什么是輪式?
李銀川:家庭一定是輪式的,雙足太容易摔倒了,而且續(xù)航、噪音也是問題,輪式可以放更大的電池,也更安靜。
晚點(diǎn):除了產(chǎn)品價(jià)格,還有什么產(chǎn)品定義上和你之前想得不一樣的地方嗎?
李銀川:有一個(gè)思路上的不同,就是應(yīng)該用做加法的方式做產(chǎn)品,也就是說當(dāng)你為了達(dá)到某種能力必須加?xùn)|西的時(shí)候再給你的產(chǎn)品加,除此之外,你應(yīng)該努力還原家庭機(jī)器人最極簡形態(tài),這也方便我們?nèi)珬W匝校嫌布c供應(yīng)鏈系統(tǒng)。
晚點(diǎn):舉個(gè)例子?
李銀川:比如在操作感知上我們是純視覺方案,沒有結(jié)構(gòu)光或激光雷達(dá)。不是說它們完全沒用,而是價(jià)格確實(shí)很貴,我們在算法上做了很多額外工作試圖彌補(bǔ)沒有結(jié)構(gòu)光和激光雷達(dá)造成的問題,最后發(fā)現(xiàn)這條路是可行的。
當(dāng)然,這和我們的技術(shù)路線也有關(guān)系,我們本來用的就是純視覺的合成數(shù)據(jù),從第一性原理來講視覺信息就是足夠的。
晚點(diǎn):我知道你們有一位聯(lián)創(chuàng)來自大疆,這種做加法的理論算是大疆的方法論嗎?
李銀川:這確實(shí)是他給我講的,我想應(yīng)該算是吧(笑)。第一款機(jī)器人不上靈巧手也是這個(gè)原因,現(xiàn)階段夾爪就能把家務(wù)做得很好,所以暫時(shí)不需要靈巧手。
晚點(diǎn):大疆方法論還有什么讓你印象深刻的地方?
李銀川:我是和他們聊才知道,產(chǎn)品的外觀設(shè)計(jì)是一套可以在白板上寫公式的方法論,我第一次看的時(shí)候特別震撼。哪些設(shè)計(jì)必須有,哪些是附帶的,加上之后會(huì)對整個(gè)外觀的函數(shù)造成什么影響,這是可以算出來的。產(chǎn)品設(shè)計(jì)最終是需要找到一種平衡,而不是拍腦袋覺得某個(gè)東西好看或者不好看。
晚點(diǎn):那有什么功能或者產(chǎn)品設(shè)計(jì)讓你印象比較深刻?
李銀川:現(xiàn)在還在比較早期階段,我可以貢獻(xiàn)一個(gè)已經(jīng)被否了的產(chǎn)品設(shè)計(jì)。我聽音樂的時(shí)候比較在意音質(zhì),所以一開始我想這個(gè)機(jī)器人是不是可以放個(gè)高品質(zhì)音響在里面,我看電影的時(shí)候在旁邊放音樂。
晚點(diǎn):因?yàn)椴环霞臃ǚ椒ㄕ摱环窳耍敲矗?/strong>
李銀川:在家里看電影用專門的外置音箱可能還是一個(gè)小眾需求。
晚點(diǎn):創(chuàng)業(yè)之后你有沒有發(fā)現(xiàn)自己的產(chǎn)品 sense 相比技術(shù)直覺差很多嗎?
李銀川:我在進(jìn)步(笑)。我確實(shí)之前沒做過 To C 產(chǎn)品,但從我這半年的進(jìn)步來看,我覺得我學(xué)習(xí)能力還是可以的,而且我的產(chǎn)品團(tuán)隊(duì)非常強(qiáng)。
晚點(diǎn):明年機(jī)器人發(fā)布,會(huì)解決剛才我們提到的那些任務(wù),主要圍繞清潔相關(guān)家務(wù)展開,當(dāng)然也包括洗衣服對么?
李銀川:我們在往這個(gè)方向努力,目前看應(yīng)該可以。
晚點(diǎn):換句話說,明年就是你們預(yù)計(jì)技術(shù)上可以攻克,產(chǎn)品上完全準(zhǔn)備好的時(shí)間節(jié)點(diǎn)。
李銀川:對,我們預(yù)計(jì)是一年多的時(shí)間。
晚點(diǎn):最終,諾因的機(jī)器人在家庭中會(huì)是一個(gè)什么樣的存在?
李銀川:第一款產(chǎn)品我不希望大家把它當(dāng)做一個(gè)家庭成員看待。如果是家庭成員的話,那意味著存在感很強(qiáng),也不匹配現(xiàn)階段具身的能力,現(xiàn)階段它只是一個(gè)做家務(wù)的機(jī)器人,不是保姆。所以我們希望它存在感盡量低一點(diǎn),該工作的時(shí)候工作,大部分時(shí)間休息。它升起來大概一米六左右,降下去一米二三的樣子,尺寸也比較適合中國家庭,因?yàn)榇蠹业姆孔悠毡檫€沒有那么大。
晚點(diǎn):你更希望大家把它看做一個(gè)工具產(chǎn)品,而不是機(jī)器人?
李銀川:我希望大家把它當(dāng)做一個(gè)聰明的,能為你做事的產(chǎn)品,主打家務(wù)功能,附贈(zèng)情緒價(jià)值。
被 200 個(gè)人拒絕的極度樂觀主義者
晚點(diǎn):你們?nèi)谫Y速度非常快,成立第一個(gè)月就融資了,第二輪估值就翻倍,但即使現(xiàn)在,合成數(shù)據(jù)都不能說是個(gè)主流的方向,你怎么去說服投資人?
李銀川:最早的時(shí)候大家可能覺得我在吹牛,但我們進(jìn)展真的非常快,非常迅速,大家一看演示就知道,很多人被我們的速度震驚到,所以我們?nèi)谫Y上確實(shí)沒怎么費(fèi)力,反而因?yàn)楣乐禎q的比較快還被抱怨過。
晚點(diǎn):這算是凡爾賽吧 … 成立時(shí)間這么晚,你怎么跟投資人解釋諾因和其他公司不一樣的地方?
李銀川:我們極度聚焦在技術(shù)和產(chǎn)品本身,從最開始十幾個(gè)人到現(xiàn)在 100 人的規(guī)模,我們都很像蘋果早期 Mac 開發(fā)團(tuán)隊(duì),組織架構(gòu)圍繞著產(chǎn)品在快速迭代,非常扁平。
晚點(diǎn):你個(gè)人覺得有什么短板需要補(bǔ)嗎?
李銀川:最大的問題可能是時(shí)間不夠用,除此之外,我覺得只要一直保持學(xué)習(xí),所謂短板都是可以補(bǔ)上的。
晚點(diǎn):感覺你創(chuàng)業(yè)之后好像更快樂了?
李銀川:因?yàn)槊刻於加姓答仯芏鄷r(shí)候都興奮地睡不著覺。我從小就不太喜歡按部就班死記硬背,所以我偏科很厲害,學(xué)生時(shí)代最快樂時(shí)間段是讀博之后,因?yàn)橛泻芏嘧晕姨剿鞯臅r(shí)間,再有就是現(xiàn)在創(chuàng)業(yè)。
晚點(diǎn):除了快樂,感覺你也不焦慮,盡管具身智能是一個(gè)競爭這么激烈的賽道。
李銀川:因?yàn)槲以谧稣_的事情,這方面我極度樂觀。舉個(gè)例子,如果你去創(chuàng)業(yè)的話,聊 100 個(gè)人,99 個(gè)人都在質(zhì)疑你,你會(huì)受挫嗎?
晚點(diǎn):正常人都會(huì)吧。
李銀川:我完全不會(huì)。我們早期招人的時(shí)候,很多人都不認(rèn)可我的技術(shù)路線,會(huì)遇到非常果斷的拒絕,但這完全不影響我第二天依舊能量滿滿的繼續(xù)和人聊。最后,聊多了你就發(fā)現(xiàn),這個(gè)行業(yè)里真正頂級(jí)的,技術(shù)非常強(qiáng)的人我們是會(huì)聊得來的,會(huì)認(rèn)可我的。
晚點(diǎn):但還是拒絕了你。
李銀川:哈哈哈哈對,各種各樣原因拒絕的都有,我早期可能聊了 200 個(gè)人都被拒絕了。
晚點(diǎn):你就沒有一個(gè)心理調(diào)適的過程?這是自信還是你非常確定你就是對的?
李銀川:因?yàn)橹雷约菏菍Φ模员痪芙^或不認(rèn)可真的不困擾我。這實(shí)際上還形成了一個(gè)雙向篩選,真正有技術(shù)判斷力、最頂級(jí)的人最后反倒是被我們的愿景和技術(shù)路線打動(dòng)加入我們了,因?yàn)榇蠹覍夹g(shù)的理解真能聊到一起去,所以諾因現(xiàn)在團(tuán)隊(duì)的人才密度和技術(shù)水平說實(shí)話超出了我最初預(yù)期。
晚點(diǎn):基于你非常自信的這個(gè)視角,你怎么看 2026 年具身智能的競爭格局?
李銀川:我覺得 2026 年不聚焦落地或者沒有落地能力的公司就不太會(huì)被關(guān)注了。合成數(shù)據(jù)這個(gè)方向會(huì)有更多的玩家出現(xiàn)。
我算比較早出來融資講具身智能 To C 可以做以及怎么落地的人,所以可以說諾因確實(shí)在 To C 上有先發(fā)優(yōu)勢。
晚點(diǎn):這個(gè)先發(fā)優(yōu)勢能維持多久?
李銀川:就像之前說的,首先,這里面積累了很多 know-how,就算競爭對手完全知道了技術(shù)路線的細(xì)節(jié),那也要花半年到一年的時(shí)間才能追上來。其次,前面也說過,合成數(shù)據(jù)并不適配所有技術(shù)路線,這是和我們生成式?jīng)Q策的架構(gòu)高度綁定的,這方面的門檻很高。
晚點(diǎn):你該不會(huì)要給我說,其實(shí)你心目中諾因的競爭對手只有自己吧?
李銀川:我們真的不跟外界比,因?yàn)檎娴暮芫劢巩a(chǎn)品本身,它是一個(gè)世界上還沒有的產(chǎn)品,所以你也沒法從別人身上學(xué)到現(xiàn)成的答案。現(xiàn)在最大的問題是如何讓團(tuán)隊(duì)里來自不同背景的人充分協(xié)調(diào)配合,發(fā)揮最大創(chuàng)造力,只要你做到最好了,其實(shí)也就不用太關(guān)心外界了對不對?外界最多也就是和你持平。
晚點(diǎn):諾因現(xiàn)在規(guī)劃中的機(jī)器人產(chǎn)品是從 L2 到 L3 的過渡,那再往前一步的技術(shù)會(huì)是什么樣的?需要新的范式轉(zhuǎn)變嗎?
李銀川:我其實(shí)已經(jīng)想好技術(shù)的轉(zhuǎn)變會(huì)在什么時(shí)候發(fā)生了,我面試許多候選人的時(shí)候也會(huì)深入聊這些細(xì)節(jié)。但是大模型技術(shù)進(jìn)步太快了,現(xiàn)在我們預(yù)料兩年后該做什么,那它大概率不會(huì)發(fā)生,或者到時(shí)候已經(jīng)不是最優(yōu)解了。
晚點(diǎn):還是可以大概說一下吧,讀者也會(huì)好奇的。
李銀川:這就純猜了哈,比如我們最終產(chǎn)品賣出很多臺(tái)后,收集了大量真實(shí)數(shù)據(jù),屆時(shí)我們會(huì)有一種更涌現(xiàn)的架構(gòu),把所有的家務(wù)技能重組編排,然后訓(xùn)到基座模型里面。
晚點(diǎn):它和現(xiàn)在的技術(shù)路線區(qū)別在于一個(gè)是合成數(shù)據(jù)一個(gè)是真實(shí)數(shù)據(jù)?
李銀川:在于泛化能力不同,現(xiàn)在的模型已經(jīng)可以精確操控洗衣機(jī)了,但如果你讓它炒個(gè)菜它還是不行的。最終具身大模型會(huì)從生成新動(dòng)作轉(zhuǎn)向涌現(xiàn)新技能,因?yàn)槿耸强梢杂|類旁通生成新技能的。
晚點(diǎn):現(xiàn)在的模型依舊圍繞在特定場景執(zhí)行特定任務(wù)。
李銀川:圍繞特定難度的任務(wù)。像炒菜這種非常復(fù)雜、對安全性要求很高的任務(wù)我覺得目前還是泛化不了,現(xiàn)在能夠?qū)崿F(xiàn)一定泛化的任務(wù)難度還是可控的。
晚點(diǎn):因?yàn)楹铣蓴?shù)據(jù)的原因,你們對模型架構(gòu)做了一些調(diào)整,但未來總的來說還是以 Transformer 架構(gòu)為主導(dǎo)。
李銀川:是這樣的,其實(shí)現(xiàn)在大家也都在這樣做。
晚點(diǎn):具身智能領(lǐng)域同樣也會(huì)遵循 Scaling Law (縮放定律)對么,會(huì)突然涌現(xiàn)么?
李銀川:我們內(nèi)部的 Scaling Law 曲線已經(jīng)繪制半年了,每月都會(huì)更新進(jìn)展,但它和涌現(xiàn)不太一樣。這條曲線讓我們可以預(yù)判,再投入多少數(shù)據(jù)、在什么任務(wù)上能獲得多少能力提升,這也是我們敢說技術(shù)路線收斂的依據(jù)。Scaling Law 是說數(shù)據(jù)量和模型能力以及準(zhǔn)確度之間的關(guān)系,涌現(xiàn)是說模型出現(xiàn)了意料之外的泛化,比如模型本來是做清潔任務(wù),突然就會(huì)做菜了,這種現(xiàn)在的技術(shù)還看不太到。
題圖來源:諾因智能
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.