![]()
2026年初,市面上出現了一款新的兒童陪伴機器人,一經發布就登上機器人首發榜單第二名。截至目前,該產品全平臺訂單已超2萬臺,230余個線下體驗觸點覆蓋書店、機場專賣店和教育機構。
從外形看,這款名為多奇的機器人外觀可愛,搭載一個屏幕,家長可能會問:這是把小型平板嵌在玩偶里了嗎?
實則不然,多奇的屏幕是表達器官,是讓機器人成為有表情、有情緒、關注孩子的實體伙伴的不可缺少的重要部分。孩子可以與多奇一同學習英語,閱讀繪本,玩游戲,過家家。
在AI能力大幅躍遷后,多奇不再滿足于只當個AI小外教,而是成長為與孩子共同生活的自進化機器人伙伴。
談及多奇背后的創始團隊,相信大家一定不陌生,他們在教育領域有很深的積淀。核心團隊均來自清華大學,創始人、CEO兼技術負責人包塔,聯合創辦了網易有道,曾推出月活千萬的“網易有道詞典”;聯合創始人兼產品負責人徐毅斐,也就是本文的作者,曾擔任字節跳動“大力智能臺燈”的平臺產品負責人;聯合創始人兼市場負責人胡琛,和包塔同為網易有道聯合創始人。
這次,讓我們切換到這支創始團隊的視角,看看打造一款真正適合孩子使用的機器人都會經歷哪些思考、探索、取舍與創新?會踩哪些坑?
文章篇幅較長,相信讀完之后一定會對多奇和兒童陪伴機器人有全面且深度的了解。
被智能革命遺忘的那個人群
快2030年了。AI的智能水平正在逼近人類的邊界,人類社會正在經歷有史以來最劇烈的一次技術變革。但有一個群體,幾乎被這場變革遺忘了——那就是孩子,尤其是學齡前的孩子。
從90年代的個人電腦,到互聯網、移動互聯網,再到今天的AI時代,三十年間,我們經歷了多輪智能設備的迭代。成年人擁有了電腦和手機,老人有了智能音箱,連寵物都有了智能喂食器。但孩子呢?
故事機,本質上是上世紀收音機的數字化;點讀筆和學習機,是教材的電子化;小天才手表,除了定位和通話功能,和能養電子寵物的電子表并沒有本質飛躍。而在新生人口下降的現在,這些產品每年還有超4000w的銷量。
我平均每一兩年都會去逛一趟上海的玩具展,過去七八年,展臺上的東西換了一茬又一茬,不變的是毛絨加塑料加電子,變的只是IP。25年終于有了一個關于「智能技術」的展區,但和我們成人世界的產品變革相比,差距依然觸目驚心。
這不是一個小問題。在解決溫飽之后,全世界的父母都把教育、陪伴、成長放在家庭最核心的位置。但在AI時代,我們依然無法給孩子,尤其是學齡前的孩子,提供一臺真正適合他們的智能終端。這是一個巨大的時代空白。
所有人都答錯了這道題
要理解這個空白,需要先定義「孩子的智能設備」應該滿足什么條件。回看成人世界里的標志性智能設備——電腦和手機——它們的共同關鍵詞是:個人擁有、方便操作、內容消費、生產創造。對應到孩子,還需要加上一條:安全科學,讓成年人放心。
用這把尺子來衡量現有產品,會發現一個共同的結論:所有現有設備都只是不同程度的近似答案,沒有一個是真正的解。
iPad:最接近,但本質上是一個虛擬平面世界
iPad在直覺交互和內容豐富度上的表現幾乎無可挑剔。2010年,當喬布斯把那塊大號iPhone亮出來的那天,我就意識到,一歲多的孩子都能用手指點觸找到自己想看的動畫片——這是前所未有的。也是這塊屏幕,驅動了我進入兒童產品領域。
但iPad不是答案,原因并不是「有屏幕傷眼睛」。真正的問題是:觸屏是一個平面的世界。人類是從三維空間里進化來的。孩子從出生起就在三維世界里接受訓練:用手觸摸、用眼追蹤、用身體感受物理特性。平面世界里,孩子無法感受所見事物的物理質感,無法鍛煉手部精細動作與手眼腦的協調。更根本的是,它的「安全科學」評分幾乎為零——沒有任何父母能對孩子用iPad真正放心。
智能音箱:信息通道太窄,使用門檻太高
我在結束上一次創業后,第一份工作就是在一家智能音箱公司,試圖做一個交互能力更強的兒童故事機。但很快發現,純語音交互對孩子而言遠比想象的困難。行業數據顯示,無屏音箱的次月留存率低于20~30%;相比之下,帶屏音箱的月留存率高達70%~80%。這個差值背后有清晰的邏輯:語音是一個信息通道狹窄但使用門檻極高的信息處理方式。人從「聽到」到「理解」再到「表達」,調動的神經、肌肉資源遠超手指點一下屏幕。這個門檻對語言系統尚未發育成熟的孩子來說,尤其具有挑戰性。
手表:需求是真的,但載體是將就
小天才手表是兒童硬件里繞不過去的研究案例。但它的邏輯值得細看:本質上,小天才是父母對孩子的「安全掌控需求」——定位+通訊——催生的產品,孩子的社交需求是借助這個唯一可觸達的智能平臺自然生長出來的。孩子樂此不疲地用那個小小的屏幕,只是因為那是他們唯一自己能掌控的智能終端,不是因為手表是最好的形態。
手機與眼鏡:錯配的形態
手機的屏幕已經足夠大,但手持終端并不適合學齡前的孩子:他們的具身智能尚未發育成熟,前額葉注意力分配、手部精細動作的能力都遠不如成人,無法在「移動」場景中使用。
VR/AR眼鏡就更不用說——10歲甚至12歲以前的孩子,眼睛和視覺系統的發育都尚未成熟,當前的光學成像質量連成人都無法持續佩戴,遑論孩子。
這就是這個市場的現狀:需求巨大且明確,現有產品都是將就,沒有一個是真正的答案——兒童個人智能終端的產品「元型」尚未出現
“產品元型”(Product Archetype) 不是指傳統意義上的“產品原型”(Prototype)—— 后者是產品的早期可測試版本,而前者是對一個品類最根本、最本質、最經得起時間考驗的形態定義。它回答的是一個終極問題:這個東西到底應該是什么樣子?它存在的根本理由是什么?
做有用的陪伴,是最重要的產品哲學
在決定做多奇之前,我們做了一件事:認真想清楚,「兒童陪伴機器人」到底能解決什么問題,不能解決什么問題。
大多數人對陪伴機器人的想象,是可愛的外觀、能動的四肢、豐富的表情、流暢的對話——因為這是對真實的人或寵物的完整想象。但我們很早就確立了一個核心判斷:
情感陪伴不足以支撐兒童陪伴機器人的產品價值。
這并不是說情感陪伴不重要。而是:第一,在一個正常家庭里,孩子的情感陪伴應該來自父母和身邊的人;第二,一個活生生的人或動物,即使不說話,因為它是有溫度的生命,本身就能產生情感共鳴。機器人做不到這一點——它的情感表達離真人或寵物還有很遠的距離,很難激發孩子真正的情感依托。
所以我們提出的產品定義是:做有用的陪伴——“有用”是 1,情緒價值是后面的 0。
「有用」聽起來有些功利,但這是所有父母的真實心聲。而且有一個重要的邏輯鏈條:一個機器人,只有當它足夠「有用」,它才會被留在孩子身邊足夠長的時間;只有陪伴足夠長,才有機會積累互動、建立情感、形成真正的關系。所以我們認為,功能有用是基礎,情緒價值和情感陪伴是有用的副產品——而不是反過來。
這個判斷,決定了多奇后續幾乎所有的產品設計方向。
![]()
孩子的需求地圖:找到最大的機會窗口
理清了「有用」這件事,接下來的問題是:對孩子來說,什么是最有用的?除去吃喝拉撒的基本生存需求,兒童的所有需求可以歸為三類:安全、健康、教育與娛樂。
安全:剛需,但偶發
安全需求很好理解——確保孩子不丟失、遠離危險。這正是小天才手表的切入點,它用定位加通訊解決了父母的最核心焦慮。室內安全監控是陪伴機器人可以探索的方向,但在家庭這樣的多空間復雜環境里確保一個調皮孩子的安全,難度遠超在孩子身上加個“定位器”,目前還難以系統性實現。
健康:重要,但時段固定
健康包括生活/學習習慣和運動習慣兩大塊。陪伴機器人理論上可以做到的,是以伙伴的身份對孩子進行提醒和引導——因為來自一個「平等玩伴」的建議,有時候比父母和老師的要求更容易被孩子接受。但培養并長期維持一個孩子的習慣,絕不是當前AI/機器人輕而易舉能做到的事。
教育與娛樂:全天候的剛需
我把教育和娛樂放在一起,因為對孩子來說,好的學習本來就是快樂的,兩者不應該對立。孩子醒著的十幾個小時,除去睡眠、吃喝拉撒的約兩個小時,剩下大約十二個小時,都在源源不斷地需要內容輸入。從「剛需程度 x 需求頻次」的維度,偶發的安全、2小時/天的健康,與持續十二小時的教育娛樂相比,結論不言而喻:教育與娛樂,是兒童智能設備最大的機會窗口
這就是為什么我們認為,內容能力是陪伴機器人最核心的競爭力。那些能走路、能做各種表情的酷炫機器人,孩子往往玩不了多久——因為它的所有可能性很快就會被孩子窮舉完。但內容不一樣,孩子對好內容的消費沒有止境。而且安全、健康,當前產品技術PMF無法達成,而AI大模型正在重塑整個內容行業。
孩子真正需要的內容:從消費到互動到創造
更深入地看,孩子對內容的需求可以分為三個層次,這三個層次也構成了多奇產品能力建設的路線圖,并將驅動我們接下來最重要的產品演進。
第一層:內容消費
沉浸式的內容——故事、音樂、動畫、游戲——這個市場已經非常成熟。從故事機到繪本閱讀機,從點讀筆到學習機,孩子不缺可以消費的內容。這是陪伴機器人的基礎能力,但不是差異化所在。
第二層:即時互動,但不僅僅是對話
這是孩子最渴望、也最稀缺的一類內容體驗。孩子需要的不只是被動接收信息,而是有人(或有東西)能夠及時響應他的好奇心、接住他的表達、給出有質量的反饋。無論是孔子的言傳身教,還是蘇格拉底的對話式教學,本質上都是這種即時互動。但它的供給極度稀缺——父母要么沒有時間精力,要么沒有足夠的知識儲備,要么無法降下認知去理解孩子當下所處的認知水平。
這正是AI大模型帶來的最大機會。AI擁有超越任何人類個體的知識儲備,“理論上”了解不同年齡段孩子的認知特點,能夠以自然語言、生圖、編排游戲給予即時響應,而且足夠耐心、足夠平等——它不會因為孩子「問了個可笑的問題」而不耐煩。從我們大量的產品用戶測試來看,AI在引導孩子注意力、管理孩子情緒,甚至和孩子講道理方面,已經不輸于經驗不那么充分的成年人。
第三層:創造——也是人類智能最高階的領地
創造力是人類智能最后也是最高階的領地。每個孩子天生就有創造力,但這種能力需要被看見、被激發、被引導。
創造本質上是一種交互:你對事物做出一點改動,世界給你一些反饋。這就是為什么孩子喜歡紙筆、沙子、泥巴、積木以及Minecraft——這些工具的上手門檻極低,任何微小的改變都會即時產生反饋,但創作的上限又極高。最好的創造工具,是低門檻、高上限、有即時反饋的。
但問題在于:過于簡單的工具缺乏有質量的互動引導——孩子拿著蠟筆在紙上涂抹,很快就會卡住。真正能激發創造力的,是在恰當的時機給予恰當的引導——就像一個好的藝術老師,能夠在孩子隨意畫下的幾條線條上稍加點撥,讓孩子突然發現眼前冒出了一只活靈活現的小動物。這種Aha moment,是真正激發內在成就感和創造欲的關鍵時刻。這種互動引導,恰恰是AI多模態能力最有潛力承接的場景。
在AGI時代,品味和創造力是人類智能最后可以引以為傲的領地。中國近年來的科技產業升級、教育改革反復強調科技創新、創造力培養,對創造性人才的需求到了前所未有的高度。
「創造」這一層,不僅是孩子發展的需要,也是我們產品演進最重要的方向指針。
為什么答案是「實體機器人」以及它的「元型」設計
實體互動而非純屏幕:三維世界里的大腦
人類從三維世界進化而來,孩子的大腦從出生起就在實體空間里接受訓練。在接觸屏幕之前,孩子已經在三維世界里摸爬滾打了一到兩年——用手和身體觸摸、鼻子嗅聞、嘴巴品嘗、感受物理質感,這種多感官的刺激對大腦發育是最健康、最有效的。
所以,多奇主張「回歸真實空間的互動」——像真人一樣,陪孩子讀紙質繪本,陪孩子玩實體桌游,陪孩子用紙筆畫畫、搭真實積木,即使聊天也要能「看見」孩子。多奇的頭頂高清廣角攝像頭可以覆蓋A3紙大小的空間,前攝可以看到孩子的表情反饋。我們沒有去創造新的玩法和交互,只是把現實生活中孩子喜歡的玩法和習慣的交互,用多模態AI來重新實現了一遍。
但實體互動,是否還需要屏幕?
![]()
Attention is all LEARNING needs——為什么需要內容屏?
我們做過嚴肅的思辨和測算,最終還是決定加上屏幕。原因就是:注意力,是所有學習的前提/Attention, is all LEARNING needs——一個抓不住孩子注意力的老師,再淵博的知識也無從輸入。
我在 2019 年設計大力臺燈時曾經歷過一個典型案例:起初完全依賴語音指令操作,即使是 7、8 歲的孩子,次月留存只有 30% 多,而加上了UI界面引導,次月留存達到70+%。就像Duolingo說的,沒有留存,再好的學習產品也沒有用。無法抓住孩子的注意力,再好的內容也沒有意義。
![]()
屏幕的不可替代性(優點)和家長的擔憂(缺點)都在于:注意力。
- 屏幕的優點:屏幕可以顯著提高知識傳遞效率,所謂「一圖勝千言」,在講解一個單詞的意思、一個桌游的規則時,再清晰生動的語言,也抵不過一張圖的直白;視覺是靜默的引導,屏幕能引導孩子在不知道干什么時,快速找到交互入口;同時,屏幕是機器人的“表達器官”,人與人交流非語言信息占了 70%,對于手腳不利索的機器人,屏幕就是它最核心的表達器官;
- 屏幕的缺點:傷眼睛,一直是中國父母眼里視屏幕為洪水猛獸的原因(其實不是,近視的主因是缺乏日照和運動)。其實真正的問題在于:傷害注意力保持能力——視頻、游戲等為成年人設計內容的快節奏強刺激,會提高孩子保持注意力所需要的刺激閾值。當孩子再讀靜態紙書或者面對實體空間的操作時,注意力的保持就會出現困難。
用好屏幕:讓孩子的注意力在「實體內容」和「虛擬內容」之間合理分配——比如虛實結合的桌游;并做好用眼和時長的管理——比如距離提醒和時間管控。
![]()
Attention is all LEARNING needs——為什么需要表情屏,還要和內容屏分開?
有一個設計陪伴產品的重要洞察:情感也是(長期)注意力保持的有效手段。因此我們做了一個很多同類產品沒有認真對待的設計決策:把表情屏和內容屏分開。
人類是喜歡看臉的,表情傳遞的情緒可以吸引人的注意。上一代機器人很多是腦袋上頂著一塊Pad,表情和內容共用同一塊屏幕——這意味著孩子要在機器人伙伴「臉上」看故事、玩游戲,一旦玩起來伙伴就「沒有臉」了。一個內容導向的陪伴產品,大部分時間都無法通過表情和孩子保持情感交流,是不可接受的。分開的屏幕,讓多奇在陪伴孩子消費內容的時候,依然能夠保持「有臉」,依然是那個有表情、有情緒、在關注你的伙伴。
建立陪伴關系,而非用后就走的工具——為什么需要可愛的形象?
過去2年經常被問到一個問題:所有這些硬件AI能力——視覺感知、聽覺識別、語言表達、內容展示——在手機、Pad、帶屏音箱上理論上都具備了,為什么不做個App?為什么一定要放進一個有形象的實體機器人里?
答案在于孩子的認知方式。孩子在兒童階段,習慣以角色代入的方式理解世界。為什么故事是最有效的學習載體——在故事里,一個吸引人的角色展開知識、講述道理,效果遠好于成年人的說教。一個萌萌可愛形象的伙伴,以孩子視角、孩子語言溝通,可以「同伴」身份與孩子迅速建立關系,這種關系本身就是學習和成長最重要的土壤。
情緒是人的底層操作系統。孩子的前額葉還在發育,情緒的穩定性和自我調節能力都弱。有形象、有情感表達的機器人,能夠在孩子情緒波動的時刻提供安撫和調節,把孩子的狀態拉回到適合學習的區間——這是學習機和Pad永遠做不到的事情。
所以,多奇,一個坐在孩子面前,陪孩子一起讀書、玩游戲,能看懂、能聽懂、能表達的機器人伙伴——就是我們對兒童陪伴機器人「元型」思考的結果。
我們踩過的坑,和找到的PMF
產品從來不是在白板上設計出來的。過去兩年,我們做了數百個家庭的實驗和持續迭代,以下幾個方向的探索,是我們最重要的一手認知。
純語音對話的能力和動機都不夠,過家家才行
AI大模型的出現讓自然語言對話體驗有了質的飛躍,這讓很多人認為「語音交互」將成為下一代兒童設備的主要形態。我們也做了大量測試,2023年10月我們用真人線上扮演AI來模擬與孩子的語音對話。結論令人清醒:即使是“媲美真人”的語音交互,孩子的能力、動機和話題都是有限的,很快就會枯竭。
但我們觀察到一個截然不同的現象:當孩子做角色扮演游戲(過家家)的時候,一個人也可以自言自語地玩很久。但這種玩法必須結合實體互動,純聊天的方式也玩不下去。因為實體空間里的動作和環境本身就承載了大量信息:讓玩偶躺下代表睡覺,在空中移動代表行走,走到地圖的森林就代表進入了森林——孩子只需要專注在角色和劇情里思考和表達,話匣子就自然打開了。
這是我們重要的產品洞察和找到的第一個PMF:純語音聊天對孩子不適合,但實體+多模態的角色扮演游戲,是孩子天然擅長且樂此不疲的交互方式。
![]()
AI繪本閱讀:技術成熟窗口帶來的爆發
讀繪本是孩子最喜歡、重復度最高的活動之一,但它極其耗費父母的時間、耐心和專業知識。我們在2024年就嘗試過AI繪本閱讀,但當時的多模態大模型能力還無法支撐一個足夠好的體驗。我們嘗試過多個AI模型拼接,試了好幾個月,最終還是放棄了。到了2025年下半年,多模態大模型有了突飛猛進的發展。我們重新拾起這個方向,讓多奇「什么書都能讀」——現場識別文字和圖,結合孩子的興趣擴展講讀、問答,媲美真人閱讀。AI繪本閱讀一經推出就成為了最受媽媽歡迎、使用頻次最高的功能之一。
文生圖進入對話:意外發現的機器人「肢體語言」
我們的工程師把一個輕量的開源文生圖模型部署在了機器人本地,做到了在孩子說完一句話后一兩秒內,就把剛才聊到的內容生成為一張對應的圖片。一經實現,角色扮演、英語對話的時長就大幅增長——有孩子說,「多奇聽懂我說的話了,我也能聽懂它了」
如果說「屏幕是機器人的表達器官」,那AI即時生圖其實是給了機器人一種「非語言的語言」,是機器人的肢體語言,甚至比真正的肢體語言更生動、更具感染力。
![]()
市場驗證:產品進入正向循環
2026年1月,多奇在京東首發,登上機器人首發榜單第二名。截至目前,全平臺訂單超2萬臺,用戶好評率達99%,230余個線下體驗觸點覆蓋書店、機場專賣店和教育機構。
更重要的數據來自很多用戶:4歲的孩子活躍天數超過130天、英語開口次數累計超過780次;6歲大孩子在使用多奇120天后,單詞認讀從排斥到主動求學,每天使用時長30分鐘。
一位家長寫道:「最驚喜的是游戲化學習,娃為了通關主動說英語,開口次數比之前半年加起來都多。」
![]()
![]()
舊范式的天花板:Hardcoding永遠追不上孩子的想象力
有了規模化的用戶數據后,我們很快遇到了一個用傳統產品思維無法繞過的瓶頸。
傳統的開發范式是:產品經理定義玩法 → 工程師寫死規則 → 發版更新 → 發現用戶更多長尾需求 → 再排序評估優先級。這套范式在成人產品里已經足夠高效,但放到兒童產品里,會遇到一個根本性的矛盾:
孩子越小,越愿意在自己的規則世界里玩。喜歡臨場發明場景,道具、語言、情緒、節奏全部實時變化。
我們在用戶調研中發現,孩子對游戲內容的消化速度比我們預期的快得多——一個季度就能打穿目前的教學內容設計。更重要的是,每個孩子都獨一無二,知識能力、情緒偏好差異極大;媽媽們的需求也非常長尾碎片,單一標準化設定無法滿足個體的獨特需要。
用傳統App思維做兒童產品,在交付節奏和個性化上,注定越來越難追上用戶和時代的節奏。這不是努力程度的問題,而是范式的問題。
解決這個問題,需要一次底層的范式轉變。
從工具到伙伴:Duoki OS與自進化機器人
2026年,大模型從ChatUI走向多模態感知、Agentic OS和工具調用。因為我們對「陪伴機器人元型」的思考設計,多奇是市面上少數具備完整硬件能力(除了運動以外)的陪伴機器人,這讓多奇的硬件底座有機會率先接住這一次技術躍遷的能量。
打通「任督二脈」:讓AI自主調度身體器官
多奇的硬件內置了豐富的感知與表達模塊:頂前雙攝(視覺多模態,識別桌面、表情、道具)、實體屏幕(把反饋從語音變成可看、可玩、可確認)、陀螺儀與按鈕(姿態、動作、手心確認,讓游戲進入物理世界)、麥克風與TTS(聲音的輸入和輸出)。
過去,這些模塊都被固定代碼寫死——攝像頭只能做某幾種識別,屏幕只能顯示預設的界面,按鍵只能觸發固定邏輯。而現在,我們正在把這些硬件能力封裝為可被AI直接調用、通信和自主組合的能力——它們不再是控件,而是各種「身體器官」。
當AI可以自主調度這些器官時,奇妙的事情發生了:孩子說「我們來玩一個恐龍找食物的游戲」,AI可以在當場調用攝像頭識別桌面上的玩具,調用屏幕生成一個即時的恐龍場景,調用麥克風進行口語互動,調用陀螺儀感應孩子的動作——一個從未被預設過的游戲,就這樣在幾十秒內從想象變成了現實。
Dreaming Mode:機器人在孩子睡覺時繼續成長
![]()
但讓多奇真正區別于其他AI產品的,是我們正在構建的「自進化」機制——我們稱之為Dreaming Mode。
真正的住家老師,不是只來過一次的臨時代課老師,而要對特定的孩子記住、觀察、反思、迭代。而這個老師也不是搬運內容的個體老師,還有一整個教研+產品研發團隊來為她定制需要的內容和工具。
具體來說,這套機制分三個階段:
- 白天「邊看」:孩子真實使用時,多奇記錄錯誤率、興趣點、專注度、互動偏好和情緒閾值,積累真實的行為上下文。
- 夜間「邊想」:孩子休息后,多奇整理當天記憶,對齊長期上下文,生成明天的互動策略——比如,昨天恐龍繪本讀得津津有味,討論過霸王龍的生活,那么今天清晨多奇就生成一個「營救小霸王龍」的復習單詞小游戲。
- 清晨「邊改造」:交付家長報告、提醒策略和新的即時應用,第二天繼續驗證。
Dreaming Mode:機器人在人休息時繼續整理經驗,第二天變得更懂孩子。
這套機制的核心價值,是讓多奇從「開箱即用的AI小外教」,真正走向「共同生活的自進化機器人」——它不再是一個內容消費工具,而是一個會隨著每個孩子獨特成長軌跡而不斷進化的伙伴。
Duoki OS:面向兒童機器人的Agentic底座
支撐這一切的,是我們正在構建的軟件底座——Duoki OS。它的核心能力鏈條是:感知環境(物理上下文)→理解偏好(興趣與主題)→感知情緒(閾值與節奏)→調整玩法(即時生成)。
在Duoki OS上,我們部署了一整個Agent Team:伙伴Agent了解孩子的喜好;教育規劃Agent了解家長的期待偏好,掌握專業的學科知識和學習路徑;語言老師或興趣老師Agent,和PM、Coder Agent一起,負責把想法翻譯成可運行的應用——從「讀繪本」到「生成一個練習10以內加減法的太空主題游戲」,從孩子的一句話到屏幕上可以玩的程序,整個鏈路在幾十秒內完成。
![]()
開放創造:當AI讓每個家庭都能定制自己的多奇
這套Agentic能力的開放,讓我們看到了一個比單純「陪伴機器人」更大的圖景——它是「創造」這個維度在2026年真正可以落地的方式。
從「內容消費」到「即時共創」
以繪本閱讀為例,多奇能做到的已經不只是「讀給孩子聽」。在我們正在打磨的理想圖景里,孩子讀完一本《月球冒險》,多奇讀懂主題,提取關鍵詞匯,陪孩子圍繞月球主題做3到5輪對話,然后把孩子的薄弱詞匯變成一個專屬闖關小游戲,再把得分和學情回傳給家長報告。從被動閱讀到主動表達,從內容消費到游戲化創造,每個環節都由AI即時重構,不需要任何預設的內容包。
這就是我們說的「即時應用(Instant App)」:不是從內容庫里調取,而是根據孩子當下的狀態和需求,實時生成。這對傳統學習機來說,是一道不可逾越的鴻溝;但對于硬件完備、軟件底座扎實的AI原生機器人來說,它正在成為可能。
開放平臺:讓每個家庭都成為內容創作者
更進一步的故事,是我們正在構建的開放創造生態。
孩子的創造力,往往首先通過最近的榜樣——父母——被激活。當一個媽媽在家長端對多奇說:「做一個練習10以內加減法的游戲,孩子喜歡太空主題,用左右鍵選答案」,多奇的PM Agent理解教學目標,Coder Agent生成交互邏輯,幾十秒后,一個專屬于這個孩子的小游戲就出現在屏幕上——當場可玩。媽媽不需要會編程,不需要理解產品邏輯,只需要知道自己的孩子。
![]()
我們把硬件的各種傳感器能力和通用軟件能力,以MCP接口的形式開放出來,讓AI Coding能夠直接調用。這樣做有兩個維度的價值:對內,我們自己的開發成本大幅降低,原本需要數周的功能迭代可以在數天內完成;對外,它意味著任何人——有教學心得的育兒達人、英語啟蒙領域的名師、甚至是有想法的家長——都可以基于這個平臺,把自己的教育理念變成孩子可以玩的游戲和應用。
這套邏輯最終通向一個技能市場(Skills Marketplace):英語啟蒙達人、數理啟蒙名師、兒童教育專家有教學心得但不一定會寫代碼,多奇的PM Agent+Coder Agent把這些專業經驗翻譯成可運行的技能包,在技能市場流通。
AI時代孩子創造力的真正釋放
我們在第五部分講到,「創造」是孩子內容需求的最高層次,也是最難被滿足的一層。過去,創造需要兩個前提:一個低門檻的工具,和一個能給出即時、有質量反饋的引導者。現在,這兩個前提同時成立了。
AI Coding讓孩子的想法變成可運行的應用,多模態感知讓機器人真正看見孩子在做什么,Dreaming Mode讓機器人記住孩子的偏好并持續進化——這三件事疊加在一起,才構成了真正意義上的「創造力培養飛輪」:孩子創造 → AI感知并給出反饋 → 成就感激發更多創造欲 → 機器人夜間整理,第二天生成更好的引導 → 孩子更愿意創造。
在我們看來,這不是一個教育工具的功能升級,而是一個新物種的誕生:第一臺真正意義上,能夠隨著孩子成長而進化、能夠激發孩子創造力而非被動輸入內容的兒童智能伙伴。
機器人 vs 學習機/Pad:維度差異,而非功能競爭
這個問題被投資人經常問到,也是用戶會有的核心疑問。我們的判斷是:機器人是比學習機和Pad更高維度的產品形態。
所謂更高維度,是說機器人包含了學習機和Pad的全部內容工具屬性,但在此之上還有它們沒有的能力。
如果機器人具備和學習機同等大小甚至更大的內容展示能力,那么學習機能做的事情幾乎都可以在機器人上實現。但機器人還具備實體空間的多模態感知能力,它的身體形態本身可以作為角色扮演游戲的載體,它可以參與孩子在三維空間里的身體互動,它可以成為孩子的「伙伴」而不只是「工具」。
最關鍵的差異在于情緒和自進化兩個層面。
情緒是人的底層操作系統——一個孩子在情緒崩潰的時候,所有的認知輸入通道都是關閉的。學習機和Pad沒有情緒感知,沒有情感陪伴,當孩子狀態不好的時候,它們束手無策。而機器人,如果真正建立了與孩子的情感關系,就可以先穩定孩子的情緒,再引導學習和創造。
自進化則是另一個更長期的維度。學習機的內容是固定的,Pad的App是通用的,它們都不認識你家這一個孩子。但多奇的Dreaming Mode讓它每天都在進化——它越來越認識這個孩子,越來越知道什么時候講恐龍、什么時候切換到輕松話題、什么程度的英語挑戰最能讓孩子感到成就感。這種持續積累的「懂你」,是學習機永遠無法復制的。
陪伴(情緒)→學習→創造:這三者之間有內在的邏輯鏈條。情緒是基礎,學習是路徑,創造是目的地。而自進化,是貫穿全程的生命力。
我們相信這件事值得做
做兒童產品,有一個獨特的體驗:你永遠知道你做的事情是有意義的。每一次看到孩子和多奇互動時眼睛里的光,每一次看到孩子用多奇完成了一次英語表達、讀完了一本繪本、創作出了一個自己的故事,我們都會更加確信這件事值得做。
這個市場的時機,也從未像今天這樣清晰。多模態AI的能力已經足以支撐真正有質量的即時互動;Agentic OS讓「即時生成玩法」從設想變成了可運行的產品;實體機器人的硬件成本已經降低到可以做出有形象、有內容、有交互的產品;中國家長對教育和創造力培養的需求達到了前所未有的高度;而「兒童AI原生硬件」這個品類,依然是一片真正意義上的藍海。
我們在2026年的產品演進方向,也正在回答一個更大的問題:當AI能夠讓硬件自我進化,當每個家庭都能參與定制屬于自己孩子的伙伴,當一臺機器人在孩子睡著之后還在為明天的陪伴做準備——孩子與AI的關系,將從「使用工具」變成「與伙伴共同成長」。
這是我們最想做成的事。
——奇點靈智·多奇團隊 徐毅斐
寫于2026年六一前
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.