網易首頁 > 網易號 > 正文申請入駐

首發不到半年訂單超萬臺，這支團隊打造可自進化的兒童陪伴機器人

2026-06-16 16:05:12　來源: 芥末堆看教育

河南舉報

分享至

2026年初，市面上出現了一款新的兒童陪伴機器人，一經發布就登上機器人首發榜單第二名。截至目前，該產品全平臺訂單已超2萬臺，230余個線下體驗觸點覆蓋書店、機場專賣店和教育機構。

從外形看，這款名為多奇的機器人外觀可愛，搭載一個屏幕，家長可能會問：這是把小型平板嵌在玩偶里了嗎？

實則不然，多奇的屏幕是表達器官，是讓機器人成為有表情、有情緒、關注孩子的實體伙伴的不可缺少的重要部分。孩子可以與多奇一同學習英語，閱讀繪本，玩游戲，過家家。

在AI能力大幅躍遷后，多奇不再滿足于只當個AI小外教，而是成長為與孩子共同生活的自進化機器人伙伴。

談及多奇背后的創始團隊，相信大家一定不陌生，他們在教育領域有很深的積淀。核心團隊均來自清華大學，創始人、CEO兼技術負責人包塔，聯合創辦了網易有道，曾推出月活千萬的“網易有道詞典”；聯合創始人兼產品負責人徐毅斐，也就是本文的作者，曾擔任字節跳動“大力智能臺燈”的平臺產品負責人；聯合創始人兼市場負責人胡琛，和包塔同為網易有道聯合創始人。

這次，讓我們切換到這支創始團隊的視角，看看打造一款真正適合孩子使用的機器人都會經歷哪些思考、探索、取舍與創新？會踩哪些坑？

文章篇幅較長，相信讀完之后一定會對多奇和兒童陪伴機器人有全面且深度的了解。

被智能革命遺忘的那個人群

快2030年了。AI的智能水平正在逼近人類的邊界，人類社會正在經歷有史以來最劇烈的一次技術變革。但有一個群體，幾乎被這場變革遺忘了——那就是孩子，尤其是學齡前的孩子。

從90年代的個人電腦，到互聯網、移動互聯網，再到今天的AI時代，三十年間，我們經歷了多輪智能設備的迭代。成年人擁有了電腦和手機，老人有了智能音箱，連寵物都有了智能喂食器。但孩子呢？

故事機，本質上是上世紀收音機的數字化；點讀筆和學習機，是教材的電子化；小天才手表，除了定位和通話功能，和能養電子寵物的電子表并沒有本質飛躍。而在新生人口下降的現在，這些產品每年還有超4000w的銷量。

我平均每一兩年都會去逛一趟上海的玩具展，過去七八年，展臺上的東西換了一茬又一茬，不變的是毛絨加塑料加電子，變的只是IP。25年終于有了一個關于「智能技術」的展區，但和我們成人世界的產品變革相比，差距依然觸目驚心。

這不是一個小問題。在解決溫飽之后，全世界的父母都把教育、陪伴、成長放在家庭最核心的位置。但在AI時代，我們依然無法給孩子，尤其是學齡前的孩子，提供一臺真正適合他們的智能終端。這是一個巨大的時代空白。

所有人都答錯了這道題

要理解這個空白，需要先定義「孩子的智能設備」應該滿足什么條件。回看成人世界里的標志性智能設備——電腦和手機——它們的共同關鍵詞是：個人擁有、方便操作、內容消費、生產創造。對應到孩子，還需要加上一條：安全科學，讓成年人放心。

用這把尺子來衡量現有產品，會發現一個共同的結論：所有現有設備都只是不同程度的近似答案，沒有一個是真正的解。

iPad：最接近，但本質上是一個虛擬平面世界

iPad在直覺交互和內容豐富度上的表現幾乎無可挑剔。2010年，當喬布斯把那塊大號iPhone亮出來的那天，我就意識到，一歲多的孩子都能用手指點觸找到自己想看的動畫片——這是前所未有的。也是這塊屏幕，驅動了我進入兒童產品領域。

但iPad不是答案，原因并不是「有屏幕傷眼睛」。真正的問題是：觸屏是一個平面的世界。人類是從三維空間里進化來的。孩子從出生起就在三維世界里接受訓練：用手觸摸、用眼追蹤、用身體感受物理特性。平面世界里，孩子無法感受所見事物的物理質感，無法鍛煉手部精細動作與手眼腦的協調。更根本的是，它的「安全科學」評分幾乎為零——沒有任何父母能對孩子用iPad真正放心。

智能音箱：信息通道太窄，使用門檻太高

我在結束上一次創業后，第一份工作就是在一家智能音箱公司，試圖做一個交互能力更強的兒童故事機。但很快發現，純語音交互對孩子而言遠比想象的困難。行業數據顯示，無屏音箱的次月留存率低于20～30%；相比之下，帶屏音箱的月留存率高達70%～80%。這個差值背后有清晰的邏輯：語音是一個信息通道狹窄但使用門檻極高的信息處理方式。人從「聽到」到「理解」再到「表達」，調動的神經、肌肉資源遠超手指點一下屏幕。這個門檻對語言系統尚未發育成熟的孩子來說，尤其具有挑戰性。

手表：需求是真的，但載體是將就

小天才手表是兒童硬件里繞不過去的研究案例。但它的邏輯值得細看：本質上，小天才是父母對孩子的「安全掌控需求」——定位+通訊——催生的產品，孩子的社交需求是借助這個唯一可觸達的智能平臺自然生長出來的。孩子樂此不疲地用那個小小的屏幕，只是因為那是他們唯一自己能掌控的智能終端，不是因為手表是最好的形態。

手機與眼鏡：錯配的形態

手機的屏幕已經足夠大，但手持終端并不適合學齡前的孩子：他們的具身智能尚未發育成熟，前額葉注意力分配、手部精細動作的能力都遠不如成人，無法在「移動」場景中使用。

VR/AR眼鏡就更不用說——10歲甚至12歲以前的孩子，眼睛和視覺系統的發育都尚未成熟，當前的光學成像質量連成人都無法持續佩戴，遑論孩子。

這就是這個市場的現狀：需求巨大且明確，現有產品都是將就，沒有一個是真正的答案——兒童個人智能終端的產品「元型」尚未出現

“產品元型”(Product Archetype) 不是指傳統意義上的“產品原型”(Prototype)—— 后者是產品的早期可測試版本，而前者是對一個品類最根本、最本質、最經得起時間考驗的形態定義。它回答的是一個終極問題：這個東西到底應該是什么樣子？它存在的根本理由是什么？

做有用的陪伴，是最重要的產品哲學

在決定做多奇之前，我們做了一件事：認真想清楚，「兒童陪伴機器人」到底能解決什么問題，不能解決什么問題。

大多數人對陪伴機器人的想象，是可愛的外觀、能動的四肢、豐富的表情、流暢的對話——因為這是對真實的人或寵物的完整想象。但我們很早就確立了一個核心判斷：

情感陪伴不足以支撐兒童陪伴機器人的產品價值。

這并不是說情感陪伴不重要。而是：第一，在一個正常家庭里，孩子的情感陪伴應該來自父母和身邊的人；第二，一個活生生的人或動物，即使不說話，因為它是有溫度的生命，本身就能產生情感共鳴。機器人做不到這一點——它的情感表達離真人或寵物還有很遠的距離，很難激發孩子真正的情感依托。

所以我們提出的產品定義是：做有用的陪伴——“有用”是 1，情緒價值是后面的 0。

「有用」聽起來有些功利，但這是所有父母的真實心聲。而且有一個重要的邏輯鏈條：一個機器人，只有當它足夠「有用」，它才會被留在孩子身邊足夠長的時間；只有陪伴足夠長，才有機會積累互動、建立情感、形成真正的關系。所以我們認為，功能有用是基礎，情緒價值和情感陪伴是有用的副產品——而不是反過來。

這個判斷，決定了多奇后續幾乎所有的產品設計方向。

孩子的需求地圖：找到最大的機會窗口

理清了「有用」這件事，接下來的問題是：對孩子來說，什么是最有用的？除去吃喝拉撒的基本生存需求，兒童的所有需求可以歸為三類：安全、健康、教育與娛樂。

安全：剛需，但偶發

安全需求很好理解——確保孩子不丟失、遠離危險。這正是小天才手表的切入點，它用定位加通訊解決了父母的最核心焦慮。室內安全監控是陪伴機器人可以探索的方向，但在家庭這樣的多空間復雜環境里確保一個調皮孩子的安全，難度遠超在孩子身上加個“定位器”，目前還難以系統性實現。

健康：重要，但時段固定

健康包括生活/學習習慣和運動習慣兩大塊。陪伴機器人理論上可以做到的，是以伙伴的身份對孩子進行提醒和引導——因為來自一個「平等玩伴」的建議，有時候比父母和老師的要求更容易被孩子接受。但培養并長期維持一個孩子的習慣，絕不是當前AI/機器人輕而易舉能做到的事。

教育與娛樂：全天候的剛需

我把教育和娛樂放在一起，因為對孩子來說，好的學習本來就是快樂的，兩者不應該對立。孩子醒著的十幾個小時，除去睡眠、吃喝拉撒的約兩個小時，剩下大約十二個小時，都在源源不斷地需要內容輸入。從「剛需程度 x 需求頻次」的維度，偶發的安全、2小時/天的健康，與持續十二小時的教育娛樂相比，結論不言而喻：教育與娛樂，是兒童智能設備最大的機會窗口

這就是為什么我們認為，內容能力是陪伴機器人最核心的競爭力。那些能走路、能做各種表情的酷炫機器人，孩子往往玩不了多久——因為它的所有可能性很快就會被孩子窮舉完。但內容不一樣，孩子對好內容的消費沒有止境。而且安全、健康，當前產品技術PMF無法達成，而AI大模型正在重塑整個內容行業。

孩子真正需要的內容：從消費到互動到創造

更深入地看，孩子對內容的需求可以分為三個層次，這三個層次也構成了多奇產品能力建設的路線圖，并將驅動我們接下來最重要的產品演進。

第一層：內容消費

沉浸式的內容——故事、音樂、動畫、游戲——這個市場已經非常成熟。從故事機到繪本閱讀機，從點讀筆到學習機，孩子不缺可以消費的內容。這是陪伴機器人的基礎能力，但不是差異化所在。

第二層：即時互動，但不僅僅是對話

這是孩子最渴望、也最稀缺的一類內容體驗。孩子需要的不只是被動接收信息，而是有人（或有東西）能夠及時響應他的好奇心、接住他的表達、給出有質量的反饋。無論是孔子的言傳身教，還是蘇格拉底的對話式教學，本質上都是這種即時互動。但它的供給極度稀缺——父母要么沒有時間精力，要么沒有足夠的知識儲備，要么無法降下認知去理解孩子當下所處的認知水平。

這正是AI大模型帶來的最大機會。AI擁有超越任何人類個體的知識儲備，“理論上”了解不同年齡段孩子的認知特點，能夠以自然語言、生圖、編排游戲給予即時響應，而且足夠耐心、足夠平等——它不會因為孩子「問了個可笑的問題」而不耐煩。從我們大量的產品用戶測試來看，AI在引導孩子注意力、管理孩子情緒，甚至和孩子講道理方面，已經不輸于經驗不那么充分的成年人。

第三層：創造——也是人類智能最高階的領地

創造力是人類智能最后也是最高階的領地。每個孩子天生就有創造力，但這種能力需要被看見、被激發、被引導。

創造本質上是一種交互：你對事物做出一點改動，世界給你一些反饋。這就是為什么孩子喜歡紙筆、沙子、泥巴、積木以及Minecraft——這些工具的上手門檻極低，任何微小的改變都會即時產生反饋，但創作的上限又極高。最好的創造工具，是低門檻、高上限、有即時反饋的。

但問題在于：過于簡單的工具缺乏有質量的互動引導——孩子拿著蠟筆在紙上涂抹，很快就會卡住。真正能激發創造力的，是在恰當的時機給予恰當的引導——就像一個好的藝術老師，能夠在孩子隨意畫下的幾條線條上稍加點撥，讓孩子突然發現眼前冒出了一只活靈活現的小動物。這種Aha moment，是真正激發內在成就感和創造欲的關鍵時刻。這種互動引導，恰恰是AI多模態能力最有潛力承接的場景。

在AGI時代，品味和創造力是人類智能最后可以引以為傲的領地。中國近年來的科技產業升級、教育改革反復強調科技創新、創造力培養，對創造性人才的需求到了前所未有的高度。

「創造」這一層，不僅是孩子發展的需要，也是我們產品演進最重要的方向指針。

為什么答案是「實體機器人」以及它的「元型」設計

實體互動而非純屏幕：三維世界里的大腦

人類從三維世界進化而來，孩子的大腦從出生起就在實體空間里接受訓練。在接觸屏幕之前，孩子已經在三維世界里摸爬滾打了一到兩年——用手和身體觸摸、鼻子嗅聞、嘴巴品嘗、感受物理質感，這種多感官的刺激對大腦發育是最健康、最有效的。

所以，多奇主張「回歸真實空間的互動」——像真人一樣，陪孩子讀紙質繪本，陪孩子玩實體桌游，陪孩子用紙筆畫畫、搭真實積木，即使聊天也要能「看見」孩子。多奇的頭頂高清廣角攝像頭可以覆蓋A3紙大小的空間，前攝可以看到孩子的表情反饋。我們沒有去創造新的玩法和交互，只是把現實生活中孩子喜歡的玩法和習慣的交互，用多模態AI來重新實現了一遍。

但實體互動，是否還需要屏幕？

Attention is all LEARNING needs——為什么需要內容屏？

我們做過嚴肅的思辨和測算，最終還是決定加上屏幕。原因就是：注意力，是所有學習的前提/Attention, is all LEARNING needs——一個抓不住孩子注意力的老師，再淵博的知識也無從輸入。

我在 2019 年設計大力臺燈時曾經歷過一個典型案例：起初完全依賴語音指令操作，即使是 7、8 歲的孩子，次月留存只有 30% 多，而加上了UI界面引導，次月留存達到70+%。就像Duolingo說的，沒有留存，再好的學習產品也沒有用。無法抓住孩子的注意力，再好的內容也沒有意義。

屏幕的不可替代性（優點）和家長的擔憂（缺點）都在于：注意力。

屏幕的優點：屏幕可以顯著提高知識傳遞效率，所謂「一圖勝千言」，在講解一個單詞的意思、一個桌游的規則時，再清晰生動的語言，也抵不過一張圖的直白；視覺是靜默的引導，屏幕能引導孩子在不知道干什么時，快速找到交互入口；同時，屏幕是機器人的“表達器官”，人與人交流非語言信息占了 70%，對于手腳不利索的機器人，屏幕就是它最核心的表達器官；
屏幕的缺點：傷眼睛，一直是中國父母眼里視屏幕為洪水猛獸的原因（其實不是，近視的主因是缺乏日照和運動）。其實真正的問題在于：傷害注意力保持能力——視頻、游戲等為成年人設計內容的快節奏強刺激，會提高孩子保持注意力所需要的刺激閾值。當孩子再讀靜態紙書或者面對實體空間的操作時，注意力的保持就會出現困難。

用好屏幕：讓孩子的注意力在「實體內容」和「虛擬內容」之間合理分配——比如虛實結合的桌游；并做好用眼和時長的管理——比如距離提醒和時間管控。

Attention is all LEARNING needs——為什么需要表情屏，還要和內容屏分開？

有一個設計陪伴產品的重要洞察：情感也是（長期）注意力保持的有效手段。因此我們做了一個很多同類產品沒有認真對待的設計決策：把表情屏和內容屏分開。

人類是喜歡看臉的，表情傳遞的情緒可以吸引人的注意。上一代機器人很多是腦袋上頂著一塊Pad，表情和內容共用同一塊屏幕——這意味著孩子要在機器人伙伴「臉上」看故事、玩游戲，一旦玩起來伙伴就「沒有臉」了。一個內容導向的陪伴產品，大部分時間都無法通過表情和孩子保持情感交流，是不可接受的。分開的屏幕，讓多奇在陪伴孩子消費內容的時候，依然能夠保持「有臉」，依然是那個有表情、有情緒、在關注你的伙伴。

建立陪伴關系，而非用后就走的工具——為什么需要可愛的形象？

過去2年經常被問到一個問題：所有這些硬件AI能力——視覺感知、聽覺識別、語言表達、內容展示——在手機、Pad、帶屏音箱上理論上都具備了，為什么不做個App？為什么一定要放進一個有形象的實體機器人里？

答案在于孩子的認知方式。孩子在兒童階段，習慣以角色代入的方式理解世界。為什么故事是最有效的學習載體——在故事里，一個吸引人的角色展開知識、講述道理，效果遠好于成年人的說教。一個萌萌可愛形象的伙伴，以孩子視角、孩子語言溝通，可以「同伴」身份與孩子迅速建立關系，這種關系本身就是學習和成長最重要的土壤。

情緒是人的底層操作系統。孩子的前額葉還在發育，情緒的穩定性和自我調節能力都弱。有形象、有情感表達的機器人，能夠在孩子情緒波動的時刻提供安撫和調節，把孩子的狀態拉回到適合學習的區間——這是學習機和Pad永遠做不到的事情。

所以，多奇，一個坐在孩子面前，陪孩子一起讀書、玩游戲，能看懂、能聽懂、能表達的機器人伙伴——就是我們對兒童陪伴機器人「元型」思考的結果。

我們踩過的坑，和找到的PMF

產品從來不是在白板上設計出來的。過去兩年，我們做了數百個家庭的實驗和持續迭代，以下幾個方向的探索，是我們最重要的一手認知。

純語音對話的能力和動機都不夠，過家家才行

AI大模型的出現讓自然語言對話體驗有了質的飛躍，這讓很多人認為「語音交互」將成為下一代兒童設備的主要形態。我們也做了大量測試，2023年10月我們用真人線上扮演AI來模擬與孩子的語音對話。結論令人清醒：即使是“媲美真人”的語音交互，孩子的能力、動機和話題都是有限的，很快就會枯竭。

但我們觀察到一個截然不同的現象：當孩子做角色扮演游戲（過家家）的時候，一個人也可以自言自語地玩很久。但這種玩法必須結合實體互動，純聊天的方式也玩不下去。因為實體空間里的動作和環境本身就承載了大量信息：讓玩偶躺下代表睡覺，在空中移動代表行走，走到地圖的森林就代表進入了森林——孩子只需要專注在角色和劇情里思考和表達，話匣子就自然打開了。

這是我們重要的產品洞察和找到的第一個PMF：純語音聊天對孩子不適合，但實體+多模態的角色扮演游戲，是孩子天然擅長且樂此不疲的交互方式。

AI繪本閱讀：技術成熟窗口帶來的爆發

讀繪本是孩子最喜歡、重復度最高的活動之一，但它極其耗費父母的時間、耐心和專業知識。我們在2024年就嘗試過AI繪本閱讀，但當時的多模態大模型能力還無法支撐一個足夠好的體驗。我們嘗試過多個AI模型拼接，試了好幾個月，最終還是放棄了。到了2025年下半年，多模態大模型有了突飛猛進的發展。我們重新拾起這個方向，讓多奇「什么書都能讀」——現場識別文字和圖，結合孩子的興趣擴展講讀、問答，媲美真人閱讀。AI繪本閱讀一經推出就成為了最受媽媽歡迎、使用頻次最高的功能之一。

文生圖進入對話：意外發現的機器人「肢體語言」

我們的工程師把一個輕量的開源文生圖模型部署在了機器人本地，做到了在孩子說完一句話后一兩秒內，就把剛才聊到的內容生成為一張對應的圖片。一經實現，角色扮演、英語對話的時長就大幅增長——有孩子說，「多奇聽懂我說的話了，我也能聽懂它了」

如果說「屏幕是機器人的表達器官」，那AI即時生圖其實是給了機器人一種「非語言的語言」，是機器人的肢體語言，甚至比真正的肢體語言更生動、更具感染力。

市場驗證：產品進入正向循環

2026年1月，多奇在京東首發，登上機器人首發榜單第二名。截至目前，全平臺訂單超2萬臺，用戶好評率達99%，230余個線下體驗觸點覆蓋書店、機場專賣店和教育機構。

更重要的數據來自很多用戶：4歲的孩子活躍天數超過130天、英語開口次數累計超過780次；6歲大孩子在使用多奇120天后，單詞認讀從排斥到主動求學，每天使用時長30分鐘。

一位家長寫道：「最驚喜的是游戲化學習，娃為了通關主動說英語，開口次數比之前半年加起來都多。」

舊范式的天花板：Hardcoding永遠追不上孩子的想象力

有了規模化的用戶數據后，我們很快遇到了一個用傳統產品思維無法繞過的瓶頸。

傳統的開發范式是：產品經理定義玩法 → 工程師寫死規則 → 發版更新 → 發現用戶更多長尾需求 → 再排序評估優先級。這套范式在成人產品里已經足夠高效，但放到兒童產品里，會遇到一個根本性的矛盾：

孩子越小，越愿意在自己的規則世界里玩。喜歡臨場發明場景，道具、語言、情緒、節奏全部實時變化。

我們在用戶調研中發現，孩子對游戲內容的消化速度比我們預期的快得多——一個季度就能打穿目前的教學內容設計。更重要的是，每個孩子都獨一無二，知識能力、情緒偏好差異極大；媽媽們的需求也非常長尾碎片，單一標準化設定無法滿足個體的獨特需要。

用傳統App思維做兒童產品，在交付節奏和個性化上，注定越來越難追上用戶和時代的節奏。這不是努力程度的問題，而是范式的問題。

解決這個問題，需要一次底層的范式轉變。

從工具到伙伴：Duoki OS與自進化機器人

2026年，大模型從ChatUI走向多模態感知、Agentic OS和工具調用。因為我們對「陪伴機器人元型」的思考設計，多奇是市面上少數具備完整硬件能力（除了運動以外）的陪伴機器人，這讓多奇的硬件底座有機會率先接住這一次技術躍遷的能量。

打通「任督二脈」：讓AI自主調度身體器官

多奇的硬件內置了豐富的感知與表達模塊：頂前雙攝（視覺多模態，識別桌面、表情、道具）、實體屏幕（把反饋從語音變成可看、可玩、可確認）、陀螺儀與按鈕（姿態、動作、手心確認，讓游戲進入物理世界）、麥克風與TTS（聲音的輸入和輸出）。

過去，這些模塊都被固定代碼寫死——攝像頭只能做某幾種識別，屏幕只能顯示預設的界面，按鍵只能觸發固定邏輯。而現在，我們正在把這些硬件能力封裝為可被AI直接調用、通信和自主組合的能力——它們不再是控件，而是各種「身體器官」。

當AI可以自主調度這些器官時，奇妙的事情發生了：孩子說「我們來玩一個恐龍找食物的游戲」，AI可以在當場調用攝像頭識別桌面上的玩具，調用屏幕生成一個即時的恐龍場景，調用麥克風進行口語互動，調用陀螺儀感應孩子的動作——一個從未被預設過的游戲，就這樣在幾十秒內從想象變成了現實。

Dreaming Mode：機器人在孩子睡覺時繼續成長

但讓多奇真正區別于其他AI產品的，是我們正在構建的「自進化」機制——我們稱之為Dreaming Mode。

真正的住家老師，不是只來過一次的臨時代課老師，而要對特定的孩子記住、觀察、反思、迭代。而這個老師也不是搬運內容的個體老師，還有一整個教研+產品研發團隊來為她定制需要的內容和工具。

具體來說，這套機制分三個階段：

白天「邊看」：孩子真實使用時，多奇記錄錯誤率、興趣點、專注度、互動偏好和情緒閾值，積累真實的行為上下文。
夜間「邊想」：孩子休息后，多奇整理當天記憶，對齊長期上下文，生成明天的互動策略——比如，昨天恐龍繪本讀得津津有味，討論過霸王龍的生活，那么今天清晨多奇就生成一個「營救小霸王龍」的復習單詞小游戲。
清晨「邊改造」：交付家長報告、提醒策略和新的即時應用，第二天繼續驗證。

Dreaming Mode：機器人在人休息時繼續整理經驗，第二天變得更懂孩子。

這套機制的核心價值，是讓多奇從「開箱即用的AI小外教」，真正走向「共同生活的自進化機器人」——它不再是一個內容消費工具，而是一個會隨著每個孩子獨特成長軌跡而不斷進化的伙伴。

Duoki OS：面向兒童機器人的Agentic底座

支撐這一切的，是我們正在構建的軟件底座——Duoki OS。它的核心能力鏈條是：感知環境（物理上下文）→理解偏好（興趣與主題）→感知情緒（閾值與節奏）→調整玩法（即時生成）。

在Duoki OS上，我們部署了一整個Agent Team：伙伴Agent了解孩子的喜好；教育規劃Agent了解家長的期待偏好，掌握專業的學科知識和學習路徑；語言老師或興趣老師Agent，和PM、Coder Agent一起，負責把想法翻譯成可運行的應用——從「讀繪本」到「生成一個練習10以內加減法的太空主題游戲」，從孩子的一句話到屏幕上可以玩的程序，整個鏈路在幾十秒內完成。

開放創造：當AI讓每個家庭都能定制自己的多奇

這套Agentic能力的開放，讓我們看到了一個比單純「陪伴機器人」更大的圖景——它是「創造」這個維度在2026年真正可以落地的方式。

從「內容消費」到「即時共創」

以繪本閱讀為例，多奇能做到的已經不只是「讀給孩子聽」。在我們正在打磨的理想圖景里，孩子讀完一本《月球冒險》，多奇讀懂主題，提取關鍵詞匯，陪孩子圍繞月球主題做3到5輪對話，然后把孩子的薄弱詞匯變成一個專屬闖關小游戲，再把得分和學情回傳給家長報告。從被動閱讀到主動表達，從內容消費到游戲化創造，每個環節都由AI即時重構，不需要任何預設的內容包。

這就是我們說的「即時應用（Instant App）」：不是從內容庫里調取，而是根據孩子當下的狀態和需求，實時生成。這對傳統學習機來說，是一道不可逾越的鴻溝；但對于硬件完備、軟件底座扎實的AI原生機器人來說，它正在成為可能。

開放平臺：讓每個家庭都成為內容創作者

更進一步的故事，是我們正在構建的開放創造生態。

孩子的創造力，往往首先通過最近的榜樣——父母——被激活。當一個媽媽在家長端對多奇說：「做一個練習10以內加減法的游戲，孩子喜歡太空主題，用左右鍵選答案」，多奇的PM Agent理解教學目標，Coder Agent生成交互邏輯，幾十秒后，一個專屬于這個孩子的小游戲就出現在屏幕上——當場可玩。媽媽不需要會編程，不需要理解產品邏輯，只需要知道自己的孩子。

我們把硬件的各種傳感器能力和通用軟件能力，以MCP接口的形式開放出來，讓AI Coding能夠直接調用。這樣做有兩個維度的價值：對內，我們自己的開發成本大幅降低，原本需要數周的功能迭代可以在數天內完成；對外，它意味著任何人——有教學心得的育兒達人、英語啟蒙領域的名師、甚至是有想法的家長——都可以基于這個平臺，把自己的教育理念變成孩子可以玩的游戲和應用。

這套邏輯最終通向一個技能市場（Skills Marketplace）：英語啟蒙達人、數理啟蒙名師、兒童教育專家有教學心得但不一定會寫代碼，多奇的PM Agent+Coder Agent把這些專業經驗翻譯成可運行的技能包，在技能市場流通。

AI時代孩子創造力的真正釋放

我們在第五部分講到，「創造」是孩子內容需求的最高層次，也是最難被滿足的一層。過去，創造需要兩個前提：一個低門檻的工具，和一個能給出即時、有質量反饋的引導者。現在，這兩個前提同時成立了。

AI Coding讓孩子的想法變成可運行的應用，多模態感知讓機器人真正看見孩子在做什么，Dreaming Mode讓機器人記住孩子的偏好并持續進化——這三件事疊加在一起，才構成了真正意義上的「創造力培養飛輪」：孩子創造 → AI感知并給出反饋 → 成就感激發更多創造欲 → 機器人夜間整理，第二天生成更好的引導 → 孩子更愿意創造。

在我們看來，這不是一個教育工具的功能升級，而是一個新物種的誕生：第一臺真正意義上，能夠隨著孩子成長而進化、能夠激發孩子創造力而非被動輸入內容的兒童智能伙伴。

機器人 vs 學習機/Pad：維度差異，而非功能競爭

這個問題被投資人經常問到，也是用戶會有的核心疑問。我們的判斷是：機器人是比學習機和Pad更高維度的產品形態。

所謂更高維度，是說機器人包含了學習機和Pad的全部內容工具屬性，但在此之上還有它們沒有的能力。

如果機器人具備和學習機同等大小甚至更大的內容展示能力，那么學習機能做的事情幾乎都可以在機器人上實現。但機器人還具備實體空間的多模態感知能力，它的身體形態本身可以作為角色扮演游戲的載體，它可以參與孩子在三維空間里的身體互動，它可以成為孩子的「伙伴」而不只是「工具」。

最關鍵的差異在于情緒和自進化兩個層面。

情緒是人的底層操作系統——一個孩子在情緒崩潰的時候，所有的認知輸入通道都是關閉的。學習機和Pad沒有情緒感知，沒有情感陪伴，當孩子狀態不好的時候，它們束手無策。而機器人，如果真正建立了與孩子的情感關系，就可以先穩定孩子的情緒，再引導學習和創造。

自進化則是另一個更長期的維度。學習機的內容是固定的，Pad的App是通用的，它們都不認識你家這一個孩子。但多奇的Dreaming Mode讓它每天都在進化——它越來越認識這個孩子，越來越知道什么時候講恐龍、什么時候切換到輕松話題、什么程度的英語挑戰最能讓孩子感到成就感。這種持續積累的「懂你」，是學習機永遠無法復制的。

陪伴（情緒）→學習→創造：這三者之間有內在的邏輯鏈條。情緒是基礎，學習是路徑，創造是目的地。而自進化，是貫穿全程的生命力。

我們相信這件事值得做

做兒童產品，有一個獨特的體驗：你永遠知道你做的事情是有意義的。每一次看到孩子和多奇互動時眼睛里的光，每一次看到孩子用多奇完成了一次英語表達、讀完了一本繪本、創作出了一個自己的故事，我們都會更加確信這件事值得做。

這個市場的時機，也從未像今天這樣清晰。多模態AI的能力已經足以支撐真正有質量的即時互動；Agentic OS讓「即時生成玩法」從設想變成了可運行的產品；實體機器人的硬件成本已經降低到可以做出有形象、有內容、有交互的產品；中國家長對教育和創造力培養的需求達到了前所未有的高度；而「兒童AI原生硬件」這個品類，依然是一片真正意義上的藍海。

我們在2026年的產品演進方向，也正在回答一個更大的問題：當AI能夠讓硬件自我進化，當每個家庭都能參與定制屬于自己孩子的伙伴，當一臺機器人在孩子睡著之后還在為明天的陪伴做準備——孩子與AI的關系，將從「使用工具」變成「與伙伴共同成長」。

這是我們最想做成的事。

——奇點靈智·多奇團隊徐毅斐

寫于2026年六一前

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.