對話 MiniMax 閆俊杰：現(xiàn)在的 AI 應(yīng)用不會成為 Super App，但這不重要

2024-05-23 18:58:15　來源: 張鵬科技商業(yè)觀察

北京舉報

分享至

全文約 16601 字

預(yù)計閱讀 42 分鐘

和多數(shù)人一樣，在看到 OpenAI 最新發(fā)布的「AI 智能助手」GPT-4o 時，MiniMax 創(chuàng)始人兼 CEO 閆俊杰的第一感覺是「驚艷」。他也為那些演示效果著迷，如絲滑的語音交互、實時的視覺理解、語言捕捉甚至包括了「呼吸聲」。

作為中國第一梯隊的大模型創(chuàng)業(yè)者、OpenAI 的最重要追趕者之一，他迅速看穿了這場「魔術(shù)」背后的手法。在發(fā)布會結(jié)束兩天后，這位以神秘、低調(diào)著稱的從業(yè)者，罕見地做客極客公園直播間，和極客公園創(chuàng)始人、總裁張鵬進(jìn)行了近 2 小時的實時訪談。

從這場發(fā)布會切入，他聊到了技術(shù)和成本、行業(yè)賽點、開源與閉源之爭、投流和 PMF、超級產(chǎn)品等關(guān)鍵問題。

在他看來，這次 OpenAI 展現(xiàn)的技術(shù)難度并不高（比如語音模型處理速率更低、容易對齊到語言模型，實現(xiàn)絲滑語音交互）。使他感慨的是，這位對手在行業(yè)最重要的使命上邁出了重要一步——那就是讓AI為更多普通人所用。

他說，GPT-4o 本質(zhì)是多模態(tài)（文本、語音、視覺）的進(jìn)步。而他很早就意識到，大模型在多模態(tài)的每一次進(jìn)步，都會帶來用戶體驗的提升、獲得更高的用戶滲透率。比如，當(dāng) GPT-4o 擁有更絲滑的語音交互（延時縮短、增加情感等）后，它就會走向更多人。

這也是他于 2021 年底創(chuàng)立 MiniMax 的初衷。彼時。ChatGPT 還沒有出現(xiàn)、業(yè)內(nèi)也沒有人相信大模型。促使他一定要創(chuàng)業(yè)的動力是，「把人工智能做成通用、服務(wù)大眾這件事是很重要的。」

在這個目標(biāo)驅(qū)使下，MiniMax 是行業(yè)少有的同時做模型、產(chǎn)品的公司。目前，MiniMax 是國內(nèi) AI 產(chǎn)品做得最出色的公司之一。其產(chǎn)品主要分為兩類：一是「星野」代表的娛樂類，對標(biāo) Character.AI，目前處于國內(nèi)領(lǐng)先位置；一是「海螺 AI」代表的效率類，對標(biāo)ChatGPT，尚在起步階段、但是他目前最看重的產(chǎn)品。

GPT-4o 的發(fā)布，讓他更明確了「海螺 AI」接下來的研發(fā)方向。他說，下半年的目標(biāo)是，要把過去彼此獨立的多模態(tài)大模型融合在一起。并且他認(rèn)為，這會是未來行業(yè)的「必答題」，效率類產(chǎn)品必須跟上。不過他認(rèn)為，從長遠(yuǎn)看效率類產(chǎn)品的本質(zhì)方向，仍然是要提升底座語言大模型的上限。因為其最重要的指標(biāo)是用戶對回答的滿意度，而現(xiàn)在連 ChatGPT 的回答滿意度都只有 60%。

盡管 AI 在過去一年多引起了全球廣泛關(guān)注，但它距離為普通人所用的未來還很遙遠(yuǎn)。閆俊杰做了一個演算，目前國內(nèi)最好的效率類產(chǎn)品DAU只有 400 萬、國外是 1000 萬，這意味著 AI 在移動端的滲透率可能不到 1%。從業(yè)者們要做的努力還有很多。

用戶滿意度和滲透率、以及背后需要的技術(shù)進(jìn)步，似乎一直是他思考的「第一性原理」。而當(dāng)我們談到成本、商業(yè)化、行業(yè)競爭等等關(guān)鍵問題，他的答案都圍繞這點展開。比如他說，「投流是因為技術(shù)沒有拉開足夠差距」、「搞不懂 PMF，其實有了用戶時長就會有商業(yè)價值」、「如果創(chuàng)業(yè)者沒有做出足夠創(chuàng)新，這件事就該大廠干」……在這場對話里，我們能看到這位技術(shù)向 CEO 難得的「簡單」、少見的「坦誠」。

那么，最終我們何時能迎來大模型時代的 Super App、真正讓 AI 普及大眾？他說，也許目前的產(chǎn)品都看不到這個可能，但這并不是一個重要的問題。原因在于，AGI 的路很長，很多事情無法現(xiàn)在就看清，沒有必要給自己這么大的壓力。還是那個回答，做好技術(shù)和產(chǎn)品，有能力跟上一代代的創(chuàng)新，最終才有機會看到那一天的到來。

以下是這次直播對話的實錄，經(jīng)極客公園整理后發(fā)布：

談?wù)Z音助理：效果驚艷、

能提升用戶滲透率，

且在技術(shù)上并不難實現(xiàn)

張鵬：你應(yīng)該也是非常詳細(xì)關(guān)注了 GPT-4o 和谷歌I/O的這兩個發(fā)布會，它們的風(fēng)格其實挺迥異的，你個人對哪個印象更深？更喜歡哪個？可以分享一下原因和理由。

閆俊杰：一方面，我自己其實是一個用戶，會每天使用這些 AI 產(chǎn)品。另一方面，我自己又是從業(yè)者，所以有很奇怪的兩種不同感受。

看 GPT-4o 的發(fā)布會的時候，作為用戶來說，我覺得非常驚艷。特別是那兩個演示，一個是（AI 聽懂了）呼吸聲，一個是拍照做一些事。我當(dāng)時覺得為什么人工智能可以變得這么流暢，大家都覺得實時的語音交互是第一次有人實現(xiàn)。這個事確實很成功的，非常顯然 GPT 發(fā)布會的風(fēng)口和傳播量是大于谷歌的。用戶肯定覺得 OpenAI 的發(fā)布會更震撼。

不過發(fā)布會那天晚上，我就開始想這個東西到底怎么實現(xiàn)的。大概想了半個小時之后，就覺得實際上是很直接的事。為什么？原因是，說話是比打字要慢很多的。比如說現(xiàn)在正常的語言模型，基本上每秒可以處理的 token 是十幾個到二十幾個量級。但是說話其實每秒只能說 3-5 個字，大概只有 4-5 個 token。所以語音的速度是遠(yuǎn)遠(yuǎn)慢于現(xiàn)在標(biāo)準(zhǔn)的語言模型的處理速度的。

這個意思就是說，只要把語音的模態(tài)——就像之前做圖片跟文本一樣，只要把它對齊到語言模型上，把它改造成一個成純流式的交互，這件事改造起來非常自然。

所以我覺得這件事體現(xiàn)出來兩個事：第一，OpenAI 還是能夠從非常底層思考這個事。第二，這個事的技術(shù)難度其實遠(yuǎn)小于 Sora 或者一開始 GPT-4 的技術(shù)難度，這就是我看 OpenAI 發(fā)布會的感受。

張鵬：那看了谷歌的發(fā)布會你有什么感覺？

閆俊杰：谷歌的發(fā)布會不是看的直播，而是第二天看了完整的兩個小時視頻。它最前面是 DeepMind 負(fù)責(zé)人講了很多技術(shù)的部分，這部分就很像是一個中年男人拖家?guī)Э趤砀憧蒲校欢纫獫M足股東、又要滿足用戶、又要滿足市場對谷歌的期待。

張鵬：還得不能讓社會質(zhì)疑你有 ethic（倫理）的問題。

閆俊杰：對，相當(dāng)于畫了很多目標(biāo)，幾千人的研發(fā)團(tuán)隊大概做了一年，做出來了很多東西。每一點應(yīng)該都不是最好的，但是能同時做這么多東西，從芯片到產(chǎn)品都做，可能也只有谷歌有這么多的研發(fā)力量能做。

但是我比較震撼的是它的 AI 搜索。AI 搜索在過去幾個月很火，海外有 Perplexity，包括 ChatGPT 在內(nèi)，以及國內(nèi)很多助手，大家都會做搜索，甚至聲稱替代了傳統(tǒng)的搜索。坦白說，我覺得目前這些產(chǎn)品的搜索和谷歌展示的那一套 AI 搜索，還是有非常大的差距。

因為我覺得里面非常核心的東西，可能只有谷歌才有。比如很多實時的本地的信息，這些信息對一些高價值的場景其實有非常大的價值。如果我是用戶的話，我其實非常愿意用這樣的搜索，這種體驗絕對不會是在 ChatGPT 里外接第三方的搜索引擎就可以實現(xiàn)的。坦白說，我覺得這是谷歌真正的壁壘。

其次，目前大家用的其他的 AI 搜索產(chǎn)品里面，只有單步的推理，谷歌展示了多步推理，這對搜索體驗的提升還是非常大的。這個事谷歌也是第一個做的。它本身不難，原來的語言模型能夠支持就好了，但是說明谷歌已經(jīng)想得非常深刻了。

最后，可能是谷歌獨有的優(yōu)勢。實際上包括 OpenAI 在內(nèi)，幾乎所有公司的視頻理解都做得比較一般。甚至 GPT-4o 里面展示的東西，它的 Camera 其實處理的也不是 video，而是靜止的圖像。真正能夠做到非常流暢的視頻理解，效果比較好的，好像只有谷歌。Gemini1.5 做的相當(dāng)不錯了。

我在想為什么這件事這么重要呢？為什么谷歌非得做這件事呢？其實也可以理解，原因是谷歌有大量 YouTube 的視頻，但是這些視頻無法被展示出來。因為之前的搜索只能有一個標(biāo)題，或者非常簡單的標(biāo)簽。現(xiàn)在這個技術(shù)，就可以把這些視頻加到搜索的結(jié)果里面去了，這是非常獨特的一件事。

總體來說，我比較受震撼的是有了 AI 之后，真的可以把搜索這件事有質(zhì)的提升，并且這件事谷歌已經(jīng)走得非常靠前了。

張鵬：感覺我們大部分都是觀眾，看完發(fā)布會的「魔術(shù)」都「哇」一下，但你是「魔術(shù)師工會」的，你看完了會琢磨一下這個「魔術(shù)」怎么實現(xiàn)的。比如語音這件事看起來很厲害，但沒有想象中那么難實現(xiàn)。所以有人評價說，OpenAI這次主要是工程上的進(jìn)展，它選擇了一個明確的目標(biāo)、甚至可能針對發(fā)布會的場景做了很好的想象，然后它的工程能力配合技術(shù)能力、完美的把這個點打爆了。而不像上次 Sora 那樣是技術(shù)的本質(zhì)變化。這么理解對嗎？

閆俊杰：可能不同的人對系統(tǒng)、算法、工程的理解都非常不一樣，我說一下技術(shù)上的理解。

雖然我也不知道 OpenAI 具體是怎么做的，但我猜 OpenAI 的語音技術(shù)可以分成兩步：第一，用大模型做語音的合成。第二，把大模型的語音合成和語言模型合在一起。第一步其實去年有了非常多進(jìn)展，但問題是在做交互的時候，要先把聲音變成文字、再用語言模型生成回復(fù)、再用這個模型來跑一遍。

張鵬：當(dāng)時不是端到端的實現(xiàn)，而是要分幾步。

閆俊杰：對，這個會造成延時和信息丟失。這次 OpenAI 就更進(jìn)一步，直接把語音模型和語言模型合在一起了。

這在技術(shù)上是比較容易做的，因為聲音和語言模型都是 Transformer 的模型，本質(zhì)上就是把聲音模型的 incoder（編碼器），對齊到一個語言模型上去。這個事在圖片里面已經(jīng)發(fā)生了，現(xiàn)在只是把圖片換成了聲音。而且因為聲音的處理速度遠(yuǎn)低于文字處理的速度，所以改造成流式是非常自然的。

這帶來的結(jié)果是，原來 ChatGPT 的語音交互、包括海螺 AI 的語音交互，大概延時會有兩秒。現(xiàn)在純流式了，延時只有 300 毫秒，就是說一個字的時間。

張鵬：所以這種語音技術(shù)路線其實并不難、而且很早就被證明是可行和明確的，這是否意味著它不會是OpenAI的獨門技術(shù)，而是可以迅速擴散到更多的公司？

閆俊杰：我覺得如果一個公司或者組織，它之前能獨立做好語言模型、并且能獨立地做好利用這種 LLM 方式做聲音的模型，如果這兩個都具備了，把它合在一起是相對比較輕松的。不過這背后還涉及到很多工程鏈路上的優(yōu)化。

但比較核心的還是你的目標(biāo)是什么。比如 OpenAI 為什么要把語音延時降到 300 毫秒，本質(zhì)上是因為在移動端，每當(dāng)你降低延時、對用戶體驗就會帶來特別大的提升。為什么線上會議沒法替代線下見面，核心就是它有幾秒的延遲。而延時優(yōu)化的極限就是一個字的時間，300 毫秒，你在這個目標(biāo)下最后就會推出來最合理的技術(shù)路線。

張鵬：延時的問題我很有感觸，之前有聲音賽道的創(chuàng)業(yè)者跟我說，如果延時超過一秒，用戶就會發(fā)現(xiàn)對方跟自己不在一個地方聊。所以語音助理沒有延時之后，你感覺它從云端，走到了你房間里，這個感覺給人的沖擊感是非常強的。它對用戶體驗的提升有多強？語音是否會成為主流的交互方式？

閆俊杰：過去一年非常明顯的變化是在車?yán)锩妫憧梢钥吹叫履茉窜嚴(yán)锏恼Z音滲透率是顯著變高的，這說明在一個場景里，如果你能夠把語言的交互做得非常好用、且有實際價值，它的用戶滲透率就會變高，至少在智能車艙里面已經(jīng)實現(xiàn)了。這個事在現(xiàn)實生活中也會是一樣，這也是為什么 AI 公司會越來越重視聲音交互的原因。

過去一年大模型雖然是非常熱的詞，但現(xiàn)在全球每天使用 AI 產(chǎn)品的人只有四千多萬，而這四千多萬里有三千多萬在用 ChatGPT，而這三千多萬有兩千萬是用 Web、一千多萬是用手機。而現(xiàn)在全球每天使用手機的人可能有 4 億人，所以 AI 在移動端的滲透率可能不到 1%，這是非常低的數(shù)字。真正主流的產(chǎn)品，比如說短視頻、或者長視頻、或者社交，它的滲透率應(yīng)該都是 50% 以上。

我覺得未來有志于做 AI 產(chǎn)品的公司，一定要思考一個邏輯，那就是怎么讓用戶滲透率變高。其實唯一的方式就是讓更多的場景可用、讓更多的人可用。我覺得聲音應(yīng)該是符合這個趨勢的，它可以讓一些不方便打字的人進(jìn)來、并拉來更多場景。這是 AI 公司提高滲透率的一種努力。

張鵬：你覺得它是會增加存量用戶的黏性、還是獲取更多增量用戶？

閆俊杰：這兩個事都可能會發(fā)生。我們發(fā)現(xiàn)很多場景確實只有語音才會發(fā)生，舉個例子，比如說在海螺 AI 里面，很多家長會讓它給小孩講睡前故事。這顯然擴充了使用人群。

再比如，我們發(fā)現(xiàn)有很多用戶會用它來學(xué)英語口語。從這個維度上來說，它應(yīng)該是提升了用戶的活躍。還有我自己親身的例子，我今天春節(jié)回到老家看我外公，他已經(jīng) 80 歲了。他在很破的安卓手機上裝了海螺 AI，會跟它打很久電話、討論歷史人物。之前你很難想象一個 80 歲的老人會這樣用 AI。

而他們在用這個產(chǎn)品的時候會真的把 AI 當(dāng)成一個人，比如他會說你（AI）聲音能不能大一點，其實潛意識里把它當(dāng)成人了。

這也是我們?yōu)槭裁茨敲聪嘈磐ㄓ弥悄艿脑颍褪欠?wù)普遍人的東西。問題是整個行業(yè)的滲透率確實沒那么高，更簡單的交互是很重要的一方面。

張鵬：你說過自己很早就堅信多模態(tài)，是因為產(chǎn)品每擴展一次模態(tài)、都能擴展一批新的用戶。你預(yù)測ChatGPT改善語音技術(shù)之后，它的DAU、用戶時長這些數(shù)據(jù)會有什么變化？

閆俊杰：實際上現(xiàn)在沒法猜，因為它還沒有上線。我覺得使用時長會變長，但是用戶滲透率會不會有顯著的變化，我其實比較懷疑。

張鵬：語音交互確實對人有門檻的，很多上一代做語音交互的朋友們復(fù)盤過，大家打開一個語音助理之后會突然不知道說什么，然后就停了，這件事跟技術(shù)其實沒有關(guān)系。它其實需要用戶有比較強烈的目標(biāo)和意愿去用。

閆俊杰：對，我覺得對年輕或者比較年長的用戶會更友好，對中間的用戶反而不會。原因是因為，愿意使用 AI 的人、或者聽過 AI 的人，大概率至少試用過一些東西了。

談行業(yè)賽點：多模態(tài)融合

是大模型行業(yè)「必答題」，

決定效率類產(chǎn)品的成敗

張鵬：你自己也在大模型領(lǐng)域創(chuàng)業(yè)，各項技術(shù)能力都在主動跟OpenAI、谷歌做對標(biāo)。看完這兩場發(fā)布會之后，你感到的更多是一種興奮，還是一種挑戰(zhàn)？

閆俊杰：我覺得有人跑在你前面是好事，這說明這個行業(yè)上限遠(yuǎn)遠(yuǎn)沒有到。

我個人是非常期待 OpenAI 會出 GPT-5 或者其他的東西，即使作為一個業(yè)內(nèi)人士，我也是希望 OpenAI 進(jìn)步速度能保持這么快。反正也沒有競爭，實際上沒有任何的競爭。但是這不是因為不想跟他們競爭，是他們太強了，構(gòu)不成競爭。

至少目前，真正把算法匯成產(chǎn)品，真正開拓 AI 行業(yè)邊界的，主要還是 OpenAI，如果他們能夠非常快地開拓 AI 的邊界，至少說明 AI 的用戶滲透率是有底層動力的，而且這個動力可持續(xù)的。

OpenAI 可能比中國公司多 10 倍的研發(fā)資源，如果他們都做不出來創(chuàng)新，這才是這個行業(yè)比較可怕的一件事。

張鵬：你有方法、有路徑，有計劃，未來可以在你們的產(chǎn)品里見到跟OpenAI今天類似的用戶體驗嗎？大概多長時間可見？

閆俊杰：首先我覺得這個事肯定可見的，雖然他們怎么做的我不知道，但是我覺得我剛才的分析應(yīng)該是對的，至少那種方法可以實現(xiàn)，至少它是有一條比較明確的路徑。

其實對我來說，主要的挑戰(zhàn)不是語音模型，主要還是把語言模型做得盡可能好。真正的原因是因為，現(xiàn)在的多模態(tài)實際上還是以語言模型作為核心的。今年我們在做上一版 ABAB6.5 的時候，我們其實把萬億量級的 MoE 這件事做通了，這還是個語言模型。

另外，我們在去年的時候，每個模態(tài)都是獨立的，雖然它們有同樣一套框架、里面都是 Transformer，代碼也是差不多的，但是它的數(shù)據(jù)和模型是獨立的。現(xiàn)在我在設(shè)計下一版的模型，我們下半年的核心考慮是如何能夠能有一個上限更高的語言模型，以及把這些不同的模態(tài)合在一起。

我們還沒有完全設(shè)計完，還有很多的實驗需要做。但是它基本上已經(jīng)是可見的東西了。接下來這個模型會分成兩個階段：第一，設(shè)計階段，有很多假設(shè)，你要做很多實驗驗證你的假設(shè)。第二，假定，你認(rèn)為你的假設(shè)驗證得差不多了，把這些東西合在一起，最后訓(xùn)練這個模型。

這里面的 trade off（權(quán)衡）是說，你的這些假設(shè)，或者你設(shè)計的這些預(yù)測實驗，到底要做到多好？這是我們正在經(jīng)歷的一個事。

張鵬：最近聽到谷歌提的比較多的是One network Moti-modelity，多模態(tài)是在一個神經(jīng)網(wǎng)絡(luò)里實現(xiàn)的。現(xiàn)在MoE 在訓(xùn)練萬億大參數(shù)的模型上是非常有效的方法，但下一步如果做多模態(tài)融合，方法上會跟以前有什么不一樣嗎？

閆俊杰：這個是兩個維度，第一個是中間這步都是一堆巨大的 transformer，為了提升效率，不管訓(xùn)練效率還是推理效率，大家主流的選擇都是一套 MoE，比如 GPT-4。據(jù)傳 Gemini-1.5 也是長這個樣子。如果你做一個大概幾千億參數(shù)的模型，基本上這就是必然的選擇。

第二個，你有不同的模態(tài)，怎么樣能夠合到這個大的以 MoE 為基礎(chǔ)的主干模型上，這就是多模態(tài)。現(xiàn)在已知的東西是，怎么把視覺的理解跟主干模型合在一起，比如說像 GPT-4v，你先有一個巨大的 MoE，再把視覺的東西對齊，就可以有比較好的視覺的理解。

未知的東西有這么兩個：

第一，GPT-4o 里面展示的，把聲音也對齊到里面去，這是 GPT-4o 干的其中一件事。

第二，生成的這部分，比如說圖片的生成、視頻的生成能不能合進(jìn)來。至少現(xiàn)在，視頻是沒有實現(xiàn)的，比如說 Sora 是獨立的模型。為什么會這樣？原因是視頻的 tokenizer（標(biāo)記）是有損的壓縮，基本上要通過 diffusion（擴散）才能恢復(fù)到一個比較正常的狀態(tài)，現(xiàn)在還沒法整。當(dāng)然會有很多人做，可能明年才會整合一起。但是視頻的生成目前還不知道怎么整合的。

圖片的生成我不知道，比如說在上一代 DALL-E 3 的時候，其實也沒有整合在一起的，也是獨立的模型。但是這次看 GPT-4o 的話，我感覺它們似乎整合在一起了，但是我不是特別確定。我覺得基本上底層的技術(shù)就是這樣了。

張鵬：那么緊接著多模態(tài)統(tǒng)一融合的能力，會不會成為下一個階段大模型領(lǐng)域、尤其是中國的創(chuàng)業(yè)公司們要去提升的目標(biāo)？這是不是所有人都必須要跟上、必須要解決的問題？

閆俊杰：我更覺得是必須要做的事。其實這分兩個產(chǎn)品，目前AI產(chǎn)品有兩種，一種是滿足娛樂需求的，一種是滿足效率的。娛樂的不說了，是運營的屬性、產(chǎn)品的屬性，更加偏綜合產(chǎn)品能力的事。

偏效率的一定是需要做（多模態(tài)）的，因為從歷史上來看，所有效率的產(chǎn)品基本上最終大家只會用最好的。比如說有兩個產(chǎn)品，一個可以做很多東西，一個只能搜文字，那大家一定會用那個啥都能做的那個產(chǎn)品。當(dāng)然這個前提是說，這個（多模態(tài)）賽道是存在的。關(guān)于這個賽道是不是存在，其實也是需要很多努力的。

張鵬：可不可以理解為 Sora 是「選答題」、可以不選，但是多模態(tài)的統(tǒng)一融合是「必答題」、如果答不好就會出局？

閆俊杰：我覺得你這個概述還是挺好的，之前沒想到這樣，確實更像是一個必答題。

Sora 這個東西其實有不同的用法，比如說有 PGC 的用法、作為工具屬性的用法，也有 UGC 的用法、會涉及很多產(chǎn)品、內(nèi)容的東西，不是 AI 都要做的東西。

但是在工具類、效率類、助手類的產(chǎn)品上，只要有公司做出來（多模態(tài)），其他公司必須跟上。因為基本上就這么點技術(shù)。

談生態(tài)：「智能語音助理」

爭奪戰(zhàn)，巨頭和創(chuàng)業(yè)公司

是復(fù)雜的競合關(guān)系

張鵬：這次我們看到語音助理這個事，蘋果想用到 Siri 里、谷歌想非常深層地用到安卓體系里，似乎它會是個很重要的入口級的東西，這個事最終會是巨頭的 Game 嗎？創(chuàng)業(yè)者還能干嗎？

閆俊杰：首先，這個產(chǎn)品的所有用戶體驗幾乎都來自于模型的能力。它不太取決于產(chǎn)品是巨頭的產(chǎn)品、還是創(chuàng)業(yè)公司的產(chǎn)品，只是取決于背后是什么樣的技術(shù)水平。它考驗的是你能不能做出一個體驗最好的模型。這里面涉及到你的技術(shù)模型怎么做、怎么做很好的對齊、怎么優(yōu)化你的延時，怎么提高工程的效率、怎么降低計算成本等等。

其次，在商業(yè)層面，這個產(chǎn)品背后肯定要消耗成本。因為現(xiàn)在的AI產(chǎn)品跟早期移動互聯(lián)網(wǎng)產(chǎn)品的本質(zhì)區(qū)別是，以前我們不需要考慮每天維護(hù)用戶的成本，現(xiàn)在我們都要考慮。所以這一代產(chǎn)品怎么變現(xiàn)是比較直接的。而手機上產(chǎn)品的商業(yè)價值有多大，幾乎取決于它有多長的用戶時間，因為用戶時長總是有標(biāo)準(zhǔn)化的變現(xiàn)手段。

這樣的產(chǎn)品，假設(shè)它能做到大部分的需求都在里面解決，比如說當(dāng)我想要搜索的時候，我不需打開百度了。或者我需要看一個視頻的時候，不需要在抖音里看了。只要它占有用戶足夠長的時間，那它的商業(yè)化效率就是足夠高的，它的商業(yè)化跟時長是成正比的。

這個事最終會變成，產(chǎn)品的競爭力取決于技術(shù)能力，商業(yè)競爭力取決于你占有多少用戶市場。

張鵬：我再具象一點，蘋果屬于完整的從硬件到軟件的掌控者、安卓在操作系統(tǒng)上有天然的優(yōu)勢、OpenAI是新型的基于大模型能力的創(chuàng)業(yè)公司，如果未來這三家公司都在搶占語音助手這個最關(guān)鍵的入口，誰更有可能是贏家？創(chuàng)業(yè)公司能贏得這個位置嗎？

閆俊杰：我覺得這里面有各種各樣的博弈、競合關(guān)系，在搜索里已經(jīng)發(fā)生了。我們能看到蘋果里集成了谷歌的搜索，谷歌每年給蘋果很多錢，為什么谷歌愿意付錢？顯然因為谷歌在蘋果里做搜索的商業(yè)價值，要大于谷歌自己付的錢了。

但是我覺得不管怎么樣，如果看第一性原理的話，那在這里面如果誰能把東西做出來、并且把體驗做得顯著地好，那至少在里面你應(yīng)該會有一席之地。

這件事我覺得更利好于擁有設(shè)備的公司，為什么？比如說我買一個小米的手機，只要給小米付一次錢，之后這個小米手機創(chuàng)造多大的價值，其實都跟小米沒有關(guān)系了。唯一有關(guān)系的是，小米商店里面的分發(fā)里面會有分成，其他的基本上沒有關(guān)系了。

張鵬：也有一些負(fù)一屏的內(nèi)容廣告，都是比較薄了。

閆俊杰：負(fù)一屏的內(nèi)容水平顯然是沒有抖音或者小紅書高。其實手機提供了很多用戶時間，比如說我在小米上裝了一個抖音，一個用戶在抖音上花了很多時間，但所有的錢跟小米一點關(guān)系沒有，都被抖音轉(zhuǎn)走了。

我覺得一個比較強的 AI 助手的好處是說，它確實能夠讓手機的操作系統(tǒng)這層占領(lǐng)很多用戶的時間，因為可以滿足很多多樣化的需求。這個事相當(dāng)于是說它其實是把很多價值從 APP 里拉到手機上。

張鵬：最近我們也看到傳聞，蘋果跟OpenAI有可能在智能助手這個層面產(chǎn)生合作。所以按照你的推理，一家在大模型里做的非常優(yōu)秀的公司，和一個對生態(tài)硬件、軟件有掌控力的手機巨頭，最終大家合在一起、在未來的生態(tài)里產(chǎn)生新的價值分配，這是符合邏輯的？

閆俊杰：對，實際上就是用戶時間的分配，而這又考驗背后的技術(shù)和產(chǎn)品能力。

張鵬：反過來說，如果 OpenAI 沒有跟蘋果合作，而是成為最強的 Super APP，作為獨立的力量去挑戰(zhàn)現(xiàn)有的生態(tài)、甚至對原有價值鏈進(jìn)行重構(gòu)，你認(rèn)為存在這種可能性嗎？

閆俊杰：這主要看它的規(guī)模。現(xiàn)在 1000 萬 DAU 的 APP 顯然不夠格。到 Mata 這種 10 億 DAU 量級的，估計會有本質(zhì)的變化。但即使是OpenAI，距離這個也有 100 倍的距離。

張鵬：現(xiàn)在想著做所謂大一統(tǒng)的 Super App、超級入口還是很難實現(xiàn)的，今天更現(xiàn)實的是怎么把DAU從一千萬漲到 1 億，這也是 OpenAI 很頭疼的事。

閆俊杰：我猜這也是它們?yōu)槭裁催@么在意語音的原因，因為這個東西確實有可能會提高滲透率。

談技術(shù)路線：

投入通用基礎(chǔ)大模型、打造

通用產(chǎn)品，能看到真正的未來

張鵬：前段時間在整個創(chuàng)業(yè)者的圈子里，大家圍繞基礎(chǔ)模型和開源模型爭論很大。本質(zhì)上是說，你要么自己做一個智能引擎，要么就買一個自己改。其實模型、產(chǎn)品雙輪驅(qū)動，自己同時做基礎(chǔ)模型和產(chǎn)品，滾動著往前走是最好的。但很多創(chuàng)業(yè)者說這風(fēng)險很大，模型的一次迭代跟不上、或者產(chǎn)品 PMF 的一次失敗，就不行了。你怎么看這兩種路線？

閆俊杰：我覺得這本身是風(fēng)險很大的事。先不說同時做模型和產(chǎn)品，只做模型、或者只做產(chǎn)品，本身就是風(fēng)險很大的事。

張鵬：創(chuàng)業(yè)其實就是生死游戲。

閆俊杰：對，確實是很殘酷的事。比如我們看美國的公司，OpenAI 是都做，Aanthropic 之前只做模型、昨天他們把 Instagram 的 CTO 也招過去了，我不知道是不是它們也有可能做產(chǎn)品。我覺得至少對做模型的公司來說，自己做產(chǎn)品幾乎是必然的選擇。我們算是比較堅決的，有些公司后面變成這樣了，這是必然的。

反過來，其實對做產(chǎn)品的公司也是一樣的。比如說我們國內(nèi)的開放平臺上，有很多做產(chǎn)品的公司和客戶，其實規(guī)模還挺大的，大概有接近一千家。這里面有大的公司，也有小的創(chuàng)業(yè)公司。其實坦白說，對所有這些公司來說，如果它們的產(chǎn)品得很大，他們也希望自己掌控模型的。這也是必然的一個路。

所以這里面核心的考慮還是說，如果你覺得這件事是對的，本質(zhì)上是說你現(xiàn)在有多少資源、最大化優(yōu)化你們想優(yōu)化的目標(biāo)。對我們來說，我們的目標(biāo)是要最大化地優(yōu)化用戶體驗，那我們覺得這兩個東西（模型、產(chǎn)品）都是重要的，只能兩個東西都做，才能最符合我想優(yōu)化的目標(biāo)。

不同的人定義的目標(biāo)不一樣、路徑不一樣，就會出來很多不同的公司。

張鵬：所以產(chǎn)模一體歸根到底是我們追求的最終目標(biāo)，只是很多人基于今天已有的資源，會發(fā)現(xiàn)燒錢太高、風(fēng)險很大，但這只是階段的選擇問題。

閆俊杰：還有一個更底層的原因。舉個例子，假設(shè)有個需求要滿足，而這個東西需要通過模型來滿足——那如果是（模型和產(chǎn)品都在）一家公司，你的路徑是優(yōu)化這個業(yè)務(wù)指標(biāo)就可以了。但如果（模型和產(chǎn)品是在）兩家公司，你們干的事是把這個指標(biāo)轉(zhuǎn)成一個對模型的要求，讓給你提供模型的公司優(yōu)化這個指標(biāo)。

這中間本身損失了很多信息，并且讓周期變長。這個事一定不是最大化業(yè)務(wù)指標(biāo)的方式。

當(dāng)然這個事上，微軟例外。核心原因是，微軟的這些場景，Bing 的搜索、還有 office，其實都是一些能夠變得非常標(biāo)準(zhǔn)化的東西，基本上主要依賴于模型的通用能力。OpenAI 的通用模型是最好的，那就可以給這些產(chǎn)品用。在這種情況下（模型和產(chǎn)品分開）是合理的，但是大部分情況下不是最優(yōu)的選擇。

張鵬：你提了一個非常好的問題，就是我們到底是要根據(jù)模型能力造產(chǎn)品，還是要根據(jù)產(chǎn)品目標(biāo)去改模型？我打個比方，如果模型是一把槍，產(chǎn)品是靶子，我們今天到底是要造更通用的機關(guān)槍、在更多領(lǐng)域命中靶子，還是應(yīng)該造一把高精度的狙擊槍、就打中某個具體的靶子？

閆俊杰：其實這個事背后有一層含義，咱們講這個時間點，AI 背后是有一些技術(shù)紅利的。這個紅利是說，全世界有這么多聰明的人、這么多資源、這么多社區(qū)在做這件事。這件事的價值或者能力遠(yuǎn)大于單個公司，也大于 OpenAI 的，顯然也大于任何一個中國的創(chuàng)業(yè)公司。

所以一家公司的研發(fā)水平不是一家公司封閉做出來的，而是這家公司的自身能力加上整個行業(yè)整合出來的。只是不同公司利用的效率不一樣。包括 OpenAI 在內(nèi)，它們很多的東西不是原創(chuàng)的，可能是谷歌做出來的，但是它們把它很好的整合在一起，擴大規(guī)模，就變成現(xiàn)在的狀態(tài)。

其實把模型做通用這件事，是一個比較容易來吸收到整個社區(qū)進(jìn)展的途徑。這件事本身是有巨大的紅利的。

張鵬：今天你應(yīng)該站在那個位置上，把更多的能力拿出來，讓更多的人跟你共創(chuàng)，也許是用戶、也許是產(chǎn)業(yè)里面的其他創(chuàng)業(yè)者兄弟們，OpenAI有這樣的感覺。但如果今天你只是做某一個產(chǎn)品、維系你自己的「菜園子」，你可能失去了世界與你共創(chuàng)的機會。

閆俊杰：客觀的說不是世界與我們共創(chuàng)，是我們與世界共創(chuàng)。

張鵬：我看 SamAltman也不斷提醒，大家不要基于今天模型的一些具體問題去打補丁，這其實是浪費時間。因為技術(shù)在滾滾向前，你在這個時空剛把補丁打完，這件衣服可能都已經(jīng)換了，會出現(xiàn)這樣的問題。

閆俊杰：客觀上說能夠做什么產(chǎn)品，其實是由技術(shù)的周期決定的。

比如說目前這一代，我們見過的所有產(chǎn)品基本上是以文字的交互為主，產(chǎn)品的功能基本上是助理這個層面的。不管是娛樂還是效率，基本上都是 copilot（輔助助理）這個框架。只是不同的人基于不同的理解、不同的資源、不同的團(tuán)隊，組成了不一樣的東西。

假設(shè)我們有更好的模型，能力比現(xiàn)在再顯著地提升，比如所有的測試都可以做得非常好，它可以獨立來工作了，就不是一個 copilot、可能是一個 auto-pilot（全能助理），這顯然會產(chǎn)生更多完全不一樣的產(chǎn)品形態(tài)。

但是這個東西不是產(chǎn)品設(shè)計出來的，而是當(dāng)你把技術(shù) Push 到某一個階段的時候，這個產(chǎn)品自然就清楚了。

談成本：技術(shù)成本

兩年內(nèi)可能降 100 倍，

這比探索技術(shù)上限容易多了

張鵬：我想把話題延展到很具象的東西，前些天我跟投資人算了算賬，今天千萬級DAU的產(chǎn)品，恨不得一天花掉 200 萬的成本，很高的。比如今天 GPT-4o 如果容納了更多用戶、獲得了更大的用戶粘性，它每天的成本得有多高？你肯定掌握一些成本結(jié)構(gòu)的判斷，能不能幫我們算一算？

閆俊杰：其實語音比文字便宜的，因為語音慢。比如文字一秒要生成 20 個 token，但語音一秒只有 4-5 個 token。而且人聽的時候也慢，我看一千個字只需要一分鐘，但是我聽一千個字應(yīng)該是很長的時間。

所以假設(shè)使用相同的時間，語音其實更便宜的。

張鵬：這挺反常識的。

閆俊杰：你覺得聲音更貴，其實更便宜，這是第一點。

第二，優(yōu)化或者降低成本一直是學(xué)術(shù)界非常經(jīng)典的研究領(lǐng)域，很多年前我自己也在這個領(lǐng)域做了很多工作。但它實際上不是業(yè)界最高端的領(lǐng)域，最高端的領(lǐng)域一定是說如何拓展技術(shù)的邊界。

一旦你能夠拓展技術(shù)邊界之后，怎么把成本降低 10 倍這件事，其實從最早的機器學(xué)習(xí)時期，比如我當(dāng)年讀博士的時候，到 2012-2022 年這 10 年用 CNN 來做（卷積神經(jīng)網(wǎng)絡(luò)）的時代，怎么來量化、減值、增流是有一套非常標(biāo)準(zhǔn)的 pipeline。

在 Transformer 這一代里面，其實也可以復(fù)用上一代的 pipeline。比如說做量化；比如說當(dāng)你有一個非常長的 context window（聊天框）的時候，如何做緩存，效率更高、時間更低；比如說如何優(yōu)化你的 attention（注意力）……有很多方法來做這件事，這其實是沒那么難的東西，你只需要把每步做得足夠好，拼在一起就會帶來很大的變化。

張鵬：也就是說，相比于探索新大陸，現(xiàn)在掘地三尺把礦挖出來其實挺容易的？

閆俊杰：這個事我們想一下就知道了，比如說去年 3 月份剛有 GPT-4 的時候，那個時候又慢又貴，但是我們現(xiàn)在其實看 GPT-4o，包括之前的 GPT-4turbo，又便宜又快，效果又好，這只是過去一年發(fā)生的事。價格可能降了 10 倍，但實際上 OpenAI 比這個價格的降低還要更多。

我們大概算過，如果有兩年的時間，成本可以下降近 100 倍。其實我覺得，技術(shù)的上限這件事相對來說沒那么確定，需要更多的探索。但是成本下降這事，一定是有辦法的。這個事在學(xué)術(shù)界已經(jīng)發(fā)生了三次了。

張鵬：今天有的人在拼命地優(yōu)化技術(shù)成本，有的人在拼命提升模型能力、想做到最 top，在你看來后者是不是更重要？

閆俊杰：我覺得從結(jié)果上來是這樣的，但是從過程上兩個事是相互轉(zhuǎn)化的。這個其實是大模型里面一個非常重要的規(guī)律是，效率跟效果其實可以相互轉(zhuǎn)化的。

假設(shè)訓(xùn)練精度一樣，而你的算力是別人的 1/10，這意味著你能把效率做得很高，那你一定是能夠把模型的上限變得足夠高的。或者反過來說，如果你想要能力達(dá)到那個足夠高的上限，那你一定只有把效率變得非常高，這個事才有可能。

所有人的資源都是有限的，一定是你的效率足夠高、你的上限才能更高。實際上并不是我先沖到邊界后再來做優(yōu)化，實際上兩邊是要一起做的。

這也是為什么大部分研發(fā)越往上越難的原因，它要求你綜合考慮。

張鵬：所以 Sam 說「給我多少萬億、我就能把 AGI 迅速實現(xiàn)」這種話，是不是太不現(xiàn)實了？

閆俊杰：如果類比的話，比如臺積電現(xiàn)在是 7 納米，那他接下來肯定是 5 納米、3 納米、2 納米一代代往下做。他不可能把 5 納米、3 納米都跳過了，突然間說自己能做到 2 納米。我覺得這個不太對，你很難把中間幾步跳過去。

張鵬：遠(yuǎn)大的目標(biāo)還是要一步步走，不能奢望直接通向目標(biāo)，這也是創(chuàng)業(yè)的本質(zhì)。

閆俊杰：當(dāng)然可能它們太強了，我沒有理解它們的精髓之處。不過正常情況下應(yīng)該是這樣的。

談投流和 PMF：

國內(nèi) AI 產(chǎn)品不得不投流，

還是技術(shù)沒有拉開足夠差距

張鵬：說到成本，前段時間我們看到，業(yè)界AI產(chǎn)品都開始投流了。我感覺以前移動互聯(lián)網(wǎng)時代，大家好歹是產(chǎn)品達(dá)成了 PMF 之后以后再投流放大，而現(xiàn)在產(chǎn)品需要花錢來測 PMF。一方面整個中國互聯(lián)網(wǎng)流量板結(jié)了，都在巨頭這。另一方面 AI 的能力有限，沒有辦法直接推到用戶面前。這種投流導(dǎo)致的 PMF 成本上升，對這一代 AI 創(chuàng)業(yè)會不會是很大的挑戰(zhàn)？

閆俊杰：我們在這個事上吃過虧的。你發(fā)現(xiàn)這個事在中國，和在美國非常不一樣。比如美國的產(chǎn)品，ChatGPT 顯然沒有投流的，最早期的 Character.AI 也是沒有投流的。偏工具的東西，比如像 Midjourney，它顯然也是沒有投流，更多的是運營。但是反過來說在中國，基本上所有的產(chǎn)品都會投流，這其實是非常明顯的差別。

相當(dāng)于說，美國公司更多的是靠技術(shù)能力和產(chǎn)品能力，大家都不會投流。但是這背后其實也是有代價的，代價就是美國的研發(fā)成本還是會非常高的。在中國反過來了，中國工程師的紅利和產(chǎn)品的紅利相對比較充裕的，但是中國的流量是頭部聚攏的。

但是投流更底層的原因還是因為，目前為止在助手類的產(chǎn)品上，沒有哪家公司能拉開差距。大家在同一個維度上，產(chǎn)品比較同質(zhì)化，技術(shù)能力相對也是比較同質(zhì)化的。為了獲取更多用戶，只有靠投流，這是目前這類產(chǎn)品的困境。

這個東西大家都會有一些解釋，比如說有一種人認(rèn)為獲取 query（用戶詢問）是比較重要的事，如果把 query 本身的價值換算成錢的話，投流是值得的。就看你怎么看這件事了。在技術(shù)不突出的時候，這個東西就是沒辦法。

張鵬：我覺得你選擇了某種「簡單」，就是把技術(shù)做到最好、絕對的領(lǐng)先，這個世界也會變得簡單。如果你不能在這件事上簡單地領(lǐng)先，世界就會對你變得復(fù)雜。你也不會省下多少成本，沒準(zhǔn)成本更高，無非是押在這還是押在那。

閆俊杰：對，所以我們沒有認(rèn)為要花錢買用戶的 query。

我覺得 PMF 這件事是這樣的，一般創(chuàng)業(yè)的時候要寫 BP（商業(yè)計劃書）講你的 PMF 是啥，我們其實一開始沒有搞懂這件事，目前也沒有寫。其實我覺得可以做一些假設(shè)：核心就是類似這種產(chǎn)品，只要有用戶時長就能變現(xiàn)。本質(zhì)上，PMF 是以用戶時長來量化的，這是比較標(biāo)準(zhǔn)的東西。目前這類產(chǎn)品是沒有變現(xiàn)邏輯的，但是如果這個東西能做的更大，或者能夠做到某個狀態(tài)，是能夠出來一些東西的。

張鵬：其實我覺得在不同的階段，大家需要面對不同的東西，并不是說有技術(shù)的純凈信仰，就一定要做 PLG（產(chǎn)品主導(dǎo)型增長）、就絕對不要投流。我也想到當(dāng)年滴滴在很多的城市都沒有 PMF，都在燒錢，結(jié)果有一天它突然把用戶習(xí)慣和產(chǎn)業(yè)邏輯燒出來了，PMF 出現(xiàn)了。你覺得AI行業(yè)會走跟當(dāng)年網(wǎng)約車一樣的路嗎？

閆俊杰：我覺得不是，因為其實網(wǎng)約車是非常典型擁有網(wǎng)絡(luò)效應(yīng)的業(yè)務(wù)，如果你有更多的司機、你就會有更多的用戶，反過來也是一樣。

大模型產(chǎn)品目前為止沒有網(wǎng)絡(luò)效應(yīng)，有可能有微弱規(guī)模效應(yīng)。不過還是需要拆成不同的產(chǎn)品類型，比如效率類、娛樂類，單獨來看。

比如單純在效率類產(chǎn)品上，用戶體驗的提升主要不是看用戶是不是變多了，其實主要是看研發(fā)速率、模型迭代效率。相當(dāng)于說，你的技術(shù)能力提高跟你的用戶數(shù)量增長，其實不完全成正比。但在星野這種娛樂類產(chǎn)品上，如果你有越來越多的內(nèi)容，規(guī)模效應(yīng)還是挺明顯的。

張鵬：我覺得今天的創(chuàng)業(yè)確實比移動互聯(lián)網(wǎng)那一代更加不容易了。今天你去投流，所有的流量基本上在巨頭手里，甚至你的 PMF 在它面前都是透明的，因為你不斷地投就說明你找到 PMF 了，它隨時可以跟。創(chuàng)業(yè)者一直在打明牌，巨頭錢多、人多，也有流量，你做產(chǎn)品測試還要給它們「交稅」，這就是這個世界非常真實的真相，你作為創(chuàng)業(yè)者怎么保持自己的希望？

閆俊杰：這確實是非常關(guān)鍵的問題，而且是一個很本質(zhì)的問題。

我覺得偏信仰層面是這樣的。如果你沒有做很多的技術(shù)創(chuàng)新、產(chǎn)品創(chuàng)新，或者說沒有在合理的時間內(nèi)找到足夠的非共識，這個事就不應(yīng)該你干，就是該被大廠干。這不怪大廠壟斷。

我們要思考的是你作為一家獨立的公司，你真正能創(chuàng)新的東西在什么地方？是研發(fā)效率、認(rèn)知、產(chǎn)品體驗還是什么？你如果沒有，創(chuàng)業(yè)就應(yīng)該失敗，也不能怪別人。

張鵬：很務(wù)實的想法，大廠的競爭反而能驗證創(chuàng)業(yè)公司是不是真的有價值。

閆俊杰：是的。不過國內(nèi)的流量被巨頭壟斷，但海外的流量其實相對比較開放，至少很多市場可以自由競爭。所以我覺得雖然很難，但是空間還是存在的。

談產(chǎn)品：

虛擬社交比智能助手

受歡迎，但 super app

可能并不誕生其中

張鵬：說到產(chǎn)品，MiniMax 也是國內(nèi)AI產(chǎn)品做得最早、最好的公司之一，能不能介紹一下你們「星野」、「海螺 AI」這兩款主打產(chǎn)品？它們的發(fā)展情況怎么樣？

閆俊杰：「星野」基本是一個主打 fantasy（想象）的產(chǎn)品。你看它的時長、用戶分布、包括留存數(shù)據(jù)，其實它很像小說類的產(chǎn)品。

像「海螺 AI」這種，我們叫它智能助手，但其實它是沒有定義的。原因是目前這類產(chǎn)品最大的都只有 400 萬 DAU，不能算很大的產(chǎn)品，不太能定義這個行業(yè)。

我們的 fantasy 產(chǎn)品算是做的比較領(lǐng)先的，就用戶量來說，它可能比助手類產(chǎn)品要高個 100 倍。我們的助手類產(chǎn)品才剛起步。

張鵬：fantasy 產(chǎn)品這么好，它的交流輪次、使用時長怎么樣？

閆俊杰：我覺得挺夸張的，是很長的時長。

張鵬：為什么當(dāng)年你會做「星野」這種 fantasy 的產(chǎn)品？當(dāng)年的決策邏輯是什么？

閆俊杰：兩年多前我們創(chuàng)業(yè)的時候，大模型還不是共識。我們當(dāng)時認(rèn)為把人工智能做成通用、服務(wù)大眾這件事是很重要的，而且恰好看到非常明顯的技術(shù)拐點，所以就開始創(chuàng)業(yè)了。當(dāng)時，我們也不知道技術(shù)會變成什么樣、產(chǎn)品會變成怎么樣、商業(yè)化會變成怎么樣。

「星野」的前身是「Glow」，我們當(dāng)年做「Glow」的時候既沒有 ChatGPT、也沒有 Character.AI。當(dāng)年我們不是做了很多分析、發(fā)現(xiàn)了機會，決定要來做它。我們的產(chǎn)品都是撞出來的。

張鵬：所以是先有了對 AGI 的信仰，做出了模型的能力，再順著模型能力看能做啥就做啥，是這個邏輯嗎？

閆俊杰：真實的情況是這樣的。為什么這個產(chǎn)品最后變成了「Glow」了、沒有變成 ChatGPT，是 2022 年 10 月份我們當(dāng)時第一版的模型大概只有 30B（參數(shù)），它只能做娛樂的事，因為沒有那么好。

張鵬：你得把 hallucination（幻覺）當(dāng)作它的優(yōu)勢，而不是缺點。

閆俊杰：實際情況是，最開始的時候我們只有一個 pre training，對齊還根本沒有跑通。所以這種東西是撞出來的，是非常隨機的一件事，就變成這樣了。

如果我們那時候更強一點，可能能做出來ChatGPT，但是很遺憾，那個時候能力就是沒有那么強。

張鵬：創(chuàng)業(yè)歸根到底還得看實際狀況，當(dāng)時你技術(shù)沒準(zhǔn)備好，做不出來很正常，這反而說明了為什么技術(shù)是AI產(chǎn)品最重要的部分。

閆俊杰：對，因為技術(shù)的發(fā)展就是有紅利的。

張鵬：現(xiàn)在你們有了「海螺AI」，是不是還改過名字？我記得去年你們還叫「海螺問問」？

閆俊杰：的確是，我們改名是想讓產(chǎn)品更加大眾化。首先，我們覺得「海螺問問」有 4 個字，減掉兩個字之后，「海螺 AI」的用戶覆蓋率會更高。其次，我們發(fā)現(xiàn)用戶更深層次的需求不完全來自于問答，所以叫了這個名字。

張鵬：更深層次的需求不只是問答，所以那時候你們已經(jīng)開始往未來的「智能助理」方向做思考了嗎？

閆俊杰：是的。

張鵬：隨著 GPT-4o、Astra 的發(fā)布，「智能助理」這個領(lǐng)域可能會有越來越多競爭者，你怎么看這類產(chǎn)品的發(fā)展目標(biāo)？

閆俊杰：這類產(chǎn)品核心的東西應(yīng)該就是一個，提升用戶解決問題的效率、或者說回復(fù)的滿意度。

我們客觀來看，比如你問 ChatGPT 一個問題，它有多大概率給你一個滿意的答案？我們自己的測試結(jié)果是，只有 60%。這也是為什么 AI 的用戶滲透率只有 1% 的原因。可能只有對 AI 特別熱忱的用戶，在它給了你無數(shù)次錯誤答案的時候，你還能選擇相信它、容忍它、甚至引導(dǎo)它來得到一些答案。

舉個例子，我們用更大用戶量級的產(chǎn)品，比如百度搜索、小紅書搜索、甚至抖音搜索的時候，大概率能得到想看到的東西，滿意度顯然比 60% 高。只有這樣，產(chǎn)品才能走向更廣大的用戶。

這也是作為從業(yè)者來說，我覺得 GPT-4o 沒有讓我覺得那么好的原因。因為它其實并沒有提高這類產(chǎn)品真正重要的指標(biāo)，也就是用戶滿意度。這個指標(biāo)如果從 60% 提升到 90% 甚至更多，它就能變成可以信賴的產(chǎn)品。這也是我們在「海螺 AI」這個產(chǎn)品上要努力的方向。

張鵬：我相信最終你們的目標(biāo)還是想創(chuàng)造 Super App，或者用AInative 的方式解決主流用戶的大問題。你覺得今天不管像「星野」、還是像「海螺 AI」，它們會是 Super App 的侯選嗎？還是說我們今天未必能看到 Super App 的最終形態(tài)，它會像你說的，隨著未來技術(shù)的發(fā)展隨機涌現(xiàn)出來？

閆俊杰：其實我們的基本假設(shè)是這樣的：第一，現(xiàn)有的產(chǎn)品都不是。第二，我們認(rèn)為現(xiàn)在的單個產(chǎn)品都能夠長到足夠大的用戶規(guī)模，能給用戶帶來更大的價值，也能為我們帶來商業(yè)上足夠的成功和回報。這也是我們努力的目標(biāo)。

至于說現(xiàn)在的產(chǎn)品到底是不是最終那個 Super App，我覺得其實是不重要的。為什么？因為 AGI 是一件長周期的事，顯然不是 2024 年或者 2025 年就實現(xiàn)的，我們其實不需要給自己特別大的壓力。

我們真正需要做的事是，讓技術(shù)能夠足夠快地進(jìn)步，同時基于當(dāng)前技術(shù)能力做出的產(chǎn)品，能讓公司的運轉(zhuǎn)效率變得更高、能給用戶創(chuàng)造一定的價值、能給公司創(chuàng)造商業(yè)回報。同時，我們還能有能力做更多的產(chǎn)品，一代一代往上滾，這就已經(jīng)夠了。

美國公司不一定是這樣的路徑。但作為一家中國公司，這至少是有先例可尋的一條路徑。

轉(zhuǎn)載文章請?zhí)砑游⑿牛篻eekparker

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.