全文約 16601 字
預(yù)計閱讀 42 分鐘
和多數(shù)人一樣,在看到 OpenAI 最新發(fā)布的「AI 智能助手」GPT-4o 時,MiniMax 創(chuàng)始人兼 CEO 閆俊杰的第一感覺是「驚艷」。他也為那些演示效果著迷,如絲滑的語音交互、實時的視覺理解、語言捕捉甚至包括了「呼吸聲」。
作為中國第一梯隊的大模型創(chuàng)業(yè)者、OpenAI 的最重要追趕者之一,他迅速看穿了這場「魔術(shù)」背后的手法。在發(fā)布會結(jié)束兩天后,這位以神秘、低調(diào)著稱的從業(yè)者,罕見地做客極客公園直播間,和極客公園創(chuàng)始人、總裁張鵬進(jìn)行了近 2 小時的實時訪談。
從這場發(fā)布會切入,他聊到了技術(shù)和成本、行業(yè)賽點、開源與閉源之爭、投流和 PMF、超級產(chǎn)品等關(guān)鍵問題。
在他看來,這次 OpenAI 展現(xiàn)的技術(shù)難度并不高(比如語音模型處理速率更低、容易對齊到語言模型,實現(xiàn)絲滑語音交互)。使他感慨的是,這位對手在行業(yè)最重要的使命上邁出了重要一步——那就是讓AI為更多普通人所用。
他說,GPT-4o 本質(zhì)是多模態(tài)(文本、語音、視覺)的進(jìn)步。而他很早就意識到,大模型在多模態(tài)的每一次進(jìn)步,都會帶來用戶體驗的提升、獲得更高的用戶滲透率。比如,當(dāng) GPT-4o 擁有更絲滑的語音交互(延時縮短、增加情感等)后,它就會走向更多人。
這也是他于 2021 年底創(chuàng)立 MiniMax 的初衷。彼時。ChatGPT 還沒有出現(xiàn)、業(yè)內(nèi)也沒有人相信大模型。促使他一定要創(chuàng)業(yè)的動力是,「把人工智能做成通用、服務(wù)大眾這件事是很重要的。」
在這個目標(biāo)驅(qū)使下,MiniMax 是行業(yè)少有的同時做模型、產(chǎn)品的公司。目前,MiniMax 是國內(nèi) AI 產(chǎn)品做得最出色的公司之一。其產(chǎn)品主要分為兩類:一是「星野」代表的娛樂類,對標(biāo) Character.AI,目前處于國內(nèi)領(lǐng)先位置;一是「海螺 AI」代表的效率類,對標(biāo)ChatGPT,尚在起步階段、但是他目前最看重的產(chǎn)品。
GPT-4o 的發(fā)布,讓他更明確了「海螺 AI」接下來的研發(fā)方向。他說,下半年的目標(biāo)是,要把過去彼此獨立的多模態(tài)大模型融合在一起。并且他認(rèn)為,這會是未來行業(yè)的「必答題」,效率類產(chǎn)品必須跟上。不過他認(rèn)為,從長遠(yuǎn)看效率類產(chǎn)品的本質(zhì)方向,仍然是要提升底座語言大模型的上限。因為其最重要的指標(biāo)是用戶對回答的滿意度,而現(xiàn)在連 ChatGPT 的回答滿意度都只有 60%。
盡管 AI 在過去一年多引起了全球廣泛關(guān)注,但它距離為普通人所用的未來還很遙遠(yuǎn)。閆俊杰做了一個演算,目前國內(nèi)最好的效率類產(chǎn)品DAU只有 400 萬、國外是 1000 萬,這意味著 AI 在移動端的滲透率可能不到 1%。從業(yè)者們要做的努力還有很多。
用戶滿意度和滲透率、以及背后需要的技術(shù)進(jìn)步,似乎一直是他思考的「第一性原理」。而當(dāng)我們談到成本、商業(yè)化、行業(yè)競爭等等關(guān)鍵問題,他的答案都圍繞這點展開。比如他說,「投流是因為技術(shù)沒有拉開足夠差距」、「搞不懂 PMF,其實有了用戶時長就會有商業(yè)價值」、「如果創(chuàng)業(yè)者沒有做出足夠創(chuàng)新,這件事就該大廠干」……在這場對話里,我們能看到這位技術(shù)向 CEO 難得的「簡單」、少見的「坦誠」。
那么,最終我們何時能迎來大模型時代的 Super App、真正讓 AI 普及大眾?他說,也許目前的產(chǎn)品都看不到這個可能,但這并不是一個重要的問題。原因在于,AGI 的路很長,很多事情無法現(xiàn)在就看清,沒有必要給自己這么大的壓力。還是那個回答,做好技術(shù)和產(chǎn)品,有能力跟上一代代的創(chuàng)新,最終才有機會看到那一天的到來。
以下是這次直播對話的實錄,經(jīng)極客公園整理后發(fā)布:
談?wù)Z音助理:效果驚艷、
能提升用戶滲透率,
且在技術(shù)上并不難實現(xiàn)
張鵬:你應(yīng)該也是非常詳細(xì)關(guān)注了 GPT-4o 和谷歌I/O的這兩個發(fā)布會,它們的風(fēng)格其實挺迥異的,你個人對哪個印象更深?更喜歡哪個?可以分享一下原因和理由。
閆俊杰:一方面,我自己其實是一個用戶,會每天使用這些 AI 產(chǎn)品。另一方面,我自己又是從業(yè)者,所以有很奇怪的兩種不同感受。
看 GPT-4o 的發(fā)布會的時候,作為用戶來說,我覺得非常驚艷。特別是那兩個演示,一個是(AI 聽懂了)呼吸聲,一個是拍照做一些事。我當(dāng)時覺得為什么人工智能可以變得這么流暢,大家都覺得實時的語音交互是第一次有人實現(xiàn)。這個事確實很成功的,非常顯然 GPT 發(fā)布會的風(fēng)口和傳播量是大于谷歌的。用戶肯定覺得 OpenAI 的發(fā)布會更震撼。
不過發(fā)布會那天晚上,我就開始想這個東西到底怎么實現(xiàn)的。大概想了半個小時之后,就覺得實際上是很直接的事。為什么?原因是,說話是比打字要慢很多的。比如說現(xiàn)在正常的語言模型,基本上每秒可以處理的 token 是十幾個到二十幾個量級。但是說話其實每秒只能說 3-5 個字,大概只有 4-5 個 token。所以語音的速度是遠(yuǎn)遠(yuǎn)慢于現(xiàn)在標(biāo)準(zhǔn)的語言模型的處理速度的。
這個意思就是說,只要把語音的模態(tài)——就像之前做圖片跟文本一樣,只要把它對齊到語言模型上,把它改造成一個成純流式的交互,這件事改造起來非常自然。
所以我覺得這件事體現(xiàn)出來兩個事:第一,OpenAI 還是能夠從非常底層思考這個事。第二,這個事的技術(shù)難度其實遠(yuǎn)小于 Sora 或者一開始 GPT-4 的技術(shù)難度,這就是我看 OpenAI 發(fā)布會的感受。
張鵬:那看了谷歌的發(fā)布會你有什么感覺?
閆俊杰:谷歌的發(fā)布會不是看的直播,而是第二天看了完整的兩個小時視頻。它最前面是 DeepMind 負(fù)責(zé)人講了很多技術(shù)的部分,這部分就很像是一個中年男人拖家?guī)Э趤砀憧蒲校欢纫獫M足股東、又要滿足用戶、又要滿足市場對谷歌的期待。
張鵬:還得不能讓社會質(zhì)疑你有 ethic(倫理)的問題。
閆俊杰:對,相當(dāng)于畫了很多目標(biāo),幾千人的研發(fā)團(tuán)隊大概做了一年,做出來了很多東西。每一點應(yīng)該都不是最好的,但是能同時做這么多東西,從芯片到產(chǎn)品都做,可能也只有谷歌有這么多的研發(fā)力量能做。
但是我比較震撼的是它的 AI 搜索。AI 搜索在過去幾個月很火,海外有 Perplexity,包括 ChatGPT 在內(nèi),以及國內(nèi)很多助手,大家都會做搜索,甚至聲稱替代了傳統(tǒng)的搜索。坦白說,我覺得目前這些產(chǎn)品的搜索和谷歌展示的那一套 AI 搜索,還是有非常大的差距。
因為我覺得里面非常核心的東西,可能只有谷歌才有。比如很多實時的本地的信息,這些信息對一些高價值的場景其實有非常大的價值。如果我是用戶的話,我其實非常愿意用這樣的搜索,這種體驗絕對不會是在 ChatGPT 里外接第三方的搜索引擎就可以實現(xiàn)的。坦白說,我覺得這是谷歌真正的壁壘。
其次,目前大家用的其他的 AI 搜索產(chǎn)品里面,只有單步的推理,谷歌展示了多步推理,這對搜索體驗的提升還是非常大的。這個事谷歌也是第一個做的。它本身不難,原來的語言模型能夠支持就好了,但是說明谷歌已經(jīng)想得非常深刻了。
最后,可能是谷歌獨有的優(yōu)勢。實際上包括 OpenAI 在內(nèi),幾乎所有公司的視頻理解都做得比較一般。甚至 GPT-4o 里面展示的東西,它的 Camera 其實處理的也不是 video,而是靜止的圖像。真正能夠做到非常流暢的視頻理解,效果比較好的,好像只有谷歌。Gemini1.5 做的相當(dāng)不錯了。
我在想為什么這件事這么重要呢?為什么谷歌非得做這件事呢?其實也可以理解,原因是谷歌有大量 YouTube 的視頻,但是這些視頻無法被展示出來。因為之前的搜索只能有一個標(biāo)題,或者非常簡單的標(biāo)簽。現(xiàn)在這個技術(shù),就可以把這些視頻加到搜索的結(jié)果里面去了,這是非常獨特的一件事。
總體來說,我比較受震撼的是有了 AI 之后,真的可以把搜索這件事有質(zhì)的提升,并且這件事谷歌已經(jīng)走得非常靠前了。
張鵬:感覺我們大部分都是觀眾,看完發(fā)布會的「魔術(shù)」都「哇」一下,但你是「魔術(shù)師工會」的,你看完了會琢磨一下這個「魔術(shù)」怎么實現(xiàn)的。比如語音這件事看起來很厲害,但沒有想象中那么難實現(xiàn)。所以有人評價說,OpenAI這次主要是工程上的進(jìn)展,它選擇了一個明確的目標(biāo)、甚至可能針對發(fā)布會的場景做了很好的想象,然后它的工程能力配合技術(shù)能力、完美的把這個點打爆了。而不像上次 Sora 那樣是技術(shù)的本質(zhì)變化。這么理解對嗎?
閆俊杰:可能不同的人對系統(tǒng)、算法、工程的理解都非常不一樣,我說一下技術(shù)上的理解。
雖然我也不知道 OpenAI 具體是怎么做的,但我猜 OpenAI 的語音技術(shù)可以分成兩步:第一,用大模型做語音的合成。第二,把大模型的語音合成和語言模型合在一起。第一步其實去年有了非常多進(jìn)展,但問題是在做交互的時候,要先把聲音變成文字、再用語言模型生成回復(fù)、再用這個模型來跑一遍。
張鵬:當(dāng)時不是端到端的實現(xiàn),而是要分幾步。
閆俊杰:對,這個會造成延時和信息丟失。這次 OpenAI 就更進(jìn)一步,直接把語音模型和語言模型合在一起了。
這在技術(shù)上是比較容易做的,因為聲音和語言模型都是 Transformer 的模型,本質(zhì)上就是把聲音模型的 incoder(編碼器),對齊到一個語言模型上去。這個事在圖片里面已經(jīng)發(fā)生了,現(xiàn)在只是把圖片換成了聲音。而且因為聲音的處理速度遠(yuǎn)低于文字處理的速度,所以改造成流式是非常自然的。
這帶來的結(jié)果是,原來 ChatGPT 的語音交互、包括海螺 AI 的語音交互,大概延時會有兩秒。現(xiàn)在純流式了,延時只有 300 毫秒,就是說一個字的時間。
張鵬:所以這種語音技術(shù)路線其實并不難、而且很早就被證明是可行和明確的,這是否意味著它不會是OpenAI的獨門技術(shù),而是可以迅速擴散到更多的公司?
閆俊杰:我覺得如果一個公司或者組織,它之前能獨立做好語言模型、并且能獨立地做好利用這種 LLM 方式做聲音的模型,如果這兩個都具備了,把它合在一起是相對比較輕松的。不過這背后還涉及到很多工程鏈路上的優(yōu)化。
但比較核心的還是你的目標(biāo)是什么。比如 OpenAI 為什么要把語音延時降到 300 毫秒,本質(zhì)上是因為在移動端,每當(dāng)你降低延時、對用戶體驗就會帶來特別大的提升。為什么線上會議沒法替代線下見面,核心就是它有幾秒的延遲。而延時優(yōu)化的極限就是一個字的時間,300 毫秒,你在這個目標(biāo)下最后就會推出來最合理的技術(shù)路線。
張鵬:延時的問題我很有感觸,之前有聲音賽道的創(chuàng)業(yè)者跟我說,如果延時超過一秒,用戶就會發(fā)現(xiàn)對方跟自己不在一個地方聊。所以語音助理沒有延時之后,你感覺它從云端,走到了你房間里,這個感覺給人的沖擊感是非常強的。它對用戶體驗的提升有多強?語音是否會成為主流的交互方式?
閆俊杰:過去一年非常明顯的變化是在車?yán)锩妫憧梢钥吹叫履茉窜嚴(yán)锏恼Z音滲透率是顯著變高的,這說明在一個場景里,如果你能夠把語言的交互做得非常好用、且有實際價值,它的用戶滲透率就會變高,至少在智能車艙里面已經(jīng)實現(xiàn)了。這個事在現(xiàn)實生活中也會是一樣,這也是為什么 AI 公司會越來越重視聲音交互的原因。
過去一年大模型雖然是非常熱的詞,但現(xiàn)在全球每天使用 AI 產(chǎn)品的人只有四千多萬,而這四千多萬里有三千多萬在用 ChatGPT,而這三千多萬有兩千萬是用 Web、一千多萬是用手機。而現(xiàn)在全球每天使用手機的人可能有 4 億人,所以 AI 在移動端的滲透率可能不到 1%,這是非常低的數(shù)字。真正主流的產(chǎn)品,比如說短視頻、或者長視頻、或者社交,它的滲透率應(yīng)該都是 50% 以上。
我覺得未來有志于做 AI 產(chǎn)品的公司,一定要思考一個邏輯,那就是怎么讓用戶滲透率變高。其實唯一的方式就是讓更多的場景可用、讓更多的人可用。我覺得聲音應(yīng)該是符合這個趨勢的,它可以讓一些不方便打字的人進(jìn)來、并拉來更多場景。這是 AI 公司提高滲透率的一種努力。
張鵬:你覺得它是會增加存量用戶的黏性、還是獲取更多增量用戶?
閆俊杰:這兩個事都可能會發(fā)生。我們發(fā)現(xiàn)很多場景確實只有語音才會發(fā)生,舉個例子,比如說在海螺 AI 里面,很多家長會讓它給小孩講睡前故事。這顯然擴充了使用人群。
再比如,我們發(fā)現(xiàn)有很多用戶會用它來學(xué)英語口語。從這個維度上來說,它應(yīng)該是提升了用戶的活躍。還有我自己親身的例子,我今天春節(jié)回到老家看我外公,他已經(jīng) 80 歲了。他在很破的安卓手機上裝了海螺 AI,會跟它打很久電話、討論歷史人物。之前你很難想象一個 80 歲的老人會這樣用 AI。
而他們在用這個產(chǎn)品的時候會真的把 AI 當(dāng)成一個人,比如他會說你(AI)聲音能不能大一點,其實潛意識里把它當(dāng)成人了。
這也是我們?yōu)槭裁茨敲聪嘈磐ㄓ弥悄艿脑颍褪欠?wù)普遍人的東西。問題是整個行業(yè)的滲透率確實沒那么高,更簡單的交互是很重要的一方面。
張鵬:你說過自己很早就堅信多模態(tài),是因為產(chǎn)品每擴展一次模態(tài)、都能擴展一批新的用戶。你預(yù)測ChatGPT改善語音技術(shù)之后,它的DAU、用戶時長這些數(shù)據(jù)會有什么變化?
閆俊杰:實際上現(xiàn)在沒法猜,因為它還沒有上線。我覺得使用時長會變長,但是用戶滲透率會不會有顯著的變化,我其實比較懷疑。
張鵬:語音交互確實對人有門檻的,很多上一代做語音交互的朋友們復(fù)盤過,大家打開一個語音助理之后會突然不知道說什么,然后就停了,這件事跟技術(shù)其實沒有關(guān)系。它其實需要用戶有比較強烈的目標(biāo)和意愿去用。
閆俊杰:對,我覺得對年輕或者比較年長的用戶會更友好,對中間的用戶反而不會。原因是因為,愿意使用 AI 的人、或者聽過 AI 的人,大概率至少試用過一些東西了。
談行業(yè)賽點:多模態(tài)融合
是大模型行業(yè)「必答題」,
決定效率類產(chǎn)品的成敗
張鵬:你自己也在大模型領(lǐng)域創(chuàng)業(yè),各項技術(shù)能力都在主動跟OpenAI、谷歌做對標(biāo)。看完這兩場發(fā)布會之后,你感到的更多是一種興奮,還是一種挑戰(zhàn)?
閆俊杰:我覺得有人跑在你前面是好事,這說明這個行業(yè)上限遠(yuǎn)遠(yuǎn)沒有到。
我個人是非常期待 OpenAI 會出 GPT-5 或者其他的東西,即使作為一個業(yè)內(nèi)人士,我也是希望 OpenAI 進(jìn)步速度能保持這么快。反正也沒有競爭,實際上沒有任何的競爭。但是這不是因為不想跟他們競爭,是他們太強了,構(gòu)不成競爭。
至少目前,真正把算法匯成產(chǎn)品,真正開拓 AI 行業(yè)邊界的,主要還是 OpenAI,如果他們能夠非常快地開拓 AI 的邊界,至少說明 AI 的用戶滲透率是有底層動力的,而且這個動力可持續(xù)的。
OpenAI 可能比中國公司多 10 倍的研發(fā)資源,如果他們都做不出來創(chuàng)新,這才是這個行業(yè)比較可怕的一件事。
張鵬:你有方法、有路徑,有計劃,未來可以在你們的產(chǎn)品里見到跟OpenAI今天類似的用戶體驗嗎?大概多長時間可見?
閆俊杰:首先我覺得這個事肯定可見的,雖然他們怎么做的我不知道,但是我覺得我剛才的分析應(yīng)該是對的,至少那種方法可以實現(xiàn),至少它是有一條比較明確的路徑。
其實對我來說,主要的挑戰(zhàn)不是語音模型,主要還是把語言模型做得盡可能好。真正的原因是因為,現(xiàn)在的多模態(tài)實際上還是以語言模型作為核心的。今年我們在做上一版 ABAB6.5 的時候,我們其實把萬億量級的 MoE 這件事做通了,這還是個語言模型。
另外,我們在去年的時候,每個模態(tài)都是獨立的,雖然它們有同樣一套框架、里面都是 Transformer,代碼也是差不多的,但是它的數(shù)據(jù)和模型是獨立的。現(xiàn)在我在設(shè)計下一版的模型,我們下半年的核心考慮是如何能夠能有一個上限更高的語言模型,以及把這些不同的模態(tài)合在一起。
我們還沒有完全設(shè)計完,還有很多的實驗需要做。但是它基本上已經(jīng)是可見的東西了。接下來這個模型會分成兩個階段:第一,設(shè)計階段,有很多假設(shè),你要做很多實驗驗證你的假設(shè)。第二,假定,你認(rèn)為你的假設(shè)驗證得差不多了,把這些東西合在一起,最后訓(xùn)練這個模型。
這里面的 trade off(權(quán)衡)是說,你的這些假設(shè),或者你設(shè)計的這些預(yù)測實驗,到底要做到多好?這是我們正在經(jīng)歷的一個事。
張鵬:最近聽到谷歌提的比較多的是One network Moti-modelity,多模態(tài)是在一個神經(jīng)網(wǎng)絡(luò)里實現(xiàn)的。現(xiàn)在MoE 在訓(xùn)練萬億大參數(shù)的模型上是非常有效的方法,但下一步如果做多模態(tài)融合,方法上會跟以前有什么不一樣嗎?
閆俊杰:這個是兩個維度,第一個是中間這步都是一堆巨大的 transformer,為了提升效率,不管訓(xùn)練效率還是推理效率,大家主流的選擇都是一套 MoE,比如 GPT-4。據(jù)傳 Gemini-1.5 也是長這個樣子。如果你做一個大概幾千億參數(shù)的模型,基本上這就是必然的選擇。
第二個,你有不同的模態(tài),怎么樣能夠合到這個大的以 MoE 為基礎(chǔ)的主干模型上,這就是多模態(tài)。現(xiàn)在已知的東西是,怎么把視覺的理解跟主干模型合在一起,比如說像 GPT-4v,你先有一個巨大的 MoE,再把視覺的東西對齊,就可以有比較好的視覺的理解。
未知的東西有這么兩個:
第一,GPT-4o 里面展示的,把聲音也對齊到里面去,這是 GPT-4o 干的其中一件事。
第二,生成的這部分,比如說圖片的生成、視頻的生成能不能合進(jìn)來。至少現(xiàn)在,視頻是沒有實現(xiàn)的,比如說 Sora 是獨立的模型。為什么會這樣?原因是視頻的 tokenizer(標(biāo)記)是有損的壓縮,基本上要通過 diffusion(擴散)才能恢復(fù)到一個比較正常的狀態(tài),現(xiàn)在還沒法整。當(dāng)然會有很多人做,可能明年才會整合一起。但是視頻的生成目前還不知道怎么整合的。
圖片的生成我不知道,比如說在上一代 DALL-E 3 的時候,其實也沒有整合在一起的,也是獨立的模型。但是這次看 GPT-4o 的話,我感覺它們似乎整合在一起了,但是我不是特別確定。我覺得基本上底層的技術(shù)就是這樣了。
張鵬:那么緊接著多模態(tài)統(tǒng)一融合的能力,會不會成為下一個階段大模型領(lǐng)域、尤其是中國的創(chuàng)業(yè)公司們要去提升的目標(biāo)?這是不是所有人都必須要跟上、必須要解決的問題?
閆俊杰:我更覺得是必須要做的事。其實這分兩個產(chǎn)品,目前AI產(chǎn)品有兩種,一種是滿足娛樂需求的,一種是滿足效率的。娛樂的不說了,是運營的屬性、產(chǎn)品的屬性,更加偏綜合產(chǎn)品能力的事。
偏效率的一定是需要做(多模態(tài))的,因為從歷史上來看,所有效率的產(chǎn)品基本上最終大家只會用最好的。比如說有兩個產(chǎn)品,一個可以做很多東西,一個只能搜文字,那大家一定會用那個啥都能做的那個產(chǎn)品。當(dāng)然這個前提是說,這個(多模態(tài))賽道是存在的。關(guān)于這個賽道是不是存在,其實也是需要很多努力的。
張鵬:可不可以理解為 Sora 是「選答題」、可以不選,但是多模態(tài)的統(tǒng)一融合是「必答題」、如果答不好就會出局?
閆俊杰:我覺得你這個概述還是挺好的,之前沒想到這樣,確實更像是一個必答題。
Sora 這個東西其實有不同的用法,比如說有 PGC 的用法、作為工具屬性的用法,也有 UGC 的用法、會涉及很多產(chǎn)品、內(nèi)容的東西,不是 AI 都要做的東西。
但是在工具類、效率類、助手類的產(chǎn)品上,只要有公司做出來(多模態(tài)),其他公司必須跟上。因為基本上就這么點技術(shù)。
談生態(tài):「智能語音助理」
爭奪戰(zhàn),巨頭和創(chuàng)業(yè)公司
是復(fù)雜的競合關(guān)系
張鵬:這次我們看到語音助理這個事,蘋果想用到 Siri 里、谷歌想非常深層地用到安卓體系里,似乎它會是個很重要的入口級的東西,這個事最終會是巨頭的 Game 嗎?創(chuàng)業(yè)者還能干嗎?
閆俊杰:首先,這個產(chǎn)品的所有用戶體驗幾乎都來自于模型的能力。它不太取決于產(chǎn)品是巨頭的產(chǎn)品、還是創(chuàng)業(yè)公司的產(chǎn)品,只是取決于背后是什么樣的技術(shù)水平。它考驗的是你能不能做出一個體驗最好的模型。這里面涉及到你的技術(shù)模型怎么做、怎么做很好的對齊、怎么優(yōu)化你的延時,怎么提高工程的效率、怎么降低計算成本等等。
其次,在商業(yè)層面,這個產(chǎn)品背后肯定要消耗成本。因為現(xiàn)在的AI產(chǎn)品跟早期移動互聯(lián)網(wǎng)產(chǎn)品的本質(zhì)區(qū)別是,以前我們不需要考慮每天維護(hù)用戶的成本,現(xiàn)在我們都要考慮。所以這一代產(chǎn)品怎么變現(xiàn)是比較直接的。而手機上產(chǎn)品的商業(yè)價值有多大,幾乎取決于它有多長的用戶時間,因為用戶時長總是有標(biāo)準(zhǔn)化的變現(xiàn)手段。
這樣的產(chǎn)品,假設(shè)它能做到大部分的需求都在里面解決,比如說當(dāng)我想要搜索的時候,我不需打開百度了。或者我需要看一個視頻的時候,不需要在抖音里看了。只要它占有用戶足夠長的時間,那它的商業(yè)化效率就是足夠高的,它的商業(yè)化跟時長是成正比的。
這個事最終會變成,產(chǎn)品的競爭力取決于技術(shù)能力,商業(yè)競爭力取決于你占有多少用戶市場。
張鵬:我再具象一點,蘋果屬于完整的從硬件到軟件的掌控者、安卓在操作系統(tǒng)上有天然的優(yōu)勢、OpenAI是新型的基于大模型能力的創(chuàng)業(yè)公司,如果未來這三家公司都在搶占語音助手這個最關(guān)鍵的入口,誰更有可能是贏家?創(chuàng)業(yè)公司能贏得這個位置嗎?
閆俊杰:我覺得這里面有各種各樣的博弈、競合關(guān)系,在搜索里已經(jīng)發(fā)生了。我們能看到蘋果里集成了谷歌的搜索,谷歌每年給蘋果很多錢,為什么谷歌愿意付錢?顯然因為谷歌在蘋果里做搜索的商業(yè)價值,要大于谷歌自己付的錢了。
但是我覺得不管怎么樣,如果看第一性原理的話,那在這里面如果誰能把東西做出來、并且把體驗做得顯著地好,那至少在里面你應(yīng)該會有一席之地。
這件事我覺得更利好于擁有設(shè)備的公司,為什么?比如說我買一個小米的手機,只要給小米付一次錢,之后這個小米手機創(chuàng)造多大的價值,其實都跟小米沒有關(guān)系了。唯一有關(guān)系的是,小米商店里面的分發(fā)里面會有分成,其他的基本上沒有關(guān)系了。
張鵬:也有一些負(fù)一屏的內(nèi)容廣告,都是比較薄了。
閆俊杰:負(fù)一屏的內(nèi)容水平顯然是沒有抖音或者小紅書高。其實手機提供了很多用戶時間,比如說我在小米上裝了一個抖音,一個用戶在抖音上花了很多時間,但所有的錢跟小米一點關(guān)系沒有,都被抖音轉(zhuǎn)走了。
我覺得一個比較強的 AI 助手的好處是說,它確實能夠讓手機的操作系統(tǒng)這層占領(lǐng)很多用戶的時間,因為可以滿足很多多樣化的需求。這個事相當(dāng)于是說它其實是把很多價值從 APP 里拉到手機上。
張鵬:最近我們也看到傳聞,蘋果跟OpenAI有可能在智能助手這個層面產(chǎn)生合作。所以按照你的推理,一家在大模型里做的非常優(yōu)秀的公司,和一個對生態(tài)硬件、軟件有掌控力的手機巨頭,最終大家合在一起、在未來的生態(tài)里產(chǎn)生新的價值分配,這是符合邏輯的?
閆俊杰:對,實際上就是用戶時間的分配,而這又考驗背后的技術(shù)和產(chǎn)品能力。
張鵬:反過來說,如果 OpenAI 沒有跟蘋果合作,而是成為最強的 Super APP,作為獨立的力量去挑戰(zhàn)現(xiàn)有的生態(tài)、甚至對原有價值鏈進(jìn)行重構(gòu),你認(rèn)為存在這種可能性嗎?
閆俊杰:這主要看它的規(guī)模。現(xiàn)在 1000 萬 DAU 的 APP 顯然不夠格。到 Mata 這種 10 億 DAU 量級的,估計會有本質(zhì)的變化。但即使是OpenAI,距離這個也有 100 倍的距離。
張鵬:現(xiàn)在想著做所謂大一統(tǒng)的 Super App、超級入口還是很難實現(xiàn)的,今天更現(xiàn)實的是怎么把DAU從一千萬漲到 1 億,這也是 OpenAI 很頭疼的事。
閆俊杰:我猜這也是它們?yōu)槭裁催@么在意語音的原因,因為這個東西確實有可能會提高滲透率。
談技術(shù)路線:
投入通用基礎(chǔ)大模型、打造
通用產(chǎn)品,能看到真正的未來
張鵬:前段時間在整個創(chuàng)業(yè)者的圈子里,大家圍繞基礎(chǔ)模型和開源模型爭論很大。本質(zhì)上是說,你要么自己做一個智能引擎,要么就買一個自己改。其實模型、產(chǎn)品雙輪驅(qū)動,自己同時做基礎(chǔ)模型和產(chǎn)品,滾動著往前走是最好的。但很多創(chuàng)業(yè)者說這風(fēng)險很大,模型的一次迭代跟不上、或者產(chǎn)品 PMF 的一次失敗,就不行了。你怎么看這兩種路線?
閆俊杰:我覺得這本身是風(fēng)險很大的事。先不說同時做模型和產(chǎn)品,只做模型、或者只做產(chǎn)品,本身就是風(fēng)險很大的事。
張鵬:創(chuàng)業(yè)其實就是生死游戲。
閆俊杰:對,確實是很殘酷的事。比如我們看美國的公司,OpenAI 是都做,Aanthropic 之前只做模型、昨天他們把 Instagram 的 CTO 也招過去了,我不知道是不是它們也有可能做產(chǎn)品。我覺得至少對做模型的公司來說,自己做產(chǎn)品幾乎是必然的選擇。我們算是比較堅決的,有些公司后面變成這樣了,這是必然的。
反過來,其實對做產(chǎn)品的公司也是一樣的。比如說我們國內(nèi)的開放平臺上,有很多做產(chǎn)品的公司和客戶,其實規(guī)模還挺大的,大概有接近一千家。這里面有大的公司,也有小的創(chuàng)業(yè)公司。其實坦白說,對所有這些公司來說,如果它們的產(chǎn)品得很大,他們也希望自己掌控模型的。這也是必然的一個路。
所以這里面核心的考慮還是說,如果你覺得這件事是對的,本質(zhì)上是說你現(xiàn)在有多少資源、最大化優(yōu)化你們想優(yōu)化的目標(biāo)。對我們來說,我們的目標(biāo)是要最大化地優(yōu)化用戶體驗,那我們覺得這兩個東西(模型、產(chǎn)品)都是重要的,只能兩個東西都做,才能最符合我想優(yōu)化的目標(biāo)。
不同的人定義的目標(biāo)不一樣、路徑不一樣,就會出來很多不同的公司。
張鵬:所以產(chǎn)模一體歸根到底是我們追求的最終目標(biāo),只是很多人基于今天已有的資源,會發(fā)現(xiàn)燒錢太高、風(fēng)險很大,但這只是階段的選擇問題。
閆俊杰:還有一個更底層的原因。舉個例子,假設(shè)有個需求要滿足,而這個東西需要通過模型來滿足——那如果是(模型和產(chǎn)品都在)一家公司,你的路徑是優(yōu)化這個業(yè)務(wù)指標(biāo)就可以了。但如果(模型和產(chǎn)品是在)兩家公司,你們干的事是把這個指標(biāo)轉(zhuǎn)成一個對模型的要求,讓給你提供模型的公司優(yōu)化這個指標(biāo)。
這中間本身損失了很多信息,并且讓周期變長。這個事一定不是最大化業(yè)務(wù)指標(biāo)的方式。
當(dāng)然這個事上,微軟例外。核心原因是,微軟的這些場景,Bing 的搜索、還有 office,其實都是一些能夠變得非常標(biāo)準(zhǔn)化的東西,基本上主要依賴于模型的通用能力。OpenAI 的通用模型是最好的,那就可以給這些產(chǎn)品用。在這種情況下(模型和產(chǎn)品分開)是合理的,但是大部分情況下不是最優(yōu)的選擇。
張鵬:你提了一個非常好的問題,就是我們到底是要根據(jù)模型能力造產(chǎn)品,還是要根據(jù)產(chǎn)品目標(biāo)去改模型?我打個比方,如果模型是一把槍,產(chǎn)品是靶子,我們今天到底是要造更通用的機關(guān)槍、在更多領(lǐng)域命中靶子,還是應(yīng)該造一把高精度的狙擊槍、就打中某個具體的靶子?
閆俊杰:其實這個事背后有一層含義,咱們講這個時間點,AI 背后是有一些技術(shù)紅利的。這個紅利是說,全世界有這么多聰明的人、這么多資源、這么多社區(qū)在做這件事。這件事的價值或者能力遠(yuǎn)大于單個公司,也大于 OpenAI 的,顯然也大于任何一個中國的創(chuàng)業(yè)公司。
所以一家公司的研發(fā)水平不是一家公司封閉做出來的,而是這家公司的自身能力加上整個行業(yè)整合出來的。只是不同公司利用的效率不一樣。包括 OpenAI 在內(nèi),它們很多的東西不是原創(chuàng)的,可能是谷歌做出來的,但是它們把它很好的整合在一起,擴大規(guī)模,就變成現(xiàn)在的狀態(tài)。
其實把模型做通用這件事,是一個比較容易來吸收到整個社區(qū)進(jìn)展的途徑。這件事本身是有巨大的紅利的。
張鵬:今天你應(yīng)該站在那個位置上,把更多的能力拿出來,讓更多的人跟你共創(chuàng),也許是用戶、也許是產(chǎn)業(yè)里面的其他創(chuàng)業(yè)者兄弟們,OpenAI有這樣的感覺。但如果今天你只是做某一個產(chǎn)品、維系你自己的「菜園子」,你可能失去了世界與你共創(chuàng)的機會。
閆俊杰:客觀的說不是世界與我們共創(chuàng),是我們與世界共創(chuàng)。
張鵬:我看 SamAltman也不斷提醒,大家不要基于今天模型的一些具體問題去打補丁,這其實是浪費時間。因為技術(shù)在滾滾向前,你在這個時空剛把補丁打完,這件衣服可能都已經(jīng)換了,會出現(xiàn)這樣的問題。
閆俊杰:客觀上說能夠做什么產(chǎn)品,其實是由技術(shù)的周期決定的。
比如說目前這一代,我們見過的所有產(chǎn)品基本上是以文字的交互為主,產(chǎn)品的功能基本上是助理這個層面的。不管是娛樂還是效率,基本上都是 copilot(輔助助理)這個框架。只是不同的人基于不同的理解、不同的資源、不同的團(tuán)隊,組成了不一樣的東西。
假設(shè)我們有更好的模型,能力比現(xiàn)在再顯著地提升,比如所有的測試都可以做得非常好,它可以獨立來工作了,就不是一個 copilot、可能是一個 auto-pilot(全能助理),這顯然會產(chǎn)生更多完全不一樣的產(chǎn)品形態(tài)。
但是這個東西不是產(chǎn)品設(shè)計出來的,而是當(dāng)你把技術(shù) Push 到某一個階段的時候,這個產(chǎn)品自然就清楚了。
談成本:技術(shù)成本
兩年內(nèi)可能降 100 倍,
這比探索技術(shù)上限容易多了
張鵬:我想把話題延展到很具象的東西,前些天我跟投資人算了算賬,今天千萬級DAU的產(chǎn)品,恨不得一天花掉 200 萬的成本,很高的。比如今天 GPT-4o 如果容納了更多用戶、獲得了更大的用戶粘性,它每天的成本得有多高?你肯定掌握一些成本結(jié)構(gòu)的判斷,能不能幫我們算一算?
閆俊杰:其實語音比文字便宜的,因為語音慢。比如文字一秒要生成 20 個 token,但語音一秒只有 4-5 個 token。而且人聽的時候也慢,我看一千個字只需要一分鐘,但是我聽一千個字應(yīng)該是很長的時間。
所以假設(shè)使用相同的時間,語音其實更便宜的。
張鵬:這挺反常識的。
閆俊杰:你覺得聲音更貴,其實更便宜,這是第一點。
第二,優(yōu)化或者降低成本一直是學(xué)術(shù)界非常經(jīng)典的研究領(lǐng)域,很多年前我自己也在這個領(lǐng)域做了很多工作。但它實際上不是業(yè)界最高端的領(lǐng)域,最高端的領(lǐng)域一定是說如何拓展技術(shù)的邊界。
一旦你能夠拓展技術(shù)邊界之后,怎么把成本降低 10 倍這件事,其實從最早的機器學(xué)習(xí)時期,比如我當(dāng)年讀博士的時候,到 2012-2022 年這 10 年用 CNN 來做(卷積神經(jīng)網(wǎng)絡(luò))的時代,怎么來量化、減值、增流是有一套非常標(biāo)準(zhǔn)的 pipeline。
在 Transformer 這一代里面,其實也可以復(fù)用上一代的 pipeline。比如說做量化;比如說當(dāng)你有一個非常長的 context window(聊天框)的時候,如何做緩存,效率更高、時間更低;比如說如何優(yōu)化你的 attention(注意力)……有很多方法來做這件事,這其實是沒那么難的東西,你只需要把每步做得足夠好,拼在一起就會帶來很大的變化。
張鵬:也就是說,相比于探索新大陸,現(xiàn)在掘地三尺把礦挖出來其實挺容易的?
閆俊杰:這個事我們想一下就知道了,比如說去年 3 月份剛有 GPT-4 的時候,那個時候又慢又貴,但是我們現(xiàn)在其實看 GPT-4o,包括之前的 GPT-4turbo,又便宜又快,效果又好,這只是過去一年發(fā)生的事。價格可能降了 10 倍,但實際上 OpenAI 比這個價格的降低還要更多。
我們大概算過,如果有兩年的時間,成本可以下降近 100 倍。其實我覺得,技術(shù)的上限這件事相對來說沒那么確定,需要更多的探索。但是成本下降這事,一定是有辦法的。這個事在學(xué)術(shù)界已經(jīng)發(fā)生了三次了。
張鵬:今天有的人在拼命地優(yōu)化技術(shù)成本,有的人在拼命提升模型能力、想做到最 top,在你看來后者是不是更重要?
閆俊杰:我覺得從結(jié)果上來是這樣的,但是從過程上兩個事是相互轉(zhuǎn)化的。這個其實是大模型里面一個非常重要的規(guī)律是,效率跟效果其實可以相互轉(zhuǎn)化的。
假設(shè)訓(xùn)練精度一樣,而你的算力是別人的 1/10,這意味著你能把效率做得很高,那你一定是能夠把模型的上限變得足夠高的。或者反過來說,如果你想要能力達(dá)到那個足夠高的上限,那你一定只有把效率變得非常高,這個事才有可能。
所有人的資源都是有限的,一定是你的效率足夠高、你的上限才能更高。實際上并不是我先沖到邊界后再來做優(yōu)化,實際上兩邊是要一起做的。
這也是為什么大部分研發(fā)越往上越難的原因,它要求你綜合考慮。
張鵬:所以 Sam 說「給我多少萬億、我就能把 AGI 迅速實現(xiàn)」這種話,是不是太不現(xiàn)實了?
閆俊杰:如果類比的話,比如臺積電現(xiàn)在是 7 納米,那他接下來肯定是 5 納米、3 納米、2 納米一代代往下做。他不可能把 5 納米、3 納米都跳過了,突然間說自己能做到 2 納米。我覺得這個不太對,你很難把中間幾步跳過去。
張鵬:遠(yuǎn)大的目標(biāo)還是要一步步走,不能奢望直接通向目標(biāo),這也是創(chuàng)業(yè)的本質(zhì)。
閆俊杰:當(dāng)然可能它們太強了,我沒有理解它們的精髓之處。不過正常情況下應(yīng)該是這樣的。
談投流和 PMF:
國內(nèi) AI 產(chǎn)品不得不投流,
還是技術(shù)沒有拉開足夠差距
張鵬:說到成本,前段時間我們看到,業(yè)界AI產(chǎn)品都開始投流了。我感覺以前移動互聯(lián)網(wǎng)時代,大家好歹是產(chǎn)品達(dá)成了 PMF 之后以后再投流放大,而現(xiàn)在產(chǎn)品需要花錢來測 PMF。一方面整個中國互聯(lián)網(wǎng)流量板結(jié)了,都在巨頭這。另一方面 AI 的能力有限,沒有辦法直接推到用戶面前。這種投流導(dǎo)致的 PMF 成本上升,對這一代 AI 創(chuàng)業(yè)會不會是很大的挑戰(zhàn)?
閆俊杰:我們在這個事上吃過虧的。你發(fā)現(xiàn)這個事在中國,和在美國非常不一樣。比如美國的產(chǎn)品,ChatGPT 顯然沒有投流的,最早期的 Character.AI 也是沒有投流的。偏工具的東西,比如像 Midjourney,它顯然也是沒有投流,更多的是運營。但是反過來說在中國,基本上所有的產(chǎn)品都會投流,這其實是非常明顯的差別。
相當(dāng)于說,美國公司更多的是靠技術(shù)能力和產(chǎn)品能力,大家都不會投流。但是這背后其實也是有代價的,代價就是美國的研發(fā)成本還是會非常高的。在中國反過來了,中國工程師的紅利和產(chǎn)品的紅利相對比較充裕的,但是中國的流量是頭部聚攏的。
但是投流更底層的原因還是因為,目前為止在助手類的產(chǎn)品上,沒有哪家公司能拉開差距。大家在同一個維度上,產(chǎn)品比較同質(zhì)化,技術(shù)能力相對也是比較同質(zhì)化的。為了獲取更多用戶,只有靠投流,這是目前這類產(chǎn)品的困境。
這個東西大家都會有一些解釋,比如說有一種人認(rèn)為獲取 query(用戶詢問)是比較重要的事,如果把 query 本身的價值換算成錢的話,投流是值得的。就看你怎么看這件事了。在技術(shù)不突出的時候,這個東西就是沒辦法。
張鵬:我覺得你選擇了某種「簡單」,就是把技術(shù)做到最好、絕對的領(lǐng)先,這個世界也會變得簡單。如果你不能在這件事上簡單地領(lǐng)先,世界就會對你變得復(fù)雜。你也不會省下多少成本,沒準(zhǔn)成本更高,無非是押在這還是押在那。
閆俊杰:對,所以我們沒有認(rèn)為要花錢買用戶的 query。
我覺得 PMF 這件事是這樣的,一般創(chuàng)業(yè)的時候要寫 BP(商業(yè)計劃書)講你的 PMF 是啥,我們其實一開始沒有搞懂這件事,目前也沒有寫。其實我覺得可以做一些假設(shè):核心就是類似這種產(chǎn)品,只要有用戶時長就能變現(xiàn)。本質(zhì)上,PMF 是以用戶時長來量化的,這是比較標(biāo)準(zhǔn)的東西。目前這類產(chǎn)品是沒有變現(xiàn)邏輯的,但是如果這個東西能做的更大,或者能夠做到某個狀態(tài),是能夠出來一些東西的。
張鵬:其實我覺得在不同的階段,大家需要面對不同的東西,并不是說有技術(shù)的純凈信仰,就一定要做 PLG(產(chǎn)品主導(dǎo)型增長)、就絕對不要投流。我也想到當(dāng)年滴滴在很多的城市都沒有 PMF,都在燒錢,結(jié)果有一天它突然把用戶習(xí)慣和產(chǎn)業(yè)邏輯燒出來了,PMF 出現(xiàn)了。你覺得AI行業(yè)會走跟當(dāng)年網(wǎng)約車一樣的路嗎?
閆俊杰:我覺得不是,因為其實網(wǎng)約車是非常典型擁有網(wǎng)絡(luò)效應(yīng)的業(yè)務(wù),如果你有更多的司機、你就會有更多的用戶,反過來也是一樣。
大模型產(chǎn)品目前為止沒有網(wǎng)絡(luò)效應(yīng),有可能有微弱規(guī)模效應(yīng)。不過還是需要拆成不同的產(chǎn)品類型,比如效率類、娛樂類,單獨來看。
比如單純在效率類產(chǎn)品上,用戶體驗的提升主要不是看用戶是不是變多了,其實主要是看研發(fā)速率、模型迭代效率。相當(dāng)于說,你的技術(shù)能力提高跟你的用戶數(shù)量增長,其實不完全成正比。但在星野這種娛樂類產(chǎn)品上,如果你有越來越多的內(nèi)容,規(guī)模效應(yīng)還是挺明顯的。
張鵬:我覺得今天的創(chuàng)業(yè)確實比移動互聯(lián)網(wǎng)那一代更加不容易了。今天你去投流,所有的流量基本上在巨頭手里,甚至你的 PMF 在它面前都是透明的,因為你不斷地投就說明你找到 PMF 了,它隨時可以跟。創(chuàng)業(yè)者一直在打明牌,巨頭錢多、人多,也有流量,你做產(chǎn)品測試還要給它們「交稅」,這就是這個世界非常真實的真相,你作為創(chuàng)業(yè)者怎么保持自己的希望?
閆俊杰:這確實是非常關(guān)鍵的問題,而且是一個很本質(zhì)的問題。
我覺得偏信仰層面是這樣的。如果你沒有做很多的技術(shù)創(chuàng)新、產(chǎn)品創(chuàng)新,或者說沒有在合理的時間內(nèi)找到足夠的非共識,這個事就不應(yīng)該你干,就是該被大廠干。這不怪大廠壟斷。
我們要思考的是你作為一家獨立的公司,你真正能創(chuàng)新的東西在什么地方?是研發(fā)效率、認(rèn)知、產(chǎn)品體驗還是什么?你如果沒有,創(chuàng)業(yè)就應(yīng)該失敗,也不能怪別人。
張鵬:很務(wù)實的想法,大廠的競爭反而能驗證創(chuàng)業(yè)公司是不是真的有價值。
閆俊杰:是的。不過國內(nèi)的流量被巨頭壟斷,但海外的流量其實相對比較開放,至少很多市場可以自由競爭。所以我覺得雖然很難,但是空間還是存在的。
談產(chǎn)品:
虛擬社交比智能助手
受歡迎,但 super app
可能并不誕生其中
張鵬:說到產(chǎn)品,MiniMax 也是國內(nèi)AI產(chǎn)品做得最早、最好的公司之一,能不能介紹一下你們「星野」、「海螺 AI」這兩款主打產(chǎn)品?它們的發(fā)展情況怎么樣?
閆俊杰:「星野」基本是一個主打 fantasy(想象)的產(chǎn)品。你看它的時長、用戶分布、包括留存數(shù)據(jù),其實它很像小說類的產(chǎn)品。
像「海螺 AI」這種,我們叫它智能助手,但其實它是沒有定義的。原因是目前這類產(chǎn)品最大的都只有 400 萬 DAU,不能算很大的產(chǎn)品,不太能定義這個行業(yè)。
我們的 fantasy 產(chǎn)品算是做的比較領(lǐng)先的,就用戶量來說,它可能比助手類產(chǎn)品要高個 100 倍。我們的助手類產(chǎn)品才剛起步。
張鵬:fantasy 產(chǎn)品這么好,它的交流輪次、使用時長怎么樣?
閆俊杰:我覺得挺夸張的,是很長的時長。
張鵬:為什么當(dāng)年你會做「星野」這種 fantasy 的產(chǎn)品?當(dāng)年的決策邏輯是什么?
閆俊杰:兩年多前我們創(chuàng)業(yè)的時候,大模型還不是共識。我們當(dāng)時認(rèn)為把人工智能做成通用、服務(wù)大眾這件事是很重要的,而且恰好看到非常明顯的技術(shù)拐點,所以就開始創(chuàng)業(yè)了。當(dāng)時,我們也不知道技術(shù)會變成什么樣、產(chǎn)品會變成怎么樣、商業(yè)化會變成怎么樣。
「星野」的前身是「Glow」,我們當(dāng)年做「Glow」的時候既沒有 ChatGPT、也沒有 Character.AI。當(dāng)年我們不是做了很多分析、發(fā)現(xiàn)了機會,決定要來做它。我們的產(chǎn)品都是撞出來的。
張鵬:所以是先有了對 AGI 的信仰,做出了模型的能力,再順著模型能力看能做啥就做啥,是這個邏輯嗎?
閆俊杰:真實的情況是這樣的。為什么這個產(chǎn)品最后變成了「Glow」了、沒有變成 ChatGPT,是 2022 年 10 月份我們當(dāng)時第一版的模型大概只有 30B(參數(shù)),它只能做娛樂的事,因為沒有那么好。
張鵬:你得把 hallucination(幻覺)當(dāng)作它的優(yōu)勢,而不是缺點。
閆俊杰:實際情況是,最開始的時候我們只有一個 pre training,對齊還根本沒有跑通。所以這種東西是撞出來的,是非常隨機的一件事,就變成這樣了。
如果我們那時候更強一點,可能能做出來ChatGPT,但是很遺憾,那個時候能力就是沒有那么強。
張鵬:創(chuàng)業(yè)歸根到底還得看實際狀況,當(dāng)時你技術(shù)沒準(zhǔn)備好,做不出來很正常,這反而說明了為什么技術(shù)是AI產(chǎn)品最重要的部分。
閆俊杰:對,因為技術(shù)的發(fā)展就是有紅利的。
張鵬:現(xiàn)在你們有了「海螺AI」,是不是還改過名字?我記得去年你們還叫「海螺問問」?
閆俊杰:的確是,我們改名是想讓產(chǎn)品更加大眾化。首先,我們覺得「海螺問問」有 4 個字,減掉兩個字之后,「海螺 AI」的用戶覆蓋率會更高。其次,我們發(fā)現(xiàn)用戶更深層次的需求不完全來自于問答,所以叫了這個名字。
張鵬:更深層次的需求不只是問答,所以那時候你們已經(jīng)開始往未來的「智能助理」方向做思考了嗎?
閆俊杰:是的。
張鵬:隨著 GPT-4o、Astra 的發(fā)布,「智能助理」這個領(lǐng)域可能會有越來越多競爭者,你怎么看這類產(chǎn)品的發(fā)展目標(biāo)?
閆俊杰:這類產(chǎn)品核心的東西應(yīng)該就是一個,提升用戶解決問題的效率、或者說回復(fù)的滿意度。
我們客觀來看,比如你問 ChatGPT 一個問題,它有多大概率給你一個滿意的答案?我們自己的測試結(jié)果是,只有 60%。這也是為什么 AI 的用戶滲透率只有 1% 的原因。可能只有對 AI 特別熱忱的用戶,在它給了你無數(shù)次錯誤答案的時候,你還能選擇相信它、容忍它、甚至引導(dǎo)它來得到一些答案。
舉個例子,我們用更大用戶量級的產(chǎn)品,比如百度搜索、小紅書搜索、甚至抖音搜索的時候,大概率能得到想看到的東西,滿意度顯然比 60% 高。只有這樣,產(chǎn)品才能走向更廣大的用戶。
這也是作為從業(yè)者來說,我覺得 GPT-4o 沒有讓我覺得那么好的原因。因為它其實并沒有提高這類產(chǎn)品真正重要的指標(biāo),也就是用戶滿意度。這個指標(biāo)如果從 60% 提升到 90% 甚至更多,它就能變成可以信賴的產(chǎn)品。這也是我們在「海螺 AI」這個產(chǎn)品上要努力的方向。
張鵬:我相信最終你們的目標(biāo)還是想創(chuàng)造 Super App,或者用AInative 的方式解決主流用戶的大問題。你覺得今天不管像「星野」、還是像「海螺 AI」,它們會是 Super App 的侯選嗎?還是說我們今天未必能看到 Super App 的最終形態(tài),它會像你說的,隨著未來技術(shù)的發(fā)展隨機涌現(xiàn)出來?
閆俊杰:其實我們的基本假設(shè)是這樣的:第一,現(xiàn)有的產(chǎn)品都不是。第二,我們認(rèn)為現(xiàn)在的單個產(chǎn)品都能夠長到足夠大的用戶規(guī)模,能給用戶帶來更大的價值,也能為我們帶來商業(yè)上足夠的成功和回報。這也是我們努力的目標(biāo)。
至于說現(xiàn)在的產(chǎn)品到底是不是最終那個 Super App,我覺得其實是不重要的。為什么?因為 AGI 是一件長周期的事,顯然不是 2024 年或者 2025 年就實現(xiàn)的,我們其實不需要給自己特別大的壓力。
我們真正需要做的事是,讓技術(shù)能夠足夠快地進(jìn)步,同時基于當(dāng)前技術(shù)能力做出的產(chǎn)品,能讓公司的運轉(zhuǎn)效率變得更高、能給用戶創(chuàng)造一定的價值、能給公司創(chuàng)造商業(yè)回報。同時,我們還能有能力做更多的產(chǎn)品,一代一代往上滾,這就已經(jīng)夠了。
美國公司不一定是這樣的路徑。但作為一家中國公司,這至少是有先例可尋的一條路徑。
轉(zhuǎn)載文章請?zhí)砑游⑿牛篻eekparker
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.