![]()
最近半年,幾乎每一個 AI 創業者都會有一個疑問:OpenAI 和 Anthropic 會不會把我們全吃掉?模型越來越強,Codex 和 Claude Code 越來越像操作系統,那應用層還有得做嗎?
硅谷頂級風投 a16z 的合伙人 Joe Schmidt 專門寫了一篇文章回應這個問題。他的核心判斷是:大模型公司的主攻方向(代碼生成、寫作、圖像創作等通用任務)確實是創業公司的禁區,但在這條“黃磚路”之外,還有大量復雜、垂直的問題實驗室根本夠不到,真正的機會在那些需要讓 AI 輸出可信、合規、能在具體行業里運轉的地方。
創業公司可以靠四道護城河守住陣地:行業隱性知識積累成的數據飛輪、跨廠商跨模型選最優解的靈活性、按任務難度分級路由的成本優勢、以及幫客戶吸收監管復雜性的治理能力。他用一句話概括這場博弈:模型可以替換,但深耕行業的工作系統不行。
以下為編譯。
1
每個人都在問:AI 應用層還有得做嗎?
我最近被創始人和求職者反復問同一個問題:AI 應用層還有沒有空間?還是說 OpenAI 和 Anthropic 會吃掉一切?
這問題背后有一種特殊的 AI 焦慮癥。一些人已經認定,唯一能避免淪為永久底層的位置,要么在大模型實驗室里,要么在機器人、硬科技這類“實驗室碰不到”的前沿地帶。如果每一款軟件都注定被吃掉,要么被 Codex 或 Claude 直接吸收掉工作流,要么被下一代模型直接變成多余,那就趕緊跑吧。
聽著,我幾乎比誰都更 AI 原教旨主義,而且我認為他們只說對了一半。實驗室確實會吞掉一大片應用層。但“應用層”不是一個同質化的機會池。正確的思考框架是:你站在黃磚路上,還是奧茲國的其他地方?
1
大模型公司吃通用任務,創業公司吃垂直行業
“黃磚路”是我們對大模型公司主攻方向的簡稱,它們在這條路上投入了極其巨大的資源。代碼生成、寫作、圖像創作這類問題之所以天然屬于實驗室,是因為這些問題隨著模型原始能力的提升會直接變好:每一塊錢的預訓練和后訓練支出,都會直接改善產品體驗。
如果你在創業,黃磚路是最明顯的方向,也是最危險的方向。拿一個高性能模型,接上幾個現成的連接器(Google Drive、Slack、Salesforce、Notion、GitHub),再在上面搭一層代理編排,看起來像變魔術一樣簡單。
問題是,這就是實驗室在做的事情。他們當然擁有模型本身,這意味著更好的利潤率、更強的控制力,以及對下游所有參與者的定價權。但更重要的是,他們也擁有決定產品架構的權利,產品為哪些問題而設計、用什么方式來解決。他們到目前為止一直在刻意選擇“模型加工具調用”的模式,而這恰好是黃磚路上那些水平化、低步數任務所需要的。
![]()
退一步說,就算有創業公司能在產品上跑贏 Codex 或 Claude Code,實驗室手里還握著巨大的分發渠道和 AI 領域最強的品牌光環。如果你是一家 AI 應用公司,用同樣的連接器、同樣的模式、沒有底層子代理或深度配置、也沒有自己的分發能力,那你大概率走在一條通往“哪里都不是”的路上。
但對創業公司來說,這不是全盤悲觀的局面。黃磚路之外有巨大的機會,創業公司可以在那里真正擁有客戶、解決復雜問題。
這些公司構建的是代理式體驗,模型被編織進一張由工具、自動化、集成構成的復雜網絡里。這使得它們天然是垂直化的。它們可以做多步、多角色協作的工作,擁有針對特定角色和垂直場景的子代理,而這些都是 Anthropic 和 OpenAI 用水平化平臺無法觸及的:跨系統收集上下文,然后在不同階段由多個人審批流轉。這些場景往往涉及一個或多個遺留系統,傾向于需要確定性的結果,模糊是不可接受的,而且最終常常綁在某個有價值的業務成果上。
實驗室很清楚這些問題的價值:他們之所以在搭建自己的外包配置團隊,以及為什么會出現一整個面向大客戶的強化學習產業,原因就在這里。
對此最常見的反駁是:歷史上押注“模型不會變好”從來都是糟糕的賭注。它們大概會一直變強,最終吃掉這些應用層公司的市場。
實驗室當然會繼續進步,但我認為奧茲國其余地區的公司有幾道護城河可以守住。
第一,數據和學習的飛輪。 很多知識不在任何訓練集里,不成文的行業慣例、沒有文檔記錄的標準、只存在于從業者頭腦里的隱性知識。這些全都不在公開網頁上。再多訓練算力也替代不了真正嵌入這些知識所在的業務流。這里有兩個疊加的飛輪:跨客戶飛輪,當你看到同一種問題的更多變體時涌現的模式;以及單個客戶內部飛輪,具體決策背后的原因、未說出口的例外、公司自己不成文的經驗法則,這些只有在與系統的真實交互中才會浮現。
即使客戶數據不能在客戶之間直接使用,應用公司依然可以利用跨客戶問題類型的模式識別,來指導未來問題的架構設計。一個讓代理跑過一百次法律紅線審查、一千次保險核保周期、一萬次銷售開發代表任務的公司,已經把問題的“形狀”內化了,這種積累是下一個新進入者用一套全新代理從頭開始無法復制的。
第二,管理模型的變化與復雜性。 實驗室已經在做內部路由了,不同請求調不同模型類別、底層用集成。但他們做不到跨廠商路由,不能用競爭對手的模型來評估某個子任務,也不能為一個極窄的環節專門用開源微調。奧茲國公司可以在整個模型市場中為每一個子任務選最優模型,而不是只能用母公司發貨的那一個。他們還做了沒人想做的工作:每次新模型發布時重新跑評估、針對客戶邊緣場景重新校準提示詞、在不炸掉生產環境的前提下完成部署。實驗室不會替客戶做這些;他們把下一個模型賣給你,讓你自己遷移。奧茲國公司幫客戶吸收掉遷移成本。客戶得到的是整個市場最優智能的組合,以及每次升級時無感的連續性。
第三,成本優化。 每個查詢都跑 Opus 4.7 是通往負毛利的最快路徑。最好的奧茲國公司在不同級別的模型之間做路由,最難的任務用前沿模型,大部分用中端模型,在已經取得足夠積累的環節用更小的定制或微調模型。有些公司現在更進一步,在這些基礎上做自己的后訓練,針對客戶關心的極窄工作流做優化,服務成本只是前沿 API 調用價格的零頭。實驗室定的是智能的底價:花 X 元能買到的最低智能。奧茲國公司賣的是反過來的東西:為工作流實際所需的智能水平,找到最低的美元成本。這只有在你精確知道每個子任務需要什么水平時才可能,而實驗室在結構上不可能了解所有垂直行業。
第四,治理。 成為客戶在某個垂直行業使用 AI 的“控制平面”,這件事本身就有相當大的價值,權限、審計、代理被允許做什么、代理實際做了什么,全部匯聚于一處。這個控制平面由具體場景的護欄構成,而不同行業、不同崗位需要的護欄完全不同。因為奧茲國公司擁有端到端的工具、工作流和數據,他們能在水平工具難以企及的地方提供確定性結果。他們也是替最終客戶吸收監管復雜性的實體:法律行業的 FRCP 和律師規則、醫療領域的 HIPAA、金融領域的 SEC 和 FINRA、各州保險法規等等。一個水平化玩家如果不變成一百個不同的垂直行業公司,就不可能真正承接這些責任。CIO 們想要的是一個能在合同里白紙黑字寫明“我會為提供的代理承擔合規責任”的合作伙伴。
所有這些都指向同一件事:專注。可以是一個垂直行業(保險、法律、會計),也可以是一個做深做透的功能(銷售、客服、財務)。無論哪種,都需要一支團隊全身心扎進一組客戶里,它的工作流、它的邊緣場景、它的監管規則。實驗室不是為這個設計的。他們必須同時覆蓋所有人,這是他們鋪出黃磚路的方式。同樣的取舍也讓他們進不了奧茲國的其余地區,你可以同時無處不在,也可以在一件事上做到極致。二者不能兼得。
1
銷售的例子:復雜業務需要什么
怎么在實踐中思考這件事?11x 的 CEO Prabhav Jain 給出了一些來自一線的建議。
從客戶真正關心的結果出發。 對 11x 來說,就是幫客戶產生更多銷售管道。從這個問題出發,追問就變得極其具體:我們希望端到端擁有哪些真正驅動管道的活動?把每個活動分解成任務,哪些是代理式的、哪些不是,哪些需要深度的領域洞察、哪些不需要。實驗室當然也會發布工作流,但當流程有很多步驟、輸入很臟、狀態很難解析、存在各種現實世界約束時,單靠更好的模型是做不到的。這部分工作回到傳統軟件工程,而實驗室在一個專注的應用公司面前沒有任何優勢。
舉個例子,11x 處理的任務包括:基于自定義信號做線索挖掘、線索數據補充、深度賬戶研究、從 CRM 中抓取上下文、針對不同渠道的消息生成、線索質量判斷代理、郵件送達系統。這些不是一次性就能完成的任務,需要深度工程。
奧茲國比喻中最關鍵的一個洞察是:在任何一個真實工作流里,大約有一半非代理式任務,實驗室在這些任務上沒有任何優勢,他們寫模型層下面的確定性軟件,并不比你強。另一半代理式任務,仍然需要你針對真正想要的結果去調、去訓練、去約束模型。領域知識往往不在通用訓練數據里。這些能力是從垂直或功能的土壤里長出來的,在流程的關鍵時刻被喂給模型。當 11x 的代理在電話上評估一個 inbound 線索時,它需要被訓練去理解“什么是針對這個特定行業、這個特定人群的好銷售對話”。這是應用公司才能做的工作,而且會不斷積累。
更重要的是,業務在演進,這些技能會不斷過時,你的能力就是持續演進這些工作流和上下文,這本身就變成了競爭優勢。11x 的規模化郵件外拓產品剛起步時,“AI 味”的郵件剛開始進入人們的視野。到今天,人們對哪些是 AI 寫的、哪些是人類寫的已經有了敏銳的判斷力,而這個判斷標準每隔幾個月就在變。代理必須不斷根據市場動態調整,而護城河正是在這里被建出來的。事實上,盡管存在這種變化,11x 的正面回復率在過去幾個月上升了 4 倍,已經為客戶創造了數億美元的管道。
在復雜度高的問題上工作。 復雜問題才是真正釋放商業價值的地方,否則你只會發現自己搭了一層薄薄的殼。拆解任何一個足夠復雜的商業問題,混亂會迅速浮現。舉個聽起來很簡單的 GTM 場景的例子:如果一家公司已經是你的客戶,你就不應該再聯系這家公司里的任何聯系人。但這事一點都不簡單。也許 CRM 里關聯的是這家公司的一個域名。那些有幾十個子公司的集團怎么辦?如果 CRM 記錄里留的是母公司域名怎么辦?如果一個 Salesforce 里過時的匹配字段,把一封冷銷售郵件發給了一位現有客戶的 CRO?真實世界的數據是臟的,人類尚且搞不定,模型也不會自動跨過這道坎。從混亂中提取秩序,需要的是為問題具體形態而設計的專用代理,而不是一個對著 CRM 指指點點的通用副駕駛。事實上,根據 11x 的數據,他們已經發現自己的數據質量和新鮮度遠高于客戶,所以他們默認以自己的數據為準。
護欄不只用來防止壞事發生。這是客戶付錢給你的原因。 護欄被嚴重低估了。即使在同一個產品內部,每一個場景都需要自己的護欄。一個受到嚴格監管的金融服務客戶,和一家中等規模的 SaaS 客戶,要求的保障完全不同,這些差異一直滲透到代理怎么寫、能聯系誰、能觸碰哪些數據、電話里能說什么、以及每個決策怎么被記錄。一套“放之四海皆準”的系統在這種差異面前會崩潰。護欄必須按場景構建、按客戶配置、持續審計,而這項工作完全屬于應用公司。這就是 11x 有前置部署工程師和技術部署策略師的原因,他們需要為每一個客戶的需求做定制。舉個例子,他們曾與一家 F1000 企業合作,通過語音向他們的大量中小企業客戶做授權外呼。最初幾次迭代接聽率很低,他們必須快速迭代,學會怎么讓這個特定人群在前 10 秒內產生互動。中小企業主的行為和大企業買家、普通消費者完全不同。現在他們一天為這個客戶創造的銷售機會,比他們整個銷售團隊針對這個細分市場一個月做的還多。
1
保險的例子:智能不在模型里,在工作流里
保險是另一個切面,同一個結論。FurtherAI 的 CEO Aman Gour 是這樣理解這件事的:
當他們開始在真實保險運營中部署 AI 時,反復聽到一種假設:模型是智能的載體,工作流只是圍繞它的腳手架。隨著合作了越來越多的保險公司,他們越來越確信這個假設是反的。
在保險業,很多智能本身就存在在工作流里。兩家保險公司可能走同一條路徑處理一份投保申請:接件、審核、報價、承保。但路徑只是最容易的部分。真正區分兩家公司的是路徑內部的全部細節:哪些風險需要上報、哪些損失信號值得關注、兩條規則沖突時哪一條優先級更高、什么情況下必須有人簽字、哪些外部數據會被調取、最終決策怎么歸檔。這些邏輯不在一個干凈的規則引擎里,而是散落在 SOP、經理審核記錄、核保理念、公司特定的風險偏好和多年的操作經驗中。其中很大一部分根本沒有被寫下來,模型無法直接讀取。
這就是為什么 FurtherAI 不相信一個每次都從零推理的純代理,也不相信一個現實一亂就崩潰的硬編碼工作流。他們在構建的是代理式工作流,工作流給你可重復性、可審計性和成本控制,代理處理不確定性并在主線走不通時恢復路徑,人類留在循環里處理那些需要承擔責任的判斷。
在第一天,這能自動化人工操作。但假以時日,每一次上報變成信號,每一次例外是一次反饋,每一次人類修正展示了操作手冊哪里不完整。慢慢地,工作流不再是腳本,而是變成了保險公司的運營記憶。實驗室很難觸達到這個層面。他們會持續發布更好的模型和更好的通用代理,他們也理應如此。但他們不會坐在一家保險公司的生產流程里足夠久,去理解為什么某一個賬戶被上報、某一個風險被拒保、某一位核保人推翻風險偏好指引而且他推翻得對。這種理解,只能來自把工作流跑在生產中數千次。你第一天交付的工作流不是護城河。生產使用所產生的反饋循環,隨著時間積累,才是。
1
三個測試判斷你的方向,兩條路都有贏家
![]()
工具與步數測試。 完成這項工作需要多少步?你需要構建的工具復雜到什么程度?對比一下:水平化 AI 搜 Google Drive,一步,操作一個工具,結果錯了用戶可以重搜;和一份針對律所三年先例的多步法律紅線審查,幾十步、跨多個工具、輸出必須通過合伙人審核且最終可能在法庭上被辯論。兩者看起來都像“代理在做工作”,但只有后者需要一個專注團隊花幾年才能構建的那種深度軟件。
系統測試。 你在構建的是客戶用來完成工作的“系統”,還是疊加在客戶已有系統之上的“工具”?系統擁有端到端的工作流,數據采集、治理、完成事項的記錄,是客戶描述實際工作如何發生時指向的東西。工具只是在客戶已經在運行的工作流上加一層智能。做工具能產生真實收入,而且實驗室可以拿走,因為客戶并不依賴你作為編排層。高客單價通常是系統的信號,因為系統替代真正的人力崗位并據此定價,但這不是保證。問自己一個問題:如果實驗室發布了一款據稱與你直接競爭的產品,客戶還需要你的產品嗎?如果答案是“是”,你在構建系統。如果“否”,你只是工具,即使你的客單價很高。
對沖基金/P&L 測試。 實驗室的表現用 benchmark 來評判,奧茲國其余地區的表現用客戶的 P&L 來評判。你的客戶不關心你的模型在 SWE-Bench 或 MMLU 上拿了多少分,他們只關心你的代理有沒有搞定那筆交易、有沒有把合同條款審對、有沒有簽下正確的保單。如果他們死死盯著業務流的結果,而不是一個通用的能力評分,你就在奧茲國其余地區。如果他們買的是通用能力,你賣的東西他們買一張 Claude 或 Codex 的席位就能得到。最好的代理公司需要像對沖基金一樣運作,用客戶 P&L 衡量的 alpha 來取勝,而不是用 benchmark 分數。
我們會在黃磚路上和路之外同時看到巨大的贏家。
模型公司會繼續贏,因為他們擁有模型,也擁有他們設計的水平工具的分發能力。奧茲國其余地區的公司如果能擁有“工作系統”,公司實際執行工作的界面,以及從工作中產生并沉淀下來的數據,就能贏。這些公司擁有數據采集、工作流行動系統和治理層。隨著某個垂直領域內更復雜的工作流不斷成熟,它們會匯聚成一個客戶最終依賴的核心體驗。當新一代模型從既有大公司和新興玩家中不斷發布,這些公司就成了整合一切、把智能交付給客戶的中間層。模型在底層可以替換,但工作系統不行。
下一代企業軟件,會在黃磚路之外被建出來。
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.