網易首頁 > 網易號 > 正文申請入駐

a16z 合伙人：大模型吃掉通用任務，創業公司吃掉垂直行業

2026-06-06 10:15:02　來源: 硅星人

北京舉報

分享至

最近半年，幾乎每一個 AI 創業者都會有一個疑問：OpenAI 和 Anthropic 會不會把我們全吃掉？模型越來越強，Codex 和 Claude Code 越來越像操作系統，那應用層還有得做嗎？

硅谷頂級風投 a16z 的合伙人 Joe Schmidt 專門寫了一篇文章回應這個問題。他的核心判斷是：大模型公司的主攻方向（代碼生成、寫作、圖像創作等通用任務）確實是創業公司的禁區，但在這條“黃磚路”之外，還有大量復雜、垂直的問題實驗室根本夠不到，真正的機會在那些需要讓 AI 輸出可信、合規、能在具體行業里運轉的地方。

創業公司可以靠四道護城河守住陣地：行業隱性知識積累成的數據飛輪、跨廠商跨模型選最優解的靈活性、按任務難度分級路由的成本優勢、以及幫客戶吸收監管復雜性的治理能力。他用一句話概括這場博弈：模型可以替換，但深耕行業的工作系統不行。

以下為編譯。

每個人都在問：AI 應用層還有得做嗎？

我最近被創始人和求職者反復問同一個問題：AI 應用層還有沒有空間？還是說 OpenAI 和 Anthropic 會吃掉一切？

這問題背后有一種特殊的 AI 焦慮癥。一些人已經認定，唯一能避免淪為永久底層的位置，要么在大模型實驗室里，要么在機器人、硬科技這類“實驗室碰不到”的前沿地帶。如果每一款軟件都注定被吃掉，要么被 Codex 或 Claude 直接吸收掉工作流，要么被下一代模型直接變成多余，那就趕緊跑吧。

聽著，我幾乎比誰都更 AI 原教旨主義，而且我認為他們只說對了一半。實驗室確實會吞掉一大片應用層。但“應用層”不是一個同質化的機會池。正確的思考框架是：你站在黃磚路上，還是奧茲國的其他地方？

大模型公司吃通用任務，創業公司吃垂直行業

“黃磚路”是我們對大模型公司主攻方向的簡稱，它們在這條路上投入了極其巨大的資源。代碼生成、寫作、圖像創作這類問題之所以天然屬于實驗室，是因為這些問題隨著模型原始能力的提升會直接變好：每一塊錢的預訓練和后訓練支出，都會直接改善產品體驗。

如果你在創業，黃磚路是最明顯的方向，也是最危險的方向。拿一個高性能模型，接上幾個現成的連接器（Google Drive、Slack、Salesforce、Notion、GitHub），再在上面搭一層代理編排，看起來像變魔術一樣簡單。

問題是，這就是實驗室在做的事情。他們當然擁有模型本身，這意味著更好的利潤率、更強的控制力，以及對下游所有參與者的定價權。但更重要的是，他們也擁有決定產品架構的權利，產品為哪些問題而設計、用什么方式來解決。他們到目前為止一直在刻意選擇“模型加工具調用”的模式，而這恰好是黃磚路上那些水平化、低步數任務所需要的。

退一步說，就算有創業公司能在產品上跑贏 Codex 或 Claude Code，實驗室手里還握著巨大的分發渠道和 AI 領域最強的品牌光環。如果你是一家 AI 應用公司，用同樣的連接器、同樣的模式、沒有底層子代理或深度配置、也沒有自己的分發能力，那你大概率走在一條通往“哪里都不是”的路上。

但對創業公司來說，這不是全盤悲觀的局面。黃磚路之外有巨大的機會，創業公司可以在那里真正擁有客戶、解決復雜問題。

這些公司構建的是代理式體驗，模型被編織進一張由工具、自動化、集成構成的復雜網絡里。這使得它們天然是垂直化的。它們可以做多步、多角色協作的工作，擁有針對特定角色和垂直場景的子代理，而這些都是 Anthropic 和 OpenAI 用水平化平臺無法觸及的：跨系統收集上下文，然后在不同階段由多個人審批流轉。這些場景往往涉及一個或多個遺留系統，傾向于需要確定性的結果，模糊是不可接受的，而且最終常常綁在某個有價值的業務成果上。

實驗室很清楚這些問題的價值：他們之所以在搭建自己的外包配置團隊，以及為什么會出現一整個面向大客戶的強化學習產業，原因就在這里。

對此最常見的反駁是：歷史上押注“模型不會變好”從來都是糟糕的賭注。它們大概會一直變強，最終吃掉這些應用層公司的市場。

實驗室當然會繼續進步，但我認為奧茲國其余地區的公司有幾道護城河可以守住。

第一，數據和學習的飛輪。 很多知識不在任何訓練集里，不成文的行業慣例、沒有文檔記錄的標準、只存在于從業者頭腦里的隱性知識。這些全都不在公開網頁上。再多訓練算力也替代不了真正嵌入這些知識所在的業務流。這里有兩個疊加的飛輪：跨客戶飛輪，當你看到同一種問題的更多變體時涌現的模式；以及單個客戶內部飛輪，具體決策背后的原因、未說出口的例外、公司自己不成文的經驗法則，這些只有在與系統的真實交互中才會浮現。

即使客戶數據不能在客戶之間直接使用，應用公司依然可以利用跨客戶問題類型的模式識別，來指導未來問題的架構設計。一個讓代理跑過一百次法律紅線審查、一千次保險核保周期、一萬次銷售開發代表任務的公司，已經把問題的“形狀”內化了，這種積累是下一個新進入者用一套全新代理從頭開始無法復制的。

第二，管理模型的變化與復雜性。 實驗室已經在做內部路由了，不同請求調不同模型類別、底層用集成。但他們做不到跨廠商路由，不能用競爭對手的模型來評估某個子任務，也不能為一個極窄的環節專門用開源微調。奧茲國公司可以在整個模型市場中為每一個子任務選最優模型，而不是只能用母公司發貨的那一個。他們還做了沒人想做的工作：每次新模型發布時重新跑評估、針對客戶邊緣場景重新校準提示詞、在不炸掉生產環境的前提下完成部署。實驗室不會替客戶做這些；他們把下一個模型賣給你，讓你自己遷移。奧茲國公司幫客戶吸收掉遷移成本。客戶得到的是整個市場最優智能的組合，以及每次升級時無感的連續性。

第三，成本優化。 每個查詢都跑 Opus 4.7 是通往負毛利的最快路徑。最好的奧茲國公司在不同級別的模型之間做路由，最難的任務用前沿模型，大部分用中端模型，在已經取得足夠積累的環節用更小的定制或微調模型。有些公司現在更進一步，在這些基礎上做自己的后訓練，針對客戶關心的極窄工作流做優化，服務成本只是前沿 API 調用價格的零頭。實驗室定的是智能的底價：花 X 元能買到的最低智能。奧茲國公司賣的是反過來的東西：為工作流實際所需的智能水平，找到最低的美元成本。這只有在你精確知道每個子任務需要什么水平時才可能，而實驗室在結構上不可能了解所有垂直行業。

第四，治理。 成為客戶在某個垂直行業使用 AI 的“控制平面”，這件事本身就有相當大的價值，權限、審計、代理被允許做什么、代理實際做了什么，全部匯聚于一處。這個控制平面由具體場景的護欄構成，而不同行業、不同崗位需要的護欄完全不同。因為奧茲國公司擁有端到端的工具、工作流和數據，他們能在水平工具難以企及的地方提供確定性結果。他們也是替最終客戶吸收監管復雜性的實體：法律行業的 FRCP 和律師規則、醫療領域的 HIPAA、金融領域的 SEC 和 FINRA、各州保險法規等等。一個水平化玩家如果不變成一百個不同的垂直行業公司，就不可能真正承接這些責任。CIO 們想要的是一個能在合同里白紙黑字寫明“我會為提供的代理承擔合規責任”的合作伙伴。

所有這些都指向同一件事：專注。可以是一個垂直行業（保險、法律、會計），也可以是一個做深做透的功能（銷售、客服、財務）。無論哪種，都需要一支團隊全身心扎進一組客戶里，它的工作流、它的邊緣場景、它的監管規則。實驗室不是為這個設計的。他們必須同時覆蓋所有人，這是他們鋪出黃磚路的方式。同樣的取舍也讓他們進不了奧茲國的其余地區，你可以同時無處不在，也可以在一件事上做到極致。二者不能兼得。

銷售的例子：復雜業務需要什么

怎么在實踐中思考這件事？11x 的 CEO Prabhav Jain 給出了一些來自一線的建議。

從客戶真正關心的結果出發。 對 11x 來說，就是幫客戶產生更多銷售管道。從這個問題出發，追問就變得極其具體：我們希望端到端擁有哪些真正驅動管道的活動？把每個活動分解成任務，哪些是代理式的、哪些不是，哪些需要深度的領域洞察、哪些不需要。實驗室當然也會發布工作流，但當流程有很多步驟、輸入很臟、狀態很難解析、存在各種現實世界約束時，單靠更好的模型是做不到的。這部分工作回到傳統軟件工程，而實驗室在一個專注的應用公司面前沒有任何優勢。

舉個例子，11x 處理的任務包括：基于自定義信號做線索挖掘、線索數據補充、深度賬戶研究、從 CRM 中抓取上下文、針對不同渠道的消息生成、線索質量判斷代理、郵件送達系統。這些不是一次性就能完成的任務，需要深度工程。

奧茲國比喻中最關鍵的一個洞察是：在任何一個真實工作流里，大約有一半非代理式任務，實驗室在這些任務上沒有任何優勢，他們寫模型層下面的確定性軟件，并不比你強。另一半代理式任務，仍然需要你針對真正想要的結果去調、去訓練、去約束模型。領域知識往往不在通用訓練數據里。這些能力是從垂直或功能的土壤里長出來的，在流程的關鍵時刻被喂給模型。當 11x 的代理在電話上評估一個 inbound 線索時，它需要被訓練去理解“什么是針對這個特定行業、這個特定人群的好銷售對話”。這是應用公司才能做的工作，而且會不斷積累。

更重要的是，業務在演進，這些技能會不斷過時，你的能力就是持續演進這些工作流和上下文，這本身就變成了競爭優勢。11x 的規模化郵件外拓產品剛起步時，“AI 味”的郵件剛開始進入人們的視野。到今天，人們對哪些是 AI 寫的、哪些是人類寫的已經有了敏銳的判斷力，而這個判斷標準每隔幾個月就在變。代理必須不斷根據市場動態調整，而護城河正是在這里被建出來的。事實上，盡管存在這種變化，11x 的正面回復率在過去幾個月上升了 4 倍，已經為客戶創造了數億美元的管道。

在復雜度高的問題上工作。 復雜問題才是真正釋放商業價值的地方，否則你只會發現自己搭了一層薄薄的殼。拆解任何一個足夠復雜的商業問題，混亂會迅速浮現。舉個聽起來很簡單的 GTM 場景的例子：如果一家公司已經是你的客戶，你就不應該再聯系這家公司里的任何聯系人。但這事一點都不簡單。也許 CRM 里關聯的是這家公司的一個域名。那些有幾十個子公司的集團怎么辦？如果 CRM 記錄里留的是母公司域名怎么辦？如果一個 Salesforce 里過時的匹配字段，把一封冷銷售郵件發給了一位現有客戶的 CRO？真實世界的數據是臟的，人類尚且搞不定，模型也不會自動跨過這道坎。從混亂中提取秩序，需要的是為問題具體形態而設計的專用代理，而不是一個對著 CRM 指指點點的通用副駕駛。事實上，根據 11x 的數據，他們已經發現自己的數據質量和新鮮度遠高于客戶，所以他們默認以自己的數據為準。

護欄不只用來防止壞事發生。這是客戶付錢給你的原因。 護欄被嚴重低估了。即使在同一個產品內部，每一個場景都需要自己的護欄。一個受到嚴格監管的金融服務客戶，和一家中等規模的 SaaS 客戶，要求的保障完全不同，這些差異一直滲透到代理怎么寫、能聯系誰、能觸碰哪些數據、電話里能說什么、以及每個決策怎么被記錄。一套“放之四海皆準”的系統在這種差異面前會崩潰。護欄必須按場景構建、按客戶配置、持續審計，而這項工作完全屬于應用公司。這就是 11x 有前置部署工程師和技術部署策略師的原因，他們需要為每一個客戶的需求做定制。舉個例子，他們曾與一家 F1000 企業合作，通過語音向他們的大量中小企業客戶做授權外呼。最初幾次迭代接聽率很低，他們必須快速迭代，學會怎么讓這個特定人群在前 10 秒內產生互動。中小企業主的行為和大企業買家、普通消費者完全不同。現在他們一天為這個客戶創造的銷售機會，比他們整個銷售團隊針對這個細分市場一個月做的還多。

保險的例子：智能不在模型里，在工作流里

保險是另一個切面，同一個結論。FurtherAI 的 CEO Aman Gour 是這樣理解這件事的：

當他們開始在真實保險運營中部署 AI 時，反復聽到一種假設：模型是智能的載體，工作流只是圍繞它的腳手架。隨著合作了越來越多的保險公司，他們越來越確信這個假設是反的。

在保險業，很多智能本身就存在在工作流里。兩家保險公司可能走同一條路徑處理一份投保申請：接件、審核、報價、承保。但路徑只是最容易的部分。真正區分兩家公司的是路徑內部的全部細節：哪些風險需要上報、哪些損失信號值得關注、兩條規則沖突時哪一條優先級更高、什么情況下必須有人簽字、哪些外部數據會被調取、最終決策怎么歸檔。這些邏輯不在一個干凈的規則引擎里，而是散落在 SOP、經理審核記錄、核保理念、公司特定的風險偏好和多年的操作經驗中。其中很大一部分根本沒有被寫下來，模型無法直接讀取。

這就是為什么 FurtherAI 不相信一個每次都從零推理的純代理，也不相信一個現實一亂就崩潰的硬編碼工作流。他們在構建的是代理式工作流，工作流給你可重復性、可審計性和成本控制，代理處理不確定性并在主線走不通時恢復路徑，人類留在循環里處理那些需要承擔責任的判斷。

在第一天，這能自動化人工操作。但假以時日，每一次上報變成信號，每一次例外是一次反饋，每一次人類修正展示了操作手冊哪里不完整。慢慢地，工作流不再是腳本，而是變成了保險公司的運營記憶。實驗室很難觸達到這個層面。他們會持續發布更好的模型和更好的通用代理，他們也理應如此。但他們不會坐在一家保險公司的生產流程里足夠久，去理解為什么某一個賬戶被上報、某一個風險被拒保、某一位核保人推翻風險偏好指引而且他推翻得對。這種理解，只能來自把工作流跑在生產中數千次。你第一天交付的工作流不是護城河。生產使用所產生的反饋循環，隨著時間積累，才是。

三個測試判斷你的方向，兩條路都有贏家

工具與步數測試。 完成這項工作需要多少步？你需要構建的工具復雜到什么程度？對比一下：水平化 AI 搜 Google Drive，一步，操作一個工具，結果錯了用戶可以重搜；和一份針對律所三年先例的多步法律紅線審查，幾十步、跨多個工具、輸出必須通過合伙人審核且最終可能在法庭上被辯論。兩者看起來都像“代理在做工作”，但只有后者需要一個專注團隊花幾年才能構建的那種深度軟件。

系統測試。 你在構建的是客戶用來完成工作的“系統”，還是疊加在客戶已有系統之上的“工具”？系統擁有端到端的工作流，數據采集、治理、完成事項的記錄，是客戶描述實際工作如何發生時指向的東西。工具只是在客戶已經在運行的工作流上加一層智能。做工具能產生真實收入，而且實驗室可以拿走，因為客戶并不依賴你作為編排層。高客單價通常是系統的信號，因為系統替代真正的人力崗位并據此定價，但這不是保證。問自己一個問題：如果實驗室發布了一款據稱與你直接競爭的產品，客戶還需要你的產品嗎？如果答案是“是”，你在構建系統。如果“否”，你只是工具，即使你的客單價很高。

對沖基金/P&L 測試。 實驗室的表現用 benchmark 來評判，奧茲國其余地區的表現用客戶的 P&L 來評判。你的客戶不關心你的模型在 SWE-Bench 或 MMLU 上拿了多少分，他們只關心你的代理有沒有搞定那筆交易、有沒有把合同條款審對、有沒有簽下正確的保單。如果他們死死盯著業務流的結果，而不是一個通用的能力評分，你就在奧茲國其余地區。如果他們買的是通用能力，你賣的東西他們買一張 Claude 或 Codex 的席位就能得到。最好的代理公司需要像對沖基金一樣運作，用客戶 P&L 衡量的 alpha 來取勝，而不是用 benchmark 分數。

我們會在黃磚路上和路之外同時看到巨大的贏家。

模型公司會繼續贏，因為他們擁有模型，也擁有他們設計的水平工具的分發能力。奧茲國其余地區的公司如果能擁有“工作系統”，公司實際執行工作的界面，以及從工作中產生并沉淀下來的數據，就能贏。這些公司擁有數據采集、工作流行動系統和治理層。隨著某個垂直領域內更復雜的工作流不斷成熟，它們會匯聚成一個客戶最終依賴的核心體驗。當新一代模型從既有大公司和新興玩家中不斷發布，這些公司就成了整合一切、把智能交付給客戶的中間層。模型在底層可以替換，但工作系統不行。

下一代企業軟件，會在黃磚路之外被建出來。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.