在智能體(Agent)從實驗室走向大規模商業落地的歷史拐點上,AI云基礎設施正經歷一場從“無狀態模型托管”向“智能體運行期(Agent Runtime)”的底層架構重塑,這不僅是技術的演進,更是決定企業AI應用單位經濟學(Unit Economics)生死的關鍵戰役。
![]()
在近期舉辦的Nebius Inflection 2026峰會上,一場關于AI基礎設施真正走向商業化深水區的討論引發了市場的強烈關注。Nebius聯合創始人Roman Chernin提出了一個讓全場技術人員與企業CIO產生共鳴的核心觀點:“當智能體走向大規模生產時,傳統的、無狀態的模型服務架構將徹底崩潰,行業必須全面轉向‘智能體運行期’基礎設施。”
![]()
“客戶希望智能體完成任務的成本,能讓產品在經濟上可行。”Roman Chernin 直言,“Token將成為下一個基礎設施層,未來的付費模式將基于結果(Outcomes),而不是Token。”
![]()
當前,市場對AI的關注點已從單純的“模型參數戰”轉向了真實的ROI(投資回報率)和云端算力消耗的經濟賬。正如Nebius CEO Arkady Volozh在會上透露,公司正朝著年底實現 800兆瓦至1吉瓦的運行電力邁進,并已鎖定總計4吉瓦的算力容量,這意味著數十萬乃至數百萬張GPU的驚人規模。然而,支撐這種百億美元級別擴產邏輯的核心,不再是賣基礎算力,而是為企業解決“Token亂燒卻不出活”的痛點。
規模化下的“恐怖放大器”:無狀態推理為何失效?
在第一波AI浪潮中,市場的核心商業模式是“售賣Token”。開發模式極為線性:用戶輸入 →→ 經過API調用模型 →→ 模型返回Token →→ 結束。這是一種“無狀態”的單次請求。
但Agent的行為邏輯完全不同。Roman Chernin指出:
“Agent不僅僅是一次優化的模型調用,它是一個循環(Loop)。它需要規劃、調用工具和模型、觀察結果、重試,直到任務完成。”
在資本市場眼中,這種循環一旦失去控制,就是一場財務災難。Roman 一針見血地指出了規模化下的恐怖放大器效應:
“如今,構建一個智能體原型很容易……但在規模化下,小小的錯誤會累積。表面看起來很美好的95%單次調用成功率,換算下來就是徹底的失敗。一個糟糕的規劃可能消耗十倍于我們預算的 Token。”
從微觀概率來看:如果一個模型單次 API 調用的成功率是 95%,但當一個 Agent 為了完成某項復雜任務,需要在 Loop 中連續調用該模型及各類工具 15 次時,該 Agent 任務的終極成功率將暴跌至:(0.95)15≈46.3%。
這意味著超過一半的概率,Agent會在中間某個環節“死鎖”或徹底跑偏(Over-scoping)。“一個糟糕的計劃可能會燒掉比我們預算多10倍的Token。”Roman警告道。
Chernin在峰會上提出了一個被他稱為"下一個循環"的概念,這也是整個Agent Runtime體系中最具商業想象空間的部分:
"每個智能體在運行時,都會產生大量數據——規劃、追蹤、成本和結果。當我們捕獲了所有這些數據,我們就可以開始系統性地、持續地改進智能體。就像今天我們優化推理端點一樣,我們可以優化路由,改進提示詞和工具調用,降低成本。"
這意味著云平臺的角色發生了本質轉變:
"云平臺變成了不僅僅是智能體運行的地方,它變成了讓智能體可度量且持續變得更好的系統。"
Chernin指出了另一個常被忽視的結構性變化:
"云平臺是為人類用戶構建的——開發者閱讀文檔,在控制臺點擊,手動部署和調試服務。智能體需要不同的云接口——API優先、可編程且可觀測。"
CEO Arkady Volozh在隨后的演講中補充了規模數據:Nebius目前運營超過200兆瓦算力,年底目標達到800兆瓦至1吉瓦,已簽約預留容量超過3吉瓦,年底目標突破4吉瓦。
商業落地的硬性指標:Agent Runtime的五大核心技術要求
為了在生產環境中穩定、低成本、安全地運行成百上千個Agent,底層基礎設施必須具備以下五大硬性指標:
① 確定性流式編排與多模型路由(Deterministic Orchestration & Routing)
市場痛點:純靠LLM自主決定下一步調用什么工具,極易導致“幻覺”或死循環。大企業在財務、合規等高風險場景下,要求過程必須可控。
技術解法:平臺必須提供能將確定性代碼與LLM柔性推理結合的框架,并支持動態模型路由。在Agent循環中,將最關鍵的決策路由給最聰明、最貴的模型(如GPT-5);而把海量的臟活累活,自動路由給便宜10倍、快10倍的開源模型(如DeepSeek-V4、Nemotron)。Nebius生態戰略副總裁Devang Sachdev在演示中提到,僅通過將GPT-5.5替換為開源大模型,成本瞬間下降了95%。
② 長周期狀態管理與持久化執行(Durable Execution)
市場痛點:Cognition(Devin)的CEO Scott在訪談中提到,Agent的運行時間正在從幾分鐘拉長到數小時甚至數天。“我們已經看到人們讓Devin連續運行幾周來完成整個實習生級別的項目。”
技術解法:基礎設施必須提供Agent運行期的狀態持久化。當遇到網絡波動、工具超時或硬件微觀故障時,系統需自動捕獲上下文,實現“無縫斷點續傳”,而不是重新從第一步開始燃燒昂貴的Token。
③ 面向機器而非人類的高吞吐數據訪問層(Grounding Data Layer)
市場痛點:Pinecone創始人Ash Ashutosh在圓桌論壇上披露了一個驚人的拐點:“去年9月,我們有史以來第一次看到一類新的用戶,他們發起API調用的數量超過了人類,這就是Agent。”如果直接把人類閱讀的長篇網頁丟給Agent,單次任務輕松燒掉幾百萬Token,單位經濟學(Unit Economics)直接破產。
技術解法:Tavily創始人Rotem Weiss指出,互聯網正走向分化,一層為人類優化,另一層為機器優化。基建需要集成智能體聯網檢索,返回高度精煉、結構化、帶語義上下文的JSON數據,這能將Token消耗暴降,并保證企業內不同Agent認知的一致性。
④ 全Trace異步可觀測性(Observability & Tracing)
市場痛點:“當100個Agent跑起來時,最先崩潰的是什么?是可見性。你將一無所知,那將是一場混亂(Chaos)。” LangChain的Julia Schottenstein直言。當企業的算力賬單翻了5倍,根本不知道在包含數萬次調用的“智能體風暴”里,是哪只Agent在哪一步出了錯。
技術解法:平臺必須標配全鏈路異步追蹤,清晰記錄規劃、工具調用、Token消耗及失敗節點,讓復雜的非確定性AI行為像傳統軟件的Debug日志一樣可審計。
⑤ 嚴苛的安全沙箱與成本兜底(Sandbox & Cost Caps)
市場痛點:一個寫錯邏輯的Agent企圖自我糾錯,可能在幾分鐘內燒光幾千美元預算(Shadow AI的爆發)。更危險的是,越權操作可能帶來合規災難。
技術解法:必須在Runtime層設定“硬性成本墻(Cost Caps)”和完全隔離的安全沙箱。Guardrails AI的Shree Rajpal強調,必須通過事前仿真(Simulation)來攔截Agent可能導致的越權、注入攻擊或“越獄”。
用Nebius生態策略副總裁Devang Sachdev演示的醫療合規Agent演進案例,可以最直觀地概括上述基建變革的商業價值:
最初用基礎模型直接跑,單次合規審計任務耗時半小時,耗費657美元,且存在嚴重的數據陳舊和發散問題。而在建立起包含“開源大模型專有推理 + Tavily聯網檢索 + Pinecone結構化向量庫 + Guardrails護欄沙箱 + LangSmith鏈路監控”的Agent Runtime完整飛輪后,成本瞬間暴跌至24美元(下降超96%),運行時間縮短至13分鐘,且具備完美的商業可審計性。
“下一代AI的篇章不會由模型能做什么來定義。”Mark Boroditsky最后總結道,“它將由組織能夠部署什么、企業能夠信任什么、用戶每天能夠依賴什么來定義。”
這正是云基礎設施向Agent Runtime演進的核心底層邏輯——用極其硬核、縱向集成的工程系統,把脆弱的AI模型包裹成企業可以百分之百信賴的現代生產力生產線。
值得注意的是,峰會圓桌討論揭示了市場層面的真實壓力。科技媒體The Information執行主編Amir Ifrati點出了一個正在發酵的敘事轉折:
"我們正處于一個與10-15年前公共云早期非常相似的時刻——客戶突然說,等等,我今年比預期多花了2000萬美元。"
DataRobot首席產品官Venky對此直接表態:"當AI賬單從每用戶30美元的訂閱變成數百萬美元的行項目,每個人都開始追問ROI。"
Cognition(Devin)CEO Scott則從結果側給出了模型路由的實踐邏輯:
"絕對最難的任務,你仍然需要最聰明的模型。但對于那另外80%-90%的任務,有性價比高出10倍、速度快10倍的開源模型完全可以勝任。模型路由正在成為越來越重要的一環。"
Nebius Inflection 2026峰會全文實錄如下(由AI輔助翻譯)
旁白
當AI遇見真實世界,會發生什么?
技術是基石。每一場革命都會到達一個拐點。這就是我們的拐點。正是你們的好奇心、你們的遠見、你們的決心,以及你們對突破邊界的不懈追求,才讓這一切成為現實。我們正處于AI的黃金時代,這一切源于你們的雄心壯志——讓AI在我們賴以生存的各行各業中蓬勃發展。
我們正在共同定義AI的下一個階段。
請歡迎Nebius首席營收官Marc Boroditsky登臺。
Marc Boroditsky — 首席營收官,Nebius大家下午好,感謝各位的到來。正如剛才"上帝之聲"所介紹的,我是Marc Boroditsky,Nebius的首席營收官。我非常榮幸地歡迎大家來到我們的首屆Nebius Inflection大會。
好了,我不打算用又一場AI主題演講來煩擾大家——那種聲稱整個世界將因AI而改變、AI讓一切以前所未有的速度推進、眼前機遇無比巨大的演講。
事實上,每周我們都會聽到關于新模型、新基準、新智能體框架的發布公告。有時候,這些公告甚至在同一天,乃至同一個小時內接連出現。
我們其實正處于一個有趣的節點。我想在座各位都清楚:AI正在從一個工具,轉變為能夠做出令人驚嘆之事、足以顛覆整個行業的存在。但在座的每一個人都知道,我們需要的不是另一場關于機遇規模有多大的演講。
我們需要一場更誠實的對話——關于當下地面上究竟正在發生什么。
因為有很多事情是在奏效的,但同樣也有很多事情并不奏效,而且很多事情依然比人們在臺上做主題演講時愿意承認的要混亂得多。這種狀況必須改變——如果AI要從實驗階段走向人們可以依賴的系統,我們就必須邁上新的臺階。
這正是我們創辦Inflection的原因。
不是為了舉辦另一場會議,不是為了制造另一個產品發布時刻,也不是為了成為另一個發布行業公告的場合。我們創辦它,是為了那些真正在做事的人。運營者、創始人、研究人員、基礎設施團隊、投資者、企業領導者和建設者——那些正在將AI從可能性推向生產落地的人。
因為在當今的企業內部,AI的發展已經超前于針對它所做出的決策。各團隊正在構建智能體、多智能體自動化系統以及令人驚嘆的全新工作流——有些經過了審批,有些屬于"影子AI",但所有這些都指向同一件事:人們不在等待。
而這正是工作變得真實的地方。
Demo跑通了,智能體看起來令人印象深刻,第一次模型調用感覺像魔法一樣。然后它觸碰到了真實世界——工作流、內部數據、延遲、SLA、治理,還有財務團隊質問為什么賬單突然翻了一倍。這時候,真正的代價才浮出水面。
我說的不是那張發票,我說的是AI規模化運行的代價
因為一旦AI從試點階段進入真實使用階段,問題就變了。不再是"模型能不能做到",而變成了:系統能不能可靠地做到?夠不夠快?夠不夠安全?成本是否合理?當某些事情發生變化時,我們能評估它嗎?出了問題,我們能看到發生了什么嗎?我們能治理一個多智能體集群,防止它造成危害嗎?我們能證明其價值大于成本嗎?
各組織對這些問題的回答,正是將定義這個十年的公司與其他公司區分開來的關鍵所在。
第一波浪潮追求的是規模——Token最大化,更多提示詞,更多上下文,更多推理步驟,更多循環。但現實改變了衡量標準。接下來要走的路,不應該是關于更多Token,而應該是讓每一個Token都物有所值——在數學上算得通的成本、用戶信任的質量、能夠改變業務的速度。
贏得下一個篇章的團隊,不會是消耗算力最多的團隊,而是將算力轉化為成果的團隊。
想想看:價值最大化,而非Token最大化。在規模上創造價值的生產級AI,是擺在我們面前的下一個偉大拐點。
但技術本身不會創造拐點,人才會。未來不會靠預言而誕生。
在Nebius,我們的使命很簡單:幫助那些真正去構建未來的人。而這些人,就在這個房間里——研究人員與運營者,創始人與企業領導者,基礎設施與應用創新者,每個人都為一個更宏大的生態系統貢獻著不可或缺的一塊拼圖。
我們相信,沒有任何一家公司能夠獨自將AI的全部潛力帶給這個世界。這正是像今天這樣的聚會如此重要的原因。
在今天的議程中,你們將聽到AI領域最具洞察力、最具影響力的思想者們分享他們的觀點。你們將了解技術的走向,哪些挑戰仍有待解決,以及從實驗走向規模化生產需要什么。我們希望這些對話能夠挑戰固有假設、銳化思維視角、激發新的想法。也希望你們充分利用今天匯聚于此的這群非凡之人。
Nebius團隊的許多成員也在現場,他們來這里不僅僅是為了演講,更是為了傾聽、學習和協作。
隨著今天議程的推進,我鼓勵大家充分投入——提問、分享經驗、挑戰傳統思維,把握與這群聚集于此的杰出領導者們建立連接的機會。
感謝大家成為其中的一部分。
在我們正式開始之前,我想分享一件對我們Nebius而言意義深重的事。Nvidia與Nebius從Nebius創立之初便攜手同行、共同構建。在此,我想播放一段來自Jensen Wang(黃仁勛)的特別致辭。
來自黃仁勛的特別致辭
我的朋友們,周年紀念快樂,恭喜你們。Nebius,你們正在構建的東西非同尋常。數據中心正在成為AI工廠。它們將能源轉化為tokens,再將tokens轉化為智能。AI工廠是這個時代新的基礎設施。它們必須建在人們生活、工作和創造的地方——一個地區接一個地區,一個社區接一個社區,基礎設施必須建在需求所在的地方。這正是Nebius正在構建的。
你們從深厚的云工程基因起步,然后為AI時代重建了你們的平臺,僅用兩年時間就從一個數據中心擴展到了吉瓦級規模的AI工廠。Nvidia帶來了加速計算、網絡系統和推理軟件。Nebius為開發者、初創公司、研究人員和企業構建了全棧AI平臺。我們共同證明,世界各地都需要AI基礎設施,而在本地構建是讓它真正運轉的唯一方式。
建設才剛剛開始。Nvidia很自豪能與Nebius合作,共同構建AI時代的基礎設施。恭喜你們,希望這次inflection大會圓滿成功。
旁白
請歡迎Nebius聯合創始人Roman Chernin登臺。
Roman Chernin — Nebius聯合創始人
好的,我以為Mark會來介紹我,但他們直到最后一刻才改變,把所有控制權都交給了機器人。還有Jensen,但我們都知道Jensen掌控著一切。好了,感謝大家的到來。
也感謝這個機會,讓我來講講我們在Nebius構建了什么,我們認為我們已經交付了什么,以及我們下一步的方向。我們的行業顯然正處于過去幾年的拐點。我們展示了——實際上是你們展示了——AI能做什么。但現在我們需要共同證明,AI能夠創造真實的經濟價值。要實現AI真正的承諾,我們需要為組織和人類創造真實的價值。實際上,我們需要建立健康的業務,擁有健康的利潤率,而不僅僅是展示漂亮的營收數字和大規模融資。這是千載難逢的機會,我們需要兌現。
壞消息是,要兌現,你需要去搞清楚那些枯燥的基礎設施細節。這是臟活,是不性感的工作。
有一個漂亮的原型是一回事。哦,好主意。但克服真實生產和規模化的復雜性是另一回事——關鍵產品要像原型展示的那樣漂亮,但還要可靠。從Anthropic起步的公司需要轉向開源模型,以滿足單位經濟性并真正發展壯大。在原型中運行良好的智能體,一旦擴展到規模,問題就會不斷疊加,最終崩潰。從大型超大規模云廠商辭職、帶著絕妙想法去構建自己實驗室的優秀研究人員,需要的是能直接運轉的基礎設施。這就是我們開發Nebius的原因。我們希望在構建者擴展規模時幫助他們。
當我們審視市場時,我們看到了一個虛假的選擇。一方面是老牌超大規模云廠商,擁有大量服務和全球覆蓋,但看起來它們是在上一個Cloudera時代設計和構建的。它們沒有針對AI工作負載和AI開發者進行優化。它們在遺留基礎設施上構建AI服務。它們的模式,說白了,始終是通過復雜的計費將開發者鎖定在封閉服務中,更不用說它們存在永久性的利益沖突——它們可以為內部使用分配更多容量,而給云客戶的反而更少。
另一方面是所謂的"新云"。我說了很多次,我很討厭這個詞——這是一個新的裸金屬提供商類別,為AI工作負載而構建,但往往不可靠。說實話,構建者體驗很差。構建它的人更像是系統集成商,他們不是真正的開發者。所以我們認為,這兩種選擇都有真實的局限性。
我們相信存在第三條路,一個新的產品類別——面向AI的規模化云(Scaled Cloud for AI)。從第一性原理出發構建:
第一,AI專屬。我們只為機器學習而構建和優化。我們不做任何其他事情。
第二,全棧,為客戶提供最佳的總擁有成本,因為我們從底層做起。我們構建和運營數據中心,我們自己組裝機架和服務器,我們構建全棧軟件平臺。
第三,以構建者體驗為先。我們稱之為"Meet Builder"——開發者在哪里,我們就在哪里。我們讓開發者專注于他們需要做的和需要控制的事情,并抽象掉大部分復雜性。
第四,開放性。實際上,我們太小了,無法嘗試將人們鎖定在封閉的生態系統中。所以不做廠商鎖定,依賴開放標準,給予選擇。
最后同樣重要的是,人很重要。客戶支持體驗,工程師對工程師的關系。我們也從第一天起就自己使用我們的平臺(dog fooding)。
直到現在,我們把Nebius建成了一家不同類型的公司,服務于不同類型的用戶。你知道這句話:"沒有人因為選擇AWS而被開除。"所以我們的客戶也可以選擇AWS,但他們選擇在Nebius上構建,因為它快速、高效,而且實際上可以與擁有世界上最苛刻AI工作負載的團隊共同工程化。我們將超級計算機的規模、可靠性與性能結合在一起。這就是我們的模式。
讓我分享一些我們如何與四類客戶共同構建的例子。
第一類:超級實驗室合作伙伴,微軟和Meta。我們幫助他們構建內部生態系統。當然,他們規模龐大、能力強勁,但他們來找我們,是因為他們知道我們能在物理世界的真實約束條件下非常快速地構建。他們需要世界上最大的互聯集群,而我們交付定制機架和服務器、最新GPU以及多層存儲,能效高且具備容錯可靠性。
人們有時稱之為商品化,但我們認為在這種規模下沒有什么是商品化的。一個完全集成、生產就緒的AI工廠不是商品。對我們來說,這是對我們如何從擁有世界上最瘋狂需求的客戶那里構建AI基礎設施基礎層的驗證。他們教會了我們如何優化裸金屬計算,并構建了AI云的基礎。
第二類:需要快速行動才能生存的團隊。他們需要用更少的資源做更多的事,他們沒有大型科技公司那樣的大型基礎設施團隊支持他們,所以我們為AI實驗室構建多租戶云。
Recraft正在構建一個200億參數的圖像生成模型,但他們的訓練會話不斷被中斷。我們的工程師直接修復了網絡,直接給NiCkel打補丁,將訓練速度提高了六倍。Cursor需要訪問Nvidia B300來完成他們的大型強化學習任務。他們是第一批在官方固件發布之前就大規模采用最新芯片的團隊。所以我們快速行動,緊密合作。
我們將這些共同工程化的經驗應用于許多其他客戶,為英國兩家最成功的生物技術初創公司加速藥物發現,以及數十個其他團隊——開發下一代圖像AI的,如Black Forest;做機器人AI的,如Roda;做視頻和世界模型的,如Descartes;以及加速研究的,如Core Automation。
對我們來說最大的獎勵,是聽到如此優秀、經驗豐富的人不只是把我們當作供應商,而是當作合作伙伴。我們從這些團隊學到,訓練的真實成本不是GPU小時數。大規模訓練會崩潰。所以我們構建了帶有自動修復的健康檢查,并為集群分配備用容量,以實現行業領先的可靠性,以及比某些大型云高達兩倍的更好總擁有成本。此外,他們需要最早獲得最新硬件。所以我們大力投入,力爭第一,盡早為他們提供只有少數提供商能做到的性能。
第三類:如果說AI實驗室告訴我們訓練一個好模型需要什么,那么下一類客戶則告訴我們如何服務這些模型。推理正在爆炸式增長,大家都聽說了。推動這一趨勢的是AI原生產品,它們已經服務于數百萬用戶并呈指數級增長。要成功,他們需要永不停歇的可靠推理基礎設施。
但更重要的是,它支撐著他們產品的單位經濟性。Hixfield服務超過2500萬用戶,在短短幾個月內從零增長到數億美元的營收。他們需要能夠讓他們非常快速、持續實驗的開發者體驗,以及非常高效的推理自動擴展,以應對峰值媒體需求。Brave每天提供超過1600萬次實時AI摘要。他們最初采用自己動手的推理方式,只是租了集群自己運行系統,但后來轉向了托管平臺,因為我們能夠改善他們的單位經濟性。Sword Health為心理健康患者構建AI護理。當涉及敏感話題時,對用戶來說高延遲感覺就像我們根本不在乎。通過使用Nebius的專用端點,他們能夠將產品的端到端延遲從20秒以上降低到12秒以下。
所以對于這類客戶,我們構建了Nebius Token Factory——一個托管推理平臺,提供對所有模型的訪問,針對每個用例進行優化。它基于我們在云中擁有的相同可靠基礎設施和編排能力。推理優化是一個模型加系統級別的問題。我們將Nebius工程與我們宣布的兩項近期收購相結合。其中一個是位于舊金山的Egan AI團隊。他們專注于模型層面——先進的量化技術、稀疏注意力、內核級別,以及系統設計、編排、KV緩存。現在看來,我們擁有了一支相當強大的團隊來交付推理,這一點得到了一些非常受人尊敬的人士的驗證。
第四類:企業客戶。下一個教訓是,只有當客戶能夠按照自己的方式使用我們時,我們才真正可用。并非所有人都從零開始,企業在走向成為AI公司的路上,不像AI原生企業那樣靈活。他們不僅需要性能,還需要可信賴的基礎設施。他們需要將智能體添加到現有系統和流程中的能力。
Revolut,全球最大的金融科技公司之一,擁有超過7000萬用戶。他們有大量AI智能體在非常敏感的數據上運行。他們添加了Nebius Token Factory來彌補現有提供商的不足。我們共同將他們AI開發的速度提升,并實現了65%更好的欺詐防護和41%更好的產品推薦。另一個例子是Shopify。他們訓練了推薦模型并構建了相當復雜的智能體系統。他們使用Sky Pilot來跨GCP和Nebius編排工作負載——這就是多云。Mastercard每天處理數十億筆交易,他們將Tavily——我們最近收購的另一家公司——Nebius的智能體搜索集成到他們現有的流程中。現在他們不僅可以基于歷史模式,還可以使用在線信號來檢測洗錢。結果是更高的檢測率和更短的響應時間。
這一切都發生在我們合作伙伴的生態系統中,因為這不僅僅是你如何構建產品,還有誰幫助客戶提取價值。所以我們非常感謝所有早期冒險押注我們的合作伙伴。
大型組織面臨的最大挑戰甚至不是技術,而是運營模式和合規性。所以我們構建了內置安全性、可觀測性、成本控制和合規性的平臺。我們也給了他們多種消費方式——通過控制臺、API和SDK,配有文檔齊全的操作手冊,以及無鎖定的100%可選標準和集成,使多云工作成為可能。團隊可以將Nebius與他們已有的任何東西集成,并充滿信心地構建。
我們為不同工程需求的不同類型團隊塑造了Nebius。看一下這個:在基礎層,最新最強大的GPU運行在我們自己的服務器和機架中。在此之上,是一個功能強大的完整云平臺,擁有強大的存儲、自動修復、可觀測性,一切高度集成以實現零性能損失,以及一套工具,包括我們自己的Slurm、Kubernetes、分隔符、無服務器和其他服務。在頂層,是AI運行時Token Factory,用于推理和模型微調,內置系統級優化和模型級優化。所有這些都有多種消費方式、安全性、合規性和可觀測性。一個平臺服務任何類型的構建者——AI產品開發者用于實驗和發展產品,機器學習工程科學家用于將時間花在構建而非配置集群上,企業團隊用于在受控條件下大規模運行AI。
Nebius能走到今天,要感謝我們有幸合作并從中學習的所有優秀客戶。但這還不是全部。
我們剛剛展示和討論的一切,是我們現在正在增長的。但我們想為即將到來的做好準備。也許我們還不知道如何交付的所有細節。這就是智能體(Agentic)新世界。讓我分享我們如何思考AI基礎設施的未來。
智能體正在呈指數級增長,再次改變我們的行業。客戶希望智能體以使產品可行的成本完成任務。Tokens將成為下一個基礎設施層。人們將為結果付費,而不是為tokens付費。這對云提出了新的要求,我們需要應對。
一個智能體不只是一次優化的模型調用,它是一個循環。它制定計劃,調用工具和模型,觀察結果,重試并繼續,直到任務完成。今天,原型化一個智能體很容易。你可以把一個模型連接到幾個工具上,讓事情運轉起來。但生產是不同的。運行一次智能體,與為組織中數千名用戶大規模運行數千個智能體,是完全不同的。
小錯誤會不斷疊加。看起來不錯的95%每次調用成功率,會轉化為徹底失敗。一個糟糕的計劃可能消耗比預算多10倍的tokens。
那么云基礎設施應該是什么樣的?
第一,高性能推理——快速、成本高效,服務于許多并發稀疏任務。
第二,接地氣的數據訪問——實時網絡搜索、提取和研究,為智能體提供上下文。
第三,編排——我們需要組織模型和工具之間的路由、重試、狀態管理、持久執行,以及可以運行數分鐘乃至數小時的任務。
第四,可觀測性和評估——我們需要收集智能體計劃了什么、做了什么、調用了哪些工具、什么失敗了、花費了多少以及結果是什么的完整追蹤。
第五,控制和安全——權限、沙箱和成本上限。
這是從無狀態模型服務到智能體運行時基礎設施的轉變。
但當基礎設施就位后,我們可以開始下一個循環。每個智能體在運行時都會產生大量數據——計劃、追蹤、成本和結果。當我們捕獲所有這些數據時,我們可以開始系統性地、持續地改進智能體。就像今天我們優化推理端點一樣,我們可以優化路由,改進提示和工具調用,降低成本。云平臺不僅僅是智能體運行的地方,它成為使智能體可測量并持續改進的系統。
云還有另一個轉變。一個新的角色出現了——智能體作為用戶。云平臺過去是為人類用戶構建的——閱讀文檔、點擊控制臺、手動部署和調試服務的開發者。智能體需要不同的云接口——API優先,可編程且可觀測。我們在一年前就開始朝這個方向邁進。我們通過MCP提供Nebius API,讓智能體能夠與平臺交互。今年,我們正在開發Nebius Agent Echo,它知道如何在我們的基礎設施上執行復雜任務。
但更深層的要點是工作負載優化。智能體的行為與人類不同——它們持續調用API,并行運行許多步驟,重試并優化成本和效率。這需要低延遲API、高效調度和成本控制。
為什么我認為Nebius能構建它?我們從硬件到API是垂直集成的,所以我們可以跨全棧優化智能體工作負載并取得成果。
目標很簡單:我們需要讓Nebius成為智能體能夠有效使用的云。
真正令人興奮的是,這是一片綠地。智能體AI對每個人來說都將是新的工作負載,對每個參與者來說都是如此。沒有數十年積累的經驗。我們看到了新類型的開發者、新類型的應用程序,每個人都從零開始。當每個人都從零開始時,優勢屬于那些能夠快速行動的人
共同工程化——那就是我們這個房間里的人——提供AI產品的真實價值。這不會容易,但你做什么就得到什么。構建者能夠解決這個問題,解決那些看似不可能的難題。我們Nebius將盡我們所能不拖累你們。我們繼續以穩健的步伐構建面向AI的規模化云。
說到這里,讓我請Arkady上臺——我們的CEO,那個把我們推向極限的人——他將告訴大家他在哪些維度上推動我們。
Arkady Volozh — CEO & 聯合創始人,Nebius
我想對Roma剛才說的內容做一個總結,也許稍微補充一點。就幾張幻燈片,不是一個大型演示。
Nebius是什么
Nebius實際上是在做什么?我們在構建一個平臺,一個算力平臺。我們建造自己的數據中心,我們建造自己的機架,大家都知道。
最近,我們開始向下延伸技術棧,不得不在能源層面做一些事情,比如電網發電、Bloom合同等等。這是基礎硬件平臺。在此之上,我們構建云服務、推理服務、talking factory。現在我們正在構建一個agentic層。這些都是使Nebius成為Nebius自身的工具。
Nebius做什么,不做什么
所以,Nebius是一個算力平臺與工具,服務于AI應用的開發者——那些真正創造AI的人。Nebius只是一個工具。
Nebius不做什么?Nebius不開發自己的模型,Nebius也不開發自己的應用。那是我們的開發者客戶在做的事。使用這些工具、使用這些算力的客戶,構建出這些神奇的東西——無論是基礎模型、消費者應用還是企業應用——這些才真正產生了價值,才是真實的產業。這才是AI真正創造價值的地方,在那里,一切都會變得快10倍、便宜10×10倍,或者多10倍。
如果這一切發生,整個生態系統就會運轉起來,而我們離這一天已經非常近了。Nebius就是在這里扮演這個角色。
產品維度
Roma講到了我們的二維空間。我們在構建產品——公平地說,主要是裸金屬云、推理、agentics。我們為不同類型的客戶開發這些產品,他們需要不同的東西,思考方式不同,說著不同的語言——無論是裸金屬、購買GPU還是購買token。
這是不同類型的用戶,他們是開發者或項目經理。現在使用AI的人遠比使用傳統云的人多得多。所以我們在這兩個維度上構建,但還有第三個維度,那就是規模
規模維度
我們在大規模地構建這些東西。
不到兩年前,我們從一個10兆瓦的小型數據中心起步。我們說現在運行超過200兆瓦。我們最近表示,到今年年底,我們將達到800兆瓦到1吉瓦的運行功率。我們已經預訂并簽約了3吉瓦的容量,并表示到年底將超過4吉瓦。我們正在朝這個方向前進,非常接近了。
這就是規模,但規模不僅以兆瓦、吉字節來衡量,還可以以建設地點來衡量——差點忘了說這個。我們在歐洲、中東建造這些兆瓦和吉瓦級設施,印度和亞太地區也即將開始。當然,我們大多數已建和在建的項目都在美國
重要的是,在我們簽約的4吉瓦中,三分之二是我們自有的容量——是我們自己的土地、電力和廠房,不是租賃的。所以我們建立了一個相當龐大的系統。
GPU規模
這個容量,其規模可以用吉瓦來衡量,也可以用GPU數量來衡量。這里顯示的是上半年的數字,但數字本身并不重要。我們正在建造的規模是數十萬乃至數百萬GPU。今天有多少公司能在公有云中提供數十萬GPU?也許是三家超大規模云服務商,還有我們,也許還有其他人,我不確定。所以我們正在構建全球最大的公有AI云之一
資金維度
這就是規模,但這個規模也可以用美元來衡量。有吉瓦,也有吉美元。
23個月前,我們從20億美元起步,很高興能以此為起點。這筆錢實際上足夠我們開始預訂所有這些容量,因為預訂只需總資本支出的1%。去年我們又融了數十億美元,開始建造這些數據中心。今年我們預訂了數百億美元的容量,這將使我們能夠在今年建造吉瓦級GPU設施。現在我們在思考如何獲得數千億美元
到目前為止,我們在融資方面非常有創意、非常高效。我們是最早(甚至是第一家)啟動客戶預付款模式的公司之一,這幫助我們帶來了建設資金。我們也是最早簽訂大型兜底合同的公司之一,這使我們能夠以較低成本為建設融資。當然,我們也有可轉換債券和其他傳統融資工具。
我可以向大家保證,我們將繼續以同樣的創造力和效率進行融資,很快就會有一些公告發布。但這是無限增長,我們需要越來越多的資金。建造這些吉瓦、數百萬GPU需要數千億美元,這是一個巨大規模的生產建設。
第四維度:時間
我想說,是的,我們在構建這個三維空間——產品、客戶、規模,但還有第四個維度,那就是時間
你無法把它放在圖表上,但這個維度實際上就是公司本身的故事。下個月,我們將迎來成立兩周年。我們創建了這家公司,匯聚了所有我們設法招募到的人才——那些來到我們這里的人,現在已經是數千人。所以,我們稱之為第四維度。
正式宣告:不再是初創公司
借用今天這場活動的名稱,我們決定應該做出改變——我們正式宣布,從今天起,停止稱自己為初創公司。
我們創造了產品,我們以規模創造了它,我們為客戶創造了它。正是客戶,讓這一切變得有意義。
我認為,現在是時候聽聽我們的一些客戶的聲音了。
Nebius 客戶心聲
Base CamP Research 正在構建生物學的互聯網。沒錯。
是的。
Robot Forces 正在打造機器人勞動力,承擔那些人類不應該親自去做的事情。我們正在努力改善專業溝通方式。我們正在構建基礎模型,以揭示關于大腦的全新生物學知識,從而改變癡呆癥的發展進程。我們正在嘗試賦予受監管行業加速軟件開發的能力。
我們設計一種新分子,并在不到 24 個月內將其推向市場。這絕對是瘋狂的——要知道,傳統方式開發一種新分子可能需要七年時間。不,現在只需要 24 個月。
我們面臨的主要技術挑戰之一,是如何真正做好上下文工程,而不是不假思索地把所有內容都塞進上下文。制藥行業通常需要大約 10 年時間和 20 億美元。我們必須綜合考慮數據、模型和基礎設施——誰能以超大規模最快速地提供算力,這正是 Nebius 發揮作用的地方。
Nebius 變得至關重要,是因為我們真正需要安全地擴展我們的 AI。得益于 Nebius,我們能夠在數周內完成模型的擴展。我們可以將時間從數月縮短到僅僅幾個小時。你們以我們希望的實驗速度來支持我們。速度令人難以置信。使用 Nebius,我們降低了大約70%。原本需要兩到三周的工作,我們可以在一周內完成。當我們開始使用 Nebius 時,我們看到 P99 延遲在400 到 500 毫秒,這非常了不起。我們實際上一直在和他們溝通。
幾乎每天都在溝通。
我認為現在是構建產品的極佳時機。就在當下。有機會打造出被大量用戶使用的產品。
到 2030 年,我預計我們將在生物學的所有領域看到真正偉大的進步。
我們將需要指數級增長的更多算力,才能將我們帶到下一個層次。
找到那些與你同行的人,因為他們相信這個使命。這是一段非常令人興奮的旅程。讓我們出發吧。
行業圓桌討論
旁白:請歡迎《The Information》執行編輯 Amir Ifrati 上臺。
《The Information》執行編輯 Amir Ifrati:
大家好,我叫 Amir,很高興來到這里。這是一個非常好的切入點,從智能體層出發,探討 Nebius 的客戶——那些真正為 AI 用戶提供產品的公司——是如何經歷當下這個時刻的。廢話不多說,讓我們歡迎其他嘉賓上臺。
嘿,大家好。
好的。當 Nebius 最初找到我,提出這個討論的想法時,我以為今天的活動會和現在有所不同。我以為會是一個接一個的案例研究,講述那些正在做他們以前認為不可能做到的事情的公司,甚至是六個月前還做不到的事情——這種情況依然存在,有很多可以聊的。但我認為我們現在處于一種……姑且稱之為敘事轉變的時刻。CIO 和 CTO 們談論最多的是失控的成本、缺乏成本管控,這個話題似乎正在主導整個對話。所以我非常期待討論這個問題,以及各家公司正在采取什么措施。
讓我們為這個討論做個鋪墊。我想按順序聽取每位嘉賓的看法。我們先從 Database 的 Nikita 開始——你如何看待當下這個特殊時刻?這只是一個暫時的停頓、短暫的審視、重新考量或收縮?還是說,只要再過幾周,等下一批模型出來,我們就會把這些都拋諸腦后,然后繼續狂奔——比如,我們該把多少 API 調用量給 Anthropic 或 OpenAI?我們該把多少錢投給 Scott 和 Devin 以及那些智能體?請你先開始,并介紹一下自己。
Nikita(Database,前 Neon 創始人):
好的,我叫 Nikita,我在 Database 工作。此前,我創立了一家叫 Neon 的公司,去年被收購了。我們處于所有 AI 編程智能體的下游消費端,為現代應用提供基礎設施。在 Database,我負責運營一個數據庫——也就是 Neon 演變而來的產品——以及一個應用平臺。所以我與所有代碼生成系統都有非常緊密的聯系。
回答你的問題,我認為可以從兩個視角來看:一是數據庫視角,即大型工程組織內部在做什么;二是我們的客戶在要求我們做什么
先說客戶——他們想要成本管控。我們剛剛經歷了一個"token 消耗最大化"的小階段,我認為我們還在其中。但隨后,很多地方開始出現問題——盡可能利用 AI 對工程師來說固然重要,但也存在浪費性支出。所以人們想要搞清楚到底發生了什么。
從數據庫的角度來看,如果你能把 AI 消耗通過 AI 網關來處理,我認為這是一個純粹的基礎設施觀點:把你的 AI 消耗接入我們的 AI Unity Gateway,我們來告訴你發生了什么。從那以后,你就可以根據需要切換到其他模型,我們也可以為你托管這些模型,等等。這是 Database 純粹從產品角度為客戶提供的方案。
從內部來說,工程師的 AI 預算是無限的,"token 最大化"依然存在。大家可以帶來自己的 AI 工具,大多數人在運行 Claude Code 或者類似內部版 Devin 的東西。我認為未來的走向是——我們會對工程師的生產力有更多可見性,當我們開始審視整個軟件交付流水線,看清其中的瓶頸所在時。
《The Information》Amir Ifrati:
好的,謝謝。DataRobot 的嘉賓,請開始。
Venky — CPO,DataRobot:
當然。我是 Venky,DataRobot 的 CPO。我們一直非常專注于如何幫助企業真正重塑其工作方式,特別是與智能體協作的方式。就像智能體正在改變編程方式一樣,我們思考的是如何在企業核心工作流中實現這一點,比如業務規劃、安全合規、運營等方面。
在成本問題上,我們發現,當你開始看到這些東西真正投入生產時,它就不再是"每個用戶每月多花 30 美元訂閱費"這種小事了。你開始面對的是數百萬美元的支出,突然間它成了一個大的預算項目。當"I(投資)"變得很大時,你自然要開始追問"R(回報)"在哪里。
所以現在大家都在重新審視:僅僅部署一個智能體就夠了嗎?它花費很多,但我到底得到了什么回報?
我們的觀點是:在"I"這一側,成本必須從一開始就作為核心設計原則來考量。在構建智能體、設計智能體、評估智能體時,你必須把成本納入考慮。然后你要考慮如何選擇合適的模型,以及如何在運行時優化——就像 Nikita 說的那樣,根據意圖路由到不同模型,確保你用的是最低成本的模型。如果你在自托管模型,你是否獲得了最大化的利用率?這是投資側需要做的大量工作。
而在ROI 側,你必須選擇有價值的問題來解決。你不能把每一個現有的工作流都塞進一個智能體框架,然后期待回報。你真的需要從頭開始重新思考整個業務流程,以智能體原生的方式來重構。
《The Information》Amir Ifrati:
好的,我們稍后會深入探討這個話題。
Narek,來自 Nebius,我在來這里的路上一直在思考我們所處的這個時刻。它真的讓我想起了 10 到 15 年前公有云興起時的情形。我當時在寫關于 AWS 客戶的報道,他們說:"等等,我今年比預期多花了 2000 萬美元。"那時候,2000 萬美元是一筆很大的錢。所以這確實感覺是一個非常相似的時刻。你是否也有同感?在應用 AI 和客戶成本方面,你認為我們現在處于什么位置?
Narek — Nebius:
是的,我認為成本問題是隨著規模擴大而出現的。當你擴大規模時——是的,創建一個原型、展示一些結果非常容易。但如果你把這個原型擴展到數百個用戶,經濟賬就會把你壓垮。你需要運用一些技術來讓它更可靠、更具成本效益。
我可以舉一個例子。大約一年前,我們為我們的云平臺創建了一個 MCP(模型上下文協議)。你可以把這個 MCP 接入我們的云,然后問一些問題,比如某個用戶在我們平臺上做了什么。使用 MCP,回答這個問題花了大約 15 分鐘,消耗了 100 萬個 token。后來我們把它更新為一個 Echo 系統,其中包含了大量關于我們信息、API 等的上下文。同樣的查詢只需要幾秒鐘,智能體只消耗了幾千個 token。
所以,不僅僅是使用模型本身很重要,優化數據層、為模型提供更高效的上下文同樣至關重要。這將大幅降低你的成本。這正是我們在平臺上看到的情況。
《The Information》Amir Ifrati:
Scott,我猜這些關于支出反彈的噪音對你來說可能是個好消息。你不僅通過對模型提供商進行抽象化來構建業務和產品,而且也非常注重結果導向。
結果優先。告訴我們你如何經歷這個時刻?你看到了所有這些頭條新聞,看到很多客戶、CIO 和 CTO 在討論失控的成本。對你來說這是什么感受?
Scott — CEO,Cognition(Devin):
是的,當然。我是 Scott,Cognition 的 CEO,我們構建了 AI 軟件工程師 Devin。我非常贊同各位已經提出的所有觀點。你確實看到了價格和支出增加到了一個讓所有 CIO 都非常在意的程度。
我認為,從很高的層面來看,AI 是有效的,而且顯然是值得的。
當我們談論效率提升、能做到更多事情時,GPU 確實很貴,但也沒那么貴。相對于你支付的 token 費用,與你獲得的額外產能或產出相比,數學賬算起來是非常清晰的——特別是與你支付給人類員工的費用相比,以及團隊中每個人能多做多少事情相比。
我認為人們真正關注的是:如何真正衡量和優化這一點,如何從結果的角度來思考這個問題。寫 1 萬行代碼,對任何模型來說都比讓人類寫 1 萬行代碼便宜得多。但是,就像管理人類一樣,管理智能體也是一回事——如果那 1 萬行代碼完全沒用,用在了一個你從未真正發布或構建的任務上,那就完全是在浪費錢。
所以,更重要的是思考:我真正在推動什么實際結果?
人們談到"杰文斯悖論",我們在實際工作中確實非常明顯地看到了這一點。每家公司都在構建更多、發布更多軟件。但他們想知道的是:發布這么多軟件,我能獲得什么具體回報?我如何衡量?也許是我的產品更快上市,從而獲得更多收入;也許是我能給客戶提供更好的體驗;也許是我能更快、更好地構建內部工具,從而體現出更高價值。
重點不在于字面上的"一分錢一分貨",而在于確保你把 AI 引導向真正影響底線的用例上。
《The Information》Amir Ifrati:
你說得聽起來很容易。但顯然,在極大型企業里,存在很多各自為政的部門、不同的支出中心、成本中心、各做各事的不同業務部門。在早期的公有云時代,解決方案之一是集中化——建立某種中央決策機制來管理支出,而不是讓每個團隊各行其是。
能不能深入談談你們看到企業正在努力克服的組織層面的障礙?另外,我們上周在《The Information》刊發了一篇專欄,介紹了企業可以采取的一些基本步驟來降低成本。現在很多人都在談論模型路由器,還有很多對成熟客戶來說更容易實現、對不那么成熟的客戶來說更難實現的方法。哪位想先談談這個?
Scott — CEO,Cognition(Devin):
是的,正如你所說,說起來容易做起來難。在大型組織中,確實存在部門化的預算——這個能花多少,那個能花多少。
我想指出我們看到的幾件事。
第一,對于很多支出,那些人們原本考慮外包或以服務方式購買的事情,現在發生了一種非常自然的轉變:好,讓我們想想如何用 AI 來做更多事情。這是一種更自然的替代方式。我實際上認為,很多大的收益來自于增加產出和提升產能,而不僅僅是削減成本。當然,還需要做一些工作,確保整個團隊都清楚地知道收益來自哪里。但我認為這個過程正在很多大型企業中發生。
第二,關于模型路由,這是一個很好的觀點。在 token 預算或資金預算的約束下,我們越來越看到,所有模型都在變得更好。在代碼領域,最難的任務你仍然需要最聰明的模型——比如今天剛發布的 Fable,有些任務只有 Fable 才能完成。但現實是,軟件工程師日常工作中,這類任務可能只占 10% 到 20%。對于另外 80% 到 90% 的任務,自然就會有一個問題:我如何確保我在使用更便宜的模型?有很多優秀的開源模型可以處理 50% 到 60% 的任務,速度快 10 倍,成本低 10 倍。顯然,我會想要做出這種改進。
所以我認為模型路由正在成為越來越重要的一部分,而且這一趨勢將持續下去。
the Information,Amir Ifrati:
你們能不能在某個時間點多談談開源的話題?好的,請繼續。
Nikita(Database,前 Neon 創始人):
我認為,對于大型組織來說,有一件事非常實際,那就是構建一個內部工具,這個工具對編碼和非編碼任務都有用。它可以是對 Claude Code 的一個輕量封裝,也可以是更復雜的東西,但它肯定要通過 MCP 連接到所有內部流程,比如郵件、Slack,基本上就是所有工作發生的系統。很多工作顯然是在生成代碼,但也包括部署代碼和運行 CICD 流程。這樣做的好處是,因為每個人都在使用這個工具,你就擁有了更統一的視角。當然,要做到這一點,這個工具在 Databricks 內部需要是有用的。這個工具叫做 Isaac。在 RAM 內部,我記得叫 Incept。當然,你也可以直接購買我們稱之為 Devin 的現成工具。
一旦你擁有了這個工具,你就能從所有 AI 使用中獲得大量的遙測數據,這不僅僅是你對 AI 的調用,而是實際上通過這個工具完成的工作。一旦到了這一步,模型路由就成為一個真正可行的選項,你就可以開始把某些使用量導向更便宜的模型。基本上,一旦你走上了消費路徑,并且端到端地覆蓋了組織中發生的每一項工作,你就可以將其數字化,從而優化它——比如導向開源模型、選擇不同模型,很多事情都可以發生。
你還會發現,瓶頸可能根本不在模型上。比如,現代 CICD 流程其實是有問題的。在 Databricks,我們有一段時間積壓了很多 PR,它們要么在等待代碼審查,要么在等待 CICD 流程完成。我們有各種圖表顯示并行堆積的 PR 數量不斷攀升。所以我認為,當我們能夠端到端地看到這些問題時,我們就會開始優化它們。而第一個前提條件,就是為你的組織構建一個工作真正發生的工具。
Venky(CPO,DataRobot):
也許我會從另一個方向來談,因為你是從組織層面開始的。我認為我們見過兩種模式。我認為很多是自下而上的,人們自己拿起工具開始使用,最終他們傾向于將自己所做的事情自動化并加速,就像個人獲得的生產力提升一樣。但這些其實很難衡量。你當然可以定性地描述,但很難量化,因為你會說,我做了一個更好的演示文稿,質量更高,但不清楚如何衡量它。
所以我認為,我見過更容易衡量成效的地方,往往是更自上而下的方式。比如 Chevron 是我們的客戶,他們有一個直接向 CEO 匯報的團隊,自上而下地推動,思考如何進行基于 AI 的轉型。他們和我們合作,真正去解決那些極其困難的問題。他們的設施案例作為參考案例剛剛發布在我們網站上。
他們真正談到的是:我們如何把以前無法整合在一起的東西整合起來?這就是人們所說的"角色坍縮"和"時間坍縮"——因為事情進展得更快,你可以做不同的事情。我們發現,將一個傳統的推理模型、一個 Physics Nemo 這樣做物理建模的模型整合在一起,去解決一個真正困難的工廠安全問題——這就是他們發現的價值。他們說:現在我們真的可以不用派人去進入氣體泄漏現場了,因為他們現在可以用無人機安全地進行測量。這是一種非常不同的方式,他們發現這是一個非常有趣的用例,真正改變了他們工作的經濟邏輯。所以不是說節省了多少工程師,而是:我們正在建設一個未來的新設施,里面在氣體泄漏現場工作的人會更少。這是一種完全不同的、自上而下的方法。
the Information,Amir Ifrati:
是的,我知道這里沒有萬能解藥,但我覺得,那些極度成熟、運營大量數據庫、知道如何在上面疊加 AI 來創建應用的公司,和那些處于重度監管行業、非常老舊、體量龐大、需要更多手把手指導的公司之間,似乎存在著相當大的差距。
我認為大家都在努力弄清楚,衡量結果、衡量 ROI 的最佳模型是什么,有哪些最好的案例?OpenAI 和 Anthropic 可以說到嘴皮子磨破,告訴你應該怎么做。但是,有沒有一些正在崛起的初創公司,能夠提供正確的儀表盤?還是說會是那些傳統的——我不想說傳統——AI 領域的老玩家,包括你們自己,或者 Palantir 這樣的公司,或者 Salesforce 這樣的公司,會插進來說:我們是中間商,你需要我們來理清一切,知道如何路由到不同的模型,知道如何結合開源來實現你的目標。只要告訴我們你想實現什么,我們來幫你實現。我只是想搞清楚這一點。
因為現在有一場巨大的爭論:有人說,你只需要一套很好的數據庫,多開幾個數據庫,在上面疊加 AI,就像 Snowflake 最近一直在說的那樣,然后你就可以出發了,你不需要這個中間層。這是行業里目前一場巨大的爭論,我很希望你們能發表意見。
Narek(Nebius):
是的,我可以說。實際上,這是我們現在內部正在經歷的痛點,因為我們正在為我們的團隊啟用 AI。我認為數據層對于 Agent 來說極其重要,需要針對 Agent 進行優化。你可以通過為個人使用創建自己的 LLM 工作流來獲得很高的生產力。但當你擴展規模時,你會意識到今天沒有太多技術能幫助你,因為你需要一個語義層來向 Agent 展示、引導 Agent 了解公司背景——比如公司的術語是什么、公司的歷史遺留是什么、歷史是什么、流程是什么——而所有這些都分散在公司內部各種零散的數據源中,加上一半的信息在人們的腦子里,在那些郵件和聊天記錄里。所以你需要一種不同的語義層來聚合所有這些。
現在,關于數據源的擴展問題:你可以在個人生產力方面獲得很多,比如我個人的 Claude,它能創建出色的分析查詢,說實話比我們公司任何人都強。但我無法擴展它,因為它也包含了我個人的上下文。所以我需要一個中間層來連接所有數據源,并為公司提供共享的上下文。我認為公司應該走向"個人上下文 + 企業上下文"的模式,以實現真正的可擴展性。
the Information,Amir Ifrati:
是的,很高興你提到了語義層。我們幾周前實際上專門寫了一篇關于語義層的文章,背景是微軟的 Power BI 正在試圖在其周圍建立更多的圍墻,讓某些人更難進入——這里的"某些人"是指讓客戶使用 Databricks 或其他工具,將他們的數據從 Power BI 帶入他們正在開發 AI 應用的整體環境中。
我很好奇你們對此的看法,以及這將如何發展。在傳統應用周圍建立圍墻和收費站,這種情況似乎正在發生。公司在財報電話會議上都在談論這件事,這只是個開始。我不知道最終會走向哪里,不知道客戶是否會反抗,或者客戶是否能通過 Vibe Coding 的方式繞過它。我很想聽聽你們任何人對這一趨勢的看法。
Venky(CPO,DataRobot):
我會說,你可以設置收費站,有些人會逐漸接受,但我認為最終這行不通,因為客戶會說:這是我的數據,這是我的知識產權。他們最終會找到正確的出路,他們會 Vibe Code 出去,會有替代方案,他們會去找別人,會有人說:嘿,不設這些限制也可以賺錢。所以我認為這可能不是最難解決的問題,它會被繞過去。
Nikita(Database,前 Neon 創始人):
是的,我其實親身經歷著這個問題。想想看,工作發生在哪里?是發生在 AI 工具里,還是發生在我的 SaaS 工具里?
Venky(CPO,DataRobot):
沒錯。
Nikita(Database,前 Neon 創始人):
那么,客戶希望工作發生在哪里?歸根結底,客戶需要工作發生在哪里,這個東西就會在哪里落地。你可以建起圍墻,但如果客戶想活在 Claude Code 里,那競爭對手就會提供一種能力,讓你從 Claude Code 內部消費一切。
那么好,但你有你的 SaaS 工具,有數十億的營收,這些東西怎么辦?你當然必須兩者都做,然后讓人們在他們想工作的地方工作。你需要把 AI 引入你的產品,并確保——如果你幸運的話——你能提供比在 Claude Code 里消費同一產品更好的體驗。如果你不幸運,你就會被去中介化。我認為每一家 SaaS 產品的擁有者,包括 Databricks,它既是數據產品也是 SaaS 工具,都必須兩者兼顧,今天別無選擇。至于未來會怎樣,就讓它自然發展吧。
Venky(CPO,DataRobot):
舉個例子,我們公司很多人現在用 Claude 來制作 PowerPoint 幻燈片,所以你不是在 PowerPoint 里做幻燈片,你實際上是在 Claude 里做,PowerPoint 只是一個導出機制,最后輸出一個 pptx 文件。如果你對 PowerPoint 設置很高的壁壘說你不能用這個東西,那你就會用別的東西來代替 PowerPoint。順便說一下,Claude 目前只支持 PowerPoint,還不支持 Google Slides,但等它支持了,我們就可以用任何一個了。所以關鍵在于,如果你在 AI 里工作,其他東西就變得不那么重要了。這就是你必須競爭的地方,我認為單純地設置收費站是不可持續的。
the Information,Amir Ifrati:
好奇問一下,你們認為今天企業 AI 支出中,有多少比例是實驗性的,或者說不被認為是核心必要的?有人知道答案嗎,或者有什么猜測?
Scott(CEO,Cognition,即 Devin):
我認為從支出的角度來看,說實話,現在實驗性支出已經是相當小的少數了,因為那些被大規模擴展的工作流,通常是人們已經看到大規模有效的那些。從用例數量來看,確實有很多很多東西可以嘗試,我們在合作的組織里看到這一點,內部也看到這一點。人們會嘗試很多東西,會擺弄幾個不同的用例,但顯然,那些你發現"這個每次都有效"的用例,那種"每次我啟動一個 Agent 去做這件事就能節省六個小時"的用例,才是被擴展 1000 倍的那些。所以當我們談論 AI 繁榮和消費量的巨大增長時,當然有一些"大家瘋狂消耗 Token"的敘事,我相信這種情況存在。但我實際上認為,對于那些監控支出的組織來說,大多數已經到了將大部分支出用于真實用例的階段。
Nikita(Database,前 Neon 創始人):
尤其是編碼,對吧?編碼就是爆炸式增長。對任何寫代碼的人來說,使用 AI 工具能讓他們效率大幅提升,這是顯而易見的,因此在這個特定類別上的支出簡直是難以置信的。所以我認為這……
the Information,Amir Ifrati:
當然,但在某些情況下肯定是不可持續的。我們發布了一篇很受歡迎的文章,披露了 Meta 內部用于衡量這些成本的儀表盤,當時他們的工程師在談論這件事,那個成本絕對是失控的。我不知道他們是 Anthropic 多大的客戶,他們可能是前四大客戶之一,現在可能還是。但我就是不確定事情有那么簡單,我認為還有很多……
Venky(CPO,DataRobot):
我認為在工程和編碼領域,它已經證明了自己的價值,所以它是有用的,人們知道如何使用它,而且很多使用實際上是直接的生產型工作。但我會說,在很多其他用例中,情況完全不同。我們在傳統行業看到很多這種情況,他們對 AI 或 Agent 的采用要早得多。我會說,在傳統行業,超過大多數的支出可能仍然是實驗性的——他們不是不花錢,他們在花 Copilot 的錢,在花 Gemini 的錢,在花流量的錢。個人生產力這塊我認為是有的。但如果你想到關鍵任務型工作負載,編碼是其中之一,那么在傳統行業,下一個五個關鍵任務用例是什么?我會說現在還非常早期,還有很多實驗正在進行。
the Information,Amir Ifrati:底層模型的能力,與正在快速構建的各種"套殼工具",以及人們今天實際使用它們的方式之間,差距有多大?
我感覺——也許只是我自己的感受——我幾乎每天、肯定每周都在體驗和聽說新的使用方式。我很好奇這個差距有多大。
Scott(CEO,Cognition,即 Devin):
我認為這真的取決于我們在談論誰。舊金山的 AI 原生初創公司,我認為他們跟得相當緊。而企業美國,正如你所說,在某些情況下可能落后幾個月,甚至幾年,這是個大問題。這是對很多企業采用情況的物理規律的重要提示。
人們問這個問題,很多 AI 公司有過那種瘋狂的增長曲線,問題是這怎么可能增長得這么快、服務這么多?是可持續的嗎?我的解讀是:很多技術總是以浪潮的方式到來,這波之前是云計算浪潮,之前是移動,之前是互聯網,再之前是個人電腦,等等。
我認為有幾件事正在發生。首先,交付機制就是純軟件,所以公司采用和使用它要容易得多。
但我認為另一件事——正如你所指出的——是落后兩年已經不再可以接受了。如果你想想云計算的采用,很多很多公司就在最近幾年才上云,他們剛剛把最后的系統從本地遷走。是的,你晚了五年、十年,但還好,我們用現有的東西撐過來了,也許早點來會更高效,但結果還不錯。但在 AI 上晚五年、十年是行不通的。
the Information,Amir Ifrati:
你的例子是什么?在哪種情況下……
Scott(CEO,Cognition,即 Devin):
顯然是這樣。
我認為很多企業也真的意識到了這一點。所以即使用相對的說法,晚六個月或三個月——順便說一下,就可用的用例而言,這是很大的差距——仍然比我們以前見過的許多趨勢快了一個數量級。
Narek(Nebius):
我同意,并補充一點:AI 原生初創公司處于非常幸運的位置,他們沒有歷史包袱,他們從零開始。歷史越多、遺留越多,內部政治就越多,這意味著你需要越來越多的變革來適應。所以這真的取決于你的組織有多成熟——你越成熟,處境越艱難。
the Information,Amir Ifrati:
是的,甚至……
Venky(CPO,DataRobot):
就拿編碼來說吧,這可能是現在最成熟的 AI Agent 用例。如果你是一家有大型代碼庫、有團隊的公司,然后你說:好,現在不再有那些不同的角色了,只有一個"構建者"角色,不再區分 PM、設計和工程。你必須重新組建所有團隊,弄清楚怎么安排他們。這不是免費的。但如果你是這個活動方圓 50 英里內的一家初創公司,從零開始,當然,你沒有這些問題,或者你只有五個人,很容易繞過去。但如果你有 500 人、1000 人,重新組建團隊、重新思考規劃和工作方式,這是真實的工作量。
而那些還不理解這一切的人,只是因為他們還沒有……適應得最好的最老的公司是哪家?我不太清楚。但在我們的客戶群里,我會說是 Chevron,因為他們真的全力投入了,他們是真正自上而下地押注,這讓他們非常不舒服。
工廠經理們會說:你們提議的這些我一個都做不了,因為有各種法規。但他們在推,他們建立了一個團隊來推動。所以我認為每家公司都在以不同的方式嘗試推進,但我認為我們深刻理解改變傳統公司大量工作方式的代價有多大。
the Information,Amir Ifrati:
如果不談談 GPU 短缺問題,那就太遺憾了,你們 Nebius 的朋友和 Eric 對此再清楚不過了。我記得你們團隊的 Mark 在上一次財報電話會議上提到了漲價的問題。我們也從很多初創公司創始人和 AI 產品創始人那里聽說,現在外面的情況很艱難,很多算力都被大客戶預定了。所以我很好奇,對你們自己,以及對你們的客戶來說,有什么技巧?什么有效,什么無效?怎么拿到更好的價格?你們在做什么?
Narek(Nebius):
這是個好問題,如何應對這個問題。我認為,如果你是 AI 的用戶而不是構建者,你很可能處于可以使用開源模型的位置。
優化數據層也能讓你從算力投資中榨取更多價值。從基礎設施和 GPU 的角度來看,可以結合多種類型的工作負載。你不需要為所有東西預留算力,對某些類型的應用你需要預留,但有時你可以大批量運行推理,就像 Shopify 做的那樣,他們同時使用 GCP 和 Nebius 的可搶占實例,用于非關鍵工作負載。
所以有很多技巧,但核心思想是:你可以將你的工作負載類型映射到對算力的需求上。對于大規模生產、可預測的生產,你需要預留。如果你使用類似"Token 工廠"的服務,可以從預留中榨取更多 Token,基本上是批量推理。你也可以將其與突發用量結合,這在特定情況下是可行的,尤其是如果你使用 Sky Pilot 這樣的多云技術。
the Information,Amir Ifrati:
Scott,在剩余的時間里,我想請你帶我們暢想一下五年后的未來,告訴我們你的 Agent 將會為我們做什么。我們還會有 IT 部門嗎?會發生什么?
Scott(CEO,Cognition,即 Devin):
五年后,我們都會在元宇宙里,不會有任何物理……開玩笑的。
我認為你真的會看到這個趨勢繼續下去。在舊金山說這話可能已經是陳詞濫調了,但值得真正思考其含義。人們談論 METR 研究,關于 Agent 能自主完成多長時間的工作:兩年前,是 20 秒左右;一年前,是 5-10 分鐘;現在我們在談論幾個小時的工作量,而且它繼續沿著指數曲線增長。我不知道最新的數字是多少,但我相信又翻了一番或更多。
如果你順著這條曲線自然推演,問一個問題:如果它繼續下去會怎樣?那么你就在想:好,這個模型是一個可以完成數月工作的 Agent。這幾乎是一種不同的運營模式——你給這個 Agent 一整個計劃,給它一個完整的目標,讓它自己規劃項目范圍,思考如何完成目標,如何做所有這些事情。當你真正在天或周或月的時間尺度上這樣做時,會是什么樣子?我認為我們將會看到很多這樣的情況。
the Information,Amir Ifrati:
舉個你想讓它做的月度項目的例子?
Scott(CEO,Cognition,即 Devin):
這是個好問題。比如今天對于編碼 Agent,是"這是客戶報告的這個 Bug,去處理一下",或者"我們剛寫了這個功能的產品規格,去實現它"。我認為不久之后,會變成:"從高層面來說,我們正在考慮優化我們的架構,想節省成本,想優化數據庫。Devin,把這作為一個整體計劃來承接,看看現在的情況,思考你認為哪里低效,然后構建你認為正確的一切,重新做這件事。"不是一個任務,而幾乎是一個開放式問題:我們應該做什么?你來告訴我,你去做研究,你來搞清楚。
我認為我們已經開始到達這個階段了。而且有趣的是,你越來越接近"想到一個想法,然后它就變成現實",這是我個人非常興奮的事情。我同意,我們將面臨巨大的 GPU 短缺,請 Nebius 的朋友們給我們留一些。但我認為這就是我們將看到的,每一家企業都將能夠構建更多,為他們的客戶做更多。
the Information,Amir Ifrati:
在過去幾個月里,你見過的最長時間跨度的工作任務是什么,讓你感到驚訝的?
Scott(CEO,Cognition,即 Devin):
我們見過有人運行了好幾周的 Devin 會話,我不推薦這樣做,有點像表情包行為了。但認真說,我們見過端到端的項目。比如對于我們的一些訓練運行和項目,有些項目在一年前會是完整的實習項目,多周的實習項目,Devin 只用幾天就完成了,它運行了所有這些東西,整理出一個漂亮的數據集,把結果交給你,真的令人驚嘆。
Nikita(Database,前 Neon 創始人):
聽了這些,我有一個有趣的想法。我成長于各種基礎設施項目的時代——數據庫引擎、存儲子系統,Pure Storage、Snowflake、Nutanix、Palo Alto Networks 這些公司,他們在構建基礎設施產品。這些產品的決定性特征是什么?它們真的很難構建,需要很多非常硬核的系統工程師,他們住在灣區,競爭非常激烈,可以去任何地方工作。而且通常每個這樣的項目都需要很多年,構建一個企業級存儲系統或數據庫系統,端到端大概需要五年。
但這些系統還有另一個特性:它們可以被非常精確地規格化,因為你知道系統的 API 是什么,你知道數據庫引擎是什么,你知道存儲子系統是什么。所以我認為這可能是一個構建更多基礎設施系統的機會。如果你從零開始構建,從一個定義清晰的規格開始,你就可以深入設計你的系統,思考如何拆解工作,然后釋放一支 Agent 大軍去更快地構建這些東西。順便說一下,我現在在 Databricks 已經看到了一些這樣的情況,但我認為它將會是 10 倍、100 倍的規模。
the Information,Amir Ifrati:
你現在是在給我們做產品預告嗎?
Nikita(Database,前 Neon 創始人):
也許房間里有想要構建基礎設施的創業者,我們現在確實生活在一個充滿機遇的世界里。
the Information,Amir Ifrati:
好的,很棒。好了,時間到了,非常感謝各位先生。
Nebius客戶顧問委員會公告
Marc Boroditsky — Nebius首席營收官
謝謝你,Amir、Scott Vanki、Nikita、Narek。聽取客戶的聲音至關重要,能有像剛才臺上那樣杰出的領導者和高管與我們分享,是我們真正的榮幸。希望你們聽到的是:這個差距是真實存在的——我們想用AI做的事情,與我們現有的系統、流程、工具以及企業就緒程度之間的差距。
為了實現我們的愿景,為了能夠將合適的創新者、構建者和企業領導者的洞察帶到桌面上,讓我們Nebius能夠從中獲得靈感和理解,并將其轉化為所需的輸入,從而實現企業級和規模化AI的潛力——這個差距不在于雄心,而在于AI能做什么與組織實際上能夠部署、信任和依賴的系統之間的差距。
正如我所暗示的,這需要跨整個技術棧的協作,而且不是那種一年一次在小組討論中發生的協作,而是在我們構建過程中真實發生的協作——分享我們正在做什么、什么有效、什么無效,共同制定一套通用標準和可復用的架構。
Marc Boroditsky — Nebius首席營收官
為此,我很高興宣布三項新舉措,旨在匯聚我們行業中最有經驗的構建者和從業者。
第一項是Nebius客戶顧問委員會(Customer Advisory Board)的成立。這不僅僅是一個頭銜的集合,而是一個由來自整個AI技術棧的運營者、構建者和企業領導者組成的工作組。顧問委員會的使命很簡單:幫助塑造生產級AI的未來。這正是我們今天在這里討論的話題。
因此,我很榮幸介紹Nebius客戶顧問委員會的首批成員,來自:Amy Black、Forest Labs、Cloudflare、Cognition、Cohere、Core Automation、Higgs Field、Recraft、Revolute和Road Out。他們中的許多人今天都在現場。事實上,如果你是其中之一,能站起來嗎?好的,來了。謝謝你們站起來。請大家和我一起歡迎并感謝這些杰出的領導者的合作與承諾。顧問委員會是Nebius與上述公司建立合作關系的方式。
Marc Boroditsky — Nebius首席營收官
與顧問委員會同步,今天我們正式啟動Nebius Fellows計劃——這是一個由開發者、貢獻者和社區組織者組成的網絡,他們正在塑造AI真正落地現實世界時的樣子。
我們的創始成員來自世界各地的城市,他們是vLLM和CNCF的貢獻者,正在構建我們其他人所使用的AI Agent和評估框架。他們在全球各地舉辦聚會、黑客馬拉松和研討會,從特拉維夫到多倫多,從柏林到布宜諾斯艾利斯,從舊金山到新加坡。
為此,我榮幸地歡迎Nebius Fellows首屆成員。向每一位Fellows,致謝。
他們做著令人難以置信的工作。我看過Waksa分享給我的一些他們的視頻,能獲得這樣的社區支持是真正的榮幸。在我們朝著AI潛力構建的過程中,我對這意味著什么感到非常興奮。
Marc Boroditsky — Nebius首席營收官
好的,最后,第三個項目——我想分享我們今天以預覽版形式啟動的全新構建者計劃(Builder Program)。
這個計劃面向剛剛起步的構建者,以及那些想要比周圍基礎設施跑得更快的人。無論是測試Agent、部署推理、學習技術棧,還是將想法轉化為產品,你都將獲得:Nebius和Tavily積分、課程、便捷訪問我們功能的渠道,以及進入更廣泛Nebius生態系統的路徑。
現在可以在dev.nebius.com注冊。
總結一下,我們正在新增三種重要的學習、協作和推進生產級AI的方式:我們的客戶顧問委員會、Fellows計劃和構建者計劃。
Agentic拐點:從原型到生產就緒
Devang Sachdev — Nebius生態系統戰略副總裁
下午好。感謝大家今天加入我。快速舉手調查一下:有多少人已經構建或原型化了一個Agent?很好。如果你的Agent正在生產環境中運行,請保持舉手。如果這些Agent有除你自己之外的用戶,請保持舉手。如果你不只是運行一個Agent,而是運行多個Agent,請保持舉手。
好的,這就是我今天想和大家談的差距。稍后會有一組優秀的嘉賓加入我們,幫助我們深入探討這個問題。
但在開始之前,我想稍微為這場對話鋪墊一下背景。一年前,我們問的問題是:我能構建一個Agent嗎?從那以后,模型改進了,框架改進了,工具使用也改進了。但今天,我們問的問題是:我能在生產環境中運行一個Agent,或者10個,或者數百個嗎?
你看,挑戰在于大多數團隊都原型化了Agent,但很少有團隊能夠成功且可靠地在生產環境中運行它們。
原因比你想象的更有趣。讓我給你看一個真實的例子。
Devang Sachdev — Nebius生態系統戰略副總裁
我們為醫療保健公司構建了一個合規審計Agent。這個Agent幫助合規團隊對照約30個監管框架(GDPR、HIPAA、SOC 2等)審計他們的標準操作政策——可能有數百甚至數千條。
今天,我們將聚焦于一個非常具體的任務:FDA發布了一套針對AI賦能醫療設備的新指南,Agent的工作是找出哪些操作程序受到影響,并在Jira中提交修復工單。
讓我們看看構建這個Agent時發生了什么。
構建原型實際上非常容易,幾乎只花了我們一天時間,我想我們在午飯前就完成了大部分工作。而且一開始它確實有效。它使用GPT-4.5作為模型,LangChain和Deep Agents進行編排,Pinecone向量數據庫進行檢索。正如我所說,對于大多數任務,它開箱即用。
但對于這個特定任務——最新的FDA指南——它無法找到最新的那份。所以它使用了它已有的知識,完成了任務,但并沒有完全理解觸發該任務的變化是什么。這其實不是一個推理問題,而是數據新鮮度的挑戰。
第一次迭代:解決數據新鮮度問題
Devang Sachdev — Nebius生態系統戰略副總裁
于是我們添加了Willy,用實時Agentic搜索來為Agent提供數據基礎。這只是對技術棧的一個改動。
效果立竿見影,Agent現在能夠首先找到最新的FDA指南,并發現了47個受新指南影響的程序。它提交的工單數量也大約是原型Agent的兩倍。
兩個新問題出現了:
第一,這個Agent增加了覆蓋范圍和范圍。在發現47個受影響程序時,它不僅發現了與FDA指南相關的內容,還發現了一些與HIPAA和其他幾個我們原本不打算讓Agent關注的監管框架相關的內容。優先級不夠清晰,留給人工來分類處理。
第二,你會注意到,僅這一次單任務運行就花費了約657美元。我們的工程師給我發了一條Slack消息說:"這是真的嗎?我們真的要花這么多錢來構建這個Agent嗎?"這在生產環境中是完全不可持續的,至少對這個Agent來說是這樣。
所以在解決了數據新鮮度問題的同時,我們暴露出了兩個新挑戰:一是范圍過大,二是內在經濟性問題。
第二次迭代:解決成本問題
Devang Sachdev — Nebius生態系統戰略副總裁
于是我們嘗試了第三種配置。我們換掉了GPT-4.5,用運行在Nebius Token Factory上的DeepSeek V4 Pro替代它。
成本立即從每次運行657美元降至約34美元,節省了95%的成本。而且這沒有經過任何后訓練或微調。范圍也有所改善,從47個發現減少到29個。
但又一次,兩個新挑戰出現了:
第一,運行時間實際上翻了一番,從半小時增加到約一小時,對于這個Agent來說相當長。
第二,當它提交帶有特定嚴重程度的工單時,我們無法理解和解釋其背后的推理邏輯。Agent在很大程度上是不透明的。
第三次迭代:達到生產就緒
Devang Sachdev — Nebius生態系統戰略副總裁
于是我們繼續嘗試更新的模型,不斷實驗不同的模型,最終選定了Nvidia的Nemotron Ultra——他們上周剛剛發布,現已在Nebius Token Factory上提供。
我們還對技術框架做了一些其他改動:添加了LangSmith用于可觀測性,以及來自Guardrails AI的Snowglobe用于用戶模擬和對抗性測試
運行這個特定配置后,我們看到:在這一點上,這個Agent不僅在這個特定任務上表現良好,我們還在120多個具有已知基準答案的不同任務上運行了這個Agent及其他配置。這個特定配置表現最佳:近乎完美的召回率、高出20%的精確率,比閉源模型便宜約70-80%。
- 成本進一步降至每次運行24美元
- 運行時間從一小時大幅縮短至13分鐘
- 我們開始利用LangSmith的建議和Snowglobe模擬的數據來改善Agent行為
- 我們能夠理解Agent在做什么、為什么這樣做,并能引導Agent朝正確方向發展
下一個前沿:規模化運營
Devang Sachdev — Nebius生態系統戰略副總裁
你可能會認為這現在已經生產就緒了。確實如此,但我們發現了另一個挑戰:我們可以構建和運行這一個Agent,但我們如何在生產環境中為數百個用戶運行數百個Agent呢?
我們已經解決了運行時間和信任的問題,現在面臨的是規模化運營的挑戰。
讓我們退一步,回顧所有四次運行,看看我們發現了什么。三件事格外突出:
第一,從原型到生產就緒的路徑不一定是線性的,它實際上是一條成熟度曲線。每次我們發現一個問題并解決它,就會發現需要新型修復和新型工具的新問題。因此實際上,正確的技術棧或正確的框架與正確的模型同樣重要,因為兩者共同作用才能產生正確的Agent結果。
第二,開源模型或開放權重模型正在迅速縮小差距。對于大多數Agentic任務,開放權重模型開箱即用。在我們走過的整個過程中,我們沒有進行任何重訓練或微調。
第三,生產就緒與在生產中運行和持續改進并不是同一回事,尤其是當你運行數百個Agent副本時。這是下一個前沿,也是我接下來想與我們的小組深入探討的話題。
圓桌討論:AI Agent 的邊界控制、評估與知識更新
主持人 Devang Sachdev(Nebius 戰略與生態副總裁):
現在請各位嘉賓上臺。我們有來自 LangChain 的 Julia Schotenstein、再次來到現場的 Pinecone 的 Ash Ashutosh、Tavily 的 Rotem Weiss,以及 Guardrails AI 的 Shree Rajpal。感謝大家的參與。
Devang:
Shree,我想先從你開始。在某一次運行中,我們看到 agent 跑偏了——它開始去查找其他監管框架,而不是只關注既定的目標。在上線之前,有哪些手段可以讓 agent 保持在既定范圍內?
Shree Rajpal(Guardrails AI):
這個問題問得非常好。我認為關于 agent 有一個很有意思的難題,那就是:在你真正開始部署 agent 之前,你甚至很難知道"范圍"是什么,或者"超出范圍"是什么樣子的。比如說,當你剛開始構建那個 agent 的時候,你可能會預期首先出現的失敗模式是某種情況,但直到你用一些數據點、一些查詢實際跑起來之后,才發現——哦,原來它是在這個地方跑偏的。
Agent 可能出錯的方式,其"表面積"幾乎是無限的,這正是構建 agent 與構建傳統軟件的核心區別之一。
我們對如何解決這個問題有非常明確的看法,而我們的很多思路都來源于自動駕駛汽車領域,那是多年來非常有價值的工作。在自動駕駛汽車中,問題空間是類似的——現實世界是無限的,而解決這個問題的核心方式就是仿真(simulation)
與其先構建一個 agent,然后上線,再等某個用戶以某種錯誤方式使用它,然后在生產環境中才看到失敗,為什么不能提前模擬呢?在上線之前,模擬大量不同類型的用戶查詢,這些查詢既要模仿真實用戶,也要覆蓋你之前從未見過的"偏軌"方式。這樣就能幫你提前預判 agent 所有可能的失敗方式
這種模式在物理 AI 和硬件系統中已經被驗證過,效果非常好。前沿模型實驗室在構建模型和 agent 時也大量使用這種方式。我們也看到這種模式在你們構建的這類 agent 中越來越多地出現。
Devang:
Julia,你認為這種 agent 引導(steering),是一個編排(orchestration)問題,還是一個評估(evaluation)問題?不只是如何在上線前捕捉問題,還包括 agent 上線后如何持續監控?
Julia Schottenstein(LangSmith / LangChain):我認為編排和評估是緊密耦合的。原因正如 Shree 所描述的——你不再是用確定性代碼編寫 agent 邏輯了,而是使用一個框架和一個 LLM,讓它在循環中調用工具。所以你無法精確定位某一行代碼來告訴你 agent 會如何響應。
了解 agent 表現的最佳方式,就是寫一些斷言(assertions),明確你期望 agent 如何執行。
我們經常談到"agent 開發生命周期",它和軟件開發生命周期非常相似——構建、測試、部署、監控——但對于 agent 來說,這個過程看起來非常不同,因為它是高度開放的。你接收的是自然語言形式的用戶輸入,本身就非常不確定,而 agent 的響應空間也是無限的。
所以你需要一套系統,能夠快速迭代這個 agent 開發生命周期。這不只是編排問題,也不只是評估問題,而是要能夠在上線前和上線后都進行測試,并且具備足夠的可見性,真正了解 agent 最終交到用戶手中時會表現如何。
Devang:
在運行這些仿真或評估時,你們會關注哪些指標?
Shree Rajpal:
好問題。我大致會把這些指標分成幾大類
第一類是產品或性能指標——agent 有沒有在做它應該做的事情。
第二大類,我會稱之為"防御性"指標——它是否造成了某種你沒有預料到的危害?比如,如果它引用了不正確或不真實的來源,那就是在誤導用戶,同時也沒有很好地完成任務。復雜的編碼 agent 也是同理,它們有時無法很好地解決任務。
另一大類是:它是否可以被"越獄"(jailbreak)?它是否會造成某些傷害?能不能讓它違反自己的護欄規則?這是另一大類指標。
這是思考指標的一個好起點。但我觀察到的一個真實工作流是:你先構建一個 agent,對"什么叫成功"有一些初步的判斷,但當你用更多數據跑起來之后,你會真正看到它的表現,然后才開始追蹤新的指標。比如,你的客服 agent 移交給人工的頻率太高了——這不是你事先就知道要追蹤的指標,但當你真正看數據的時候,你就會意識到這是一個需要關注的指標。同樣,它是不是調用了太多工具?成本是不是太高了?這些都可以構建成指標,但都是在你真正看到數據和行為之后,回溯性地建立起來的。
Devang:
在我們的測試中,加入仿真和 LangSmith 的建議,對提升 agent 準確率有很大幫助。換個話題,另一個大幅提升準確率的因素是我們加入了實時信息接地(live grounding)。這就涉及到知識的新鮮度問題。外部世界的知識在不斷變化,是一個移動的目標。Rotem,你認為如何監控并維持 agent 始終擁有新鮮的知識?
Rotem Weiss(Tavily):
我認為實時數據對于今天的任何 agent 來說都至關重要。就在兩年前,你問"今天天氣怎么樣"或"昨晚比賽的比分是多少",得到的回答是:"對不起,我的知識截止到2021年,我無法回答這個問題。"今天還能接受這個答案的,大概只有下一代的……(笑)好吧,紐約有多少人。
說正經的,接地(grounding)最初的目的是:把模型連接到網絡,讓它能訪問實時信息,至少能回答這些問題。但我們現在看到的影響遠不止于此——當你把 AI 連接到網絡,你不只是獲得了更新鮮的數據或更新鮮的答案,你真的能獲得質量更好的響應
要理解為什么會這樣,我們需要看看今天的網絡正在發生什么。到目前為止,人們是直接與網絡交互的——你去 Google 搜索,你發郵件。但我們今天看到的是,人們通過 agent 與網絡交互。這種轉變正在把我們所知道的互聯網推向兩個層次:一個是更適合人類的互聯網(也就是你今天所熟知的互聯網),另一個是更適合機器智能的互聯網。而我們正在構建的就是后者。
在思考這一層時,有四個核心支柱:Token 效率、準確性、新鮮度,以及延遲。不同的 agent 需要不同的權衡。像深度研究 agent,可能需要運行幾個小時甚至幾天,我不在乎它跑多久,我只要100%的準確率。但如果是車載語音助手,延遲才是最重要的支柱
我們在 Tavily 構建的,正是能給你這種靈活性的東西,這與今天人類搜索的構建方式完全不同,也創造了一個巨大的機會。你可以把數小時的研究壓縮成幾秒鐘。舉個例子,假設你在計劃一次意大利之旅,你可能要去 Google 搜索地點、搜索活動、報名,然后自己把所有信息整合起來,這可能要花你幾分鐘甚至幾個小時。Agent 可以在幾秒內完成,它可以處理海量的網絡數據,通過 LLM 進行綜合,然后生成一個漂亮的結果。這最終創造了一種新的范式——在這個網絡搜索的新時代,更多的算力可以直接轉化為更好的搜索結果。
Devang:
你提到了一個非常有趣的概念——"兩個互聯網",一個給 agent,一個給人類。Ash,我想聽聽你的看法。在某一次運行中,我們看到 agent 消耗了可能數百萬個 Token,而且它重復讀取了之前已經檢索過的信息。你認為我們是否需要一個以 agent 為第一優先級用戶而非以人類或模型為優先級的檢索系統?
Ash Ashutosh(Pinecone):
是的。人類對機器是很寬容的。回顧 Pinecone 的發展歷程——我們發明了向量數據庫這整個概念,讓人們可以在這些向量數據庫上使用 AI 工具。2022年 ChatGPT 發布,Pinecone 隨之推出,產生了有史以來數量最多的聊天機器人。但那時的用戶是消費者,他們非常寬容。你給了錯誤的答案,沒關系。你說"我不知道尼克斯隊的比賽結果",也沒關系。
到了2023年,企業開始進入這個領域。企業沒那么寬容,但他們終究還是人類。
去年9月,我們第一次看到了一類新用戶,他們發出的 API 調用數量超過了人類——那就是 Agent。而它們不寬容。它們接收你給的信息,相信那就是它們所擁有的信息,然后據此行動。
所以這不是 LLM 本身的問題,這根本上是一個錯配問題——你要求 agent 執行任務,但你給它的是為人類構建的系統。這就是我們做的事——四年來,我們一直在為人類構建,然后這類新用戶出現了,我們不得不從根本上改變這一切。
這就是我們在5月4日宣布的 Pinecone Nexus——對整個架構進行重構,專門面向 agent。
正如你所說的"兩個網絡"——我聽說上個月,網絡流量中 agent 搜索第一次超過了人類搜索,而這一超越在去年9月就已經開始成熟。
Pinecone Nexus 的核心模型是讓人們能夠做三件事:
第一,讓 agent 能夠表達自己的任務是什么;
第二,讓 agent 以它能理解的方式——也就是結構化的方式——接收信息。我不需要一首詩,我不需要音樂,我只需要一個精確的答案,因為我有任務要完成。
第三,就是解決數百萬 Token 的問題,實現更高效的運行——這正是我們與 Nebius 合作的意義所在。通過將 Nexus 運行在一個計算經濟模型上,我們測算的結果是:Token 減少了91%到95%,實際運行成本降低了80%。這是我能向業務方說得清楚的 ROI,但這需要一套與為人類構建的系統截然不同的底層知識基礎設施。這就是核心所在。
Devang Sachdev — VP Strategy & Ecosystems, Nebius:
談到對業務的影響。一個生產就緒的Agent意味著它可以被部署到生產環境中。而生產中的Agent意味著業務已經依賴于它。那么Julia,你認為我們跨越這道鴻溝的臨界點在哪里?或者我們需要哪些指標,才能讓Agent真正以自主方式運行——或者在一定程度上的自主、加上一些人工干預——從而讓我們能夠在規模化的情況下信任它們所做的決策
Julia Schottenstein — LangSmith / LangChain:
是的,我們已經在研究Agent、或者嘗試構建Agent很長時間了。差不多快四年了,這在這個領域已經算是很長的時間。而現在我們談論的全都是Agent,這是我們使用的詞。但去年,我們談論的是**"agentics"(智能體化),我非常喜歡這個詞,因為它更像是一個光譜**。當你在2023年剛開始使用最初的聊天機器人時,它幾乎沒有任何智能體化的特征。人們會談論agentic RAG,在那里你的LLM開始做一些糾正性的選擇,或者擁有更多的決策權,但它并不是一個Agent,它本質上只是一個聊天機器人。
現在隨著我們的推進,模型變得強大得多,我們有了這些新的標準和互操作性。你有Agent和子Agent,可以采取行動,你現在將很多任務委托給模型,你確實開始看到越來越多的Agent在這個光譜上移動,變得越來越智能體化。而真正的問題并不是"它什么時候準備好進入生產",這真的取決于具體的使用場景和風險程度。我們使用過deep agents,它是一個工具調用加循環的框架。很多企業仍然非常需要確定性。所以我們有一個叫做LangGraph的不同框架來幫助你——如果你需要這三個步驟100%的時間按照這個順序發生,最高效的方式是代碼,而不是LLM。
所以,這真的取決于使用場景以及你想要實現什么,取決于你對將任務完全委托給LLM有多大的容忍度。但如果你正在更多地向智能體化方向轉移,你確實需要完整的"皮帶加吊帶"方法(即雙重保障)。
所以這就是我們談到的評估(Evals),我們談到的可觀測性(Observability),你還有護欄(Guardrails)。你從根本上無法信任這些系統,因為它們具有非確定性。因此,根據你的舒適程度、任務性質,你將采取不同的預防措施來確保它們生產就緒,尤其是在高風險場景中,比如企業環境,你面對的是容錯性極低的終端用戶
Devang Sachdev — VP Strategy & Ecosystems, Nebius:
好的。讓我再進一步提一個問題。我想我們還有幾分鐘就要結束了,但請各位給出你們的犀利觀點(hot takes)。假設我們現在有一個Agent在運行,它正在做它的工作,我們現在要把100個Agent投入生產。你認為第一個會崩潰的東西是什么?我們從Julia開始。
Julia Schottenstein — LangSmith / LangChain:
可見性(Visibility),對吧?你將完全不知道發生了什么,會是一片混亂。
Ash Ashutosh — Pinecone:
是的,我會說是知識(Knowledge)這一層。當只有一個Agent時,你可以手動管理錯誤,你可以說,讓我去重新編譯一些東西,重新索引一些東西。100個Agent是一個知識基礎設施問題。你不能讓兩個Agent嘗試獲取某些信息,卻得到不同的結果,尤其是在企業中。它必須保持一致。如果做不到這一點,你就會失去信任。而一旦失去信任,你就永遠無法進入生產。
Devang Sachdev — VP Strategy & Ecosystems, Nebius:
說得好。
Rotem Weiss — Tavily:
我支持,并且也認同可見性的觀點。
Devang Sachdev — VP Strategy & Ecosystems, Nebius:
但你得表示不同意啊。
Julia Schottenstein — LangSmith / LangChain:
如果我們都同意,那就不是犀利觀點了。
Rotem Weiss — Tavily:
但我還要補充一點,最終今天AI中最大的問題是搜索或組織上下文層。因為那些不學會如何利用自有專有數據的公司,將會被淘汰,因為在今天,這是他們在競爭中唯一的籌碼。
Shree Rajpal — Guardrails AI:
我也會附和Julia的觀點,你不會知道正在發生什么。但我還要說,當你運行100個Agent時,對它進行更新將會非常困難。你會發現,很難知道它是在變好還是在變差,你應該如何迭代它。所以,作為開發者讓它變得更好的能力,在那種規模下會變得非常困難
Devang Sachdev — VP Strategy & Ecosystems, Nebius:
我們有一些共識,但我仍然想在之后喝飲料的時候繼續辯論這個問題,到時候再多聊。好的。
Ash Ashutosh — Pinecone:
你只讓我們說一個。如果你讓我們說兩個,我們可能早就同意了。
Devang Sachdev — VP Strategy & Ecosystems, Nebius:
下次再說。好的,在我們結束之前,我想給在場的每個人留下一些今天走出這扇門就可以立即使用的東西。我們今天用來構建Agent的所有內容——生產基礎設施、編排、可觀測性、模擬、基礎定位、檢索——這些都是在生產中構建、運行和改進Agent所必需的核心層。而大多數團隊在開始他們的旅程時都不得不重新發明這套架構
因此,今天我們正式推出Nebius Agents Blueprint(Nebius智能體藍圖)。這樣你就不必從零開始原型開發。它是一個開放的參考架構,這意味著你可以使用我們創建的菜譜和操作手冊,從原型Agent直接走向生產就緒的Agent。它可以在build.nebius.com/blueprints上獲取。
至此,我想為我們的圓桌討論畫上句號。我還想特別提一件事:這個藍圖中所有的產品都是由今天在臺上代表參與的各位所構建的,所以我要感謝他們。我也要感謝大家帶來的精彩對話,同時感謝大家再次加入我們,希望大家今天余下的時間愉快。
Marc Boroditsky — 首席營收官,Nebius:
太棒了。感謝 Julia、Rotham、Ash、Sharia 和 Devon,為我們帶來了一場精彩的關于智能體拐點的圓桌討論。順便說一句,藍圖只是一個開始,后續還有更多內容,我想我們都清楚,還有很多東西需要去構建。正如我們今天所分享的,隨著市場向智能體方向演進,我們正處于這一拐點之上。我們正在根據從客戶那里學到的經驗、從合作伙伴那里獲取的信息持續構建,以便在這場市場重大拐點中扮演舉足輕重的支撐角色。
隨著我們第一屆 Nebius Inflection 大會即將進入尾聲,有一件事對我來說非常清晰。正如我們所知,擺在我們面前的機遇是巨大的。但我想你們一遍又一遍地聽到了這句話——這僅僅是開始,而我們肩負著讓它真正實現的重大責任。
AI 的下一個篇章,不會由模型能做什么來定義。它將由以下因素來定義:組織能夠部署什么,企業能夠信任什么,開發者能夠構建什么,以及最終用戶每天能夠依賴什么。如果說今天的討論讓我得出一個結論,那就是:靠我們單打獨斗,根本不可能完成這件事。前進的道路,就在像今天這樣的場合中延伸——人們在這里分享什么是有效的,構建者在這里坦誠相告,生態系統愿意共同承擔超越任何單一公司的更大問題。
這種精神,正是我們創辦 Inflection 的初衷。前方的挑戰是真實存在的,每一次重大的技術變革都曾經歷過這樣的時刻。每一次變革,都是由那些**拒絕接受"困難等于不可能"**的人推動向前的。
我希望你們今天離開時,心中帶著三個信念:協作不僅僅是有幫助的,它是不可或缺的;挑戰固然重大,但并非無法實現;智能體 AI 的新時代已經到來,我們每個人都在塑造它的過程中扮演著自己的角色。
拐點,并不只是一場活動,它是一個時刻——在這個時刻,一個行業停止爭論下一步是什么,開始承擔責任,真正去構建它。當實驗變成執行,當個人創新變成集體進步,這就是我們今天在這里開啟的事業,這也是為什么這是一個拐點的開始。
我們很榮幸能夠成為其中的一部分。代表 Nebius 的全體同仁——順便說一句,這些是他們的照片——感謝你們共同的伙伴關系、你們的領導力,以及你們今天的到來。我們期待在下一屆 Inflection 大會上與大家再相聚。謝謝。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.