作者:毛爍
如今,關于AI的討論基本都圍繞同一套邏輯展開:新的GPU架構、更大的模型參數(shù)、以及OpenClaw、Manus這樣的爆款智能體如何重塑人機交互。但是,卻很少有人愿意把關注從訓練集群和推理算力上移開,去關注那些持續(xù)運轉的存儲陣列。
公眾和資本都相信,AI競爭的核心是算力,誰擁有更多GPU,誰就擁有未來。
但站在大規(guī)模數(shù)據(jù)中心和基礎設施提供商的視角,算力決定模型能運行多快,而存儲則決定模型能否持續(xù)運行。
按照IDC的預測,到2029年,全球AI基礎設施支出將突破1萬億美元。而真正支撐這個萬億美元體系持續(xù)運轉的,不只有算力,還有數(shù)據(jù)能否被持續(xù)、低成本地存儲、調度與調用。
事實上,GPU斷電之后,顯存中的內容會消失,真正沉淀下來的訓練數(shù)據(jù)、推理日志、生成內容,以及越來越龐大的數(shù)字資產,最終仍要回到存儲中。
AI時代消耗的每一個Token、生成的每一段視頻、積累的每一次交互,都在持續(xù)提高存儲的需求。而決定超大規(guī)模客戶能否把TCO控制在可接受范圍內的,是單盤容量提升的速度,以及整個存儲系統(tǒng)的效率。
所以,提升存儲的單盤容量,已經(jīng)成為決定經(jīng)濟模型是否成立的關鍵變量。
但問題在于,過去依賴磁記錄面密度持續(xù)提升來換取容量增長的路徑,正在逐漸觸碰物理邊界。
在與西部數(shù)據(jù)首席技術官兼高級副總裁車曉東博士深度交流后,筆者認為,傳統(tǒng)磁記錄技術已經(jīng)逼近超順磁極限,繼續(xù)提高面密度的難度越來越高,單一路線已經(jīng)難以承接AI時代的數(shù)據(jù)規(guī)模。
![]()
西部數(shù)據(jù)首席技術官兼高級副總裁 車曉東
【簡介】車曉東博士現(xiàn)任西部數(shù)據(jù)首席技術官兼高級副總裁,負責領導公司的技術戰(zhàn)略與創(chuàng)新議程,致力于推動數(shù)據(jù)存儲解決方案的發(fā)展,為可擴展、高性能的AI基礎設施奠定堅實基礎;2026年5月,他剛剛獲得全美亞裔杰出工程師獎。過去三十年間,他持續(xù)引領并推動磁數(shù)據(jù)存儲行業(yè)的創(chuàng)新,擁有50多項專利,并在數(shù)據(jù)存儲技術領域發(fā)表了20多篇經(jīng)同行評審的學術論文;他還是華美信息存儲協(xié)會(CAISS)的創(chuàng)始董事會成員,以及IEEE磁學學會的高級會員。
01 AI“推理”加速大容量存儲需求擴張
要理解如今的基礎設施層正在經(jīng)歷什么,首先需要我們要回憶一個已經(jīng)有些過時的認知。
在大模型發(fā)展的早期階段,行業(yè)的核心任務始終圍繞算力展開,數(shù)據(jù)則更像一次性消耗的燃料,被送入GPU集群完成訓練,價值釋放之后便進入沉淀周期。
但在車曉東看來,行業(yè)如今已經(jīng)走到了新的拐點,AI訓練之外,推理(Inference)正在成為數(shù)據(jù)增長的主引擎。
這一判斷,與黃仁勛近年來持續(xù)強調的“推理時代(Inference Era) ”形成了呼應。
當OpenClaw、Manus這類Agentic AI開始進入真實生產環(huán)境,AI逐漸演化成擁有長期記憶、能夠持續(xù)執(zhí)行任務、可以自主調用工具的系統(tǒng)。隨之而來的變化是,模型不再只是“消耗”數(shù)據(jù),而開始持續(xù)地生產數(shù)據(jù)。
一次推理,對應著數(shù)十輪上下文、多次工具調用、長鏈路的決策過程,以及不斷累積的運行狀態(tài)與結果記錄。文本、圖像、視頻、日志、知識庫更新,這些都會源源不斷地沉淀下來。
這已經(jīng)不是簡單的數(shù)據(jù)增長,而是數(shù)據(jù)生產機制發(fā)生了變化。車曉東介紹道:“過去的數(shù)據(jù)主要由人創(chuàng)造。PC時代,人通過鍵盤輸入,移動互聯(lián)網(wǎng)時代,人借助智能終端持續(xù)生產內容,而進入AI時代之后,數(shù)據(jù)開始自動生成,越來越多的內容,不再需要人類參與。”
由此,一個新的循環(huán)正在形成,訓練催生推理,推理生成數(shù)據(jù),數(shù)據(jù)再回流到訓練。這便是不斷自我強化的“數(shù)據(jù)飛輪”。
但問題也隨之而來。這些被持續(xù)生產出來的多模態(tài)內容、超長上下文、Agent運行日志,以及龐大的歷史狀態(tài),最終要存放在哪里?
車曉東提到,云端客戶內部一直存在一個共識,他們普遍將HDD視作云基礎設施的支柱。
原因在于,盡管高性能計算仍然依賴GPU和高速存儲來完成,但隨著訓練數(shù)據(jù)、生成內容、歷史上下文,以及長期歸檔數(shù)據(jù)的不斷增長,云基礎設施需要以可接受的成本,持續(xù)承載這些數(shù)據(jù)。
正也是在這樣的背景下,大容量存儲的重要性被重新放大。
車曉東分享了一個觀察。智能手機普及之后,終端側內容生產的爆發(fā),曾經(jīng)顯著拉動了云端存儲的需求增長;而進入智能體時代,當越來越多的內容開始由機器持續(xù)生成、調用和沉淀,這種數(shù)據(jù)擴張與存儲需求之間的聯(lián)動關系,只會進一步增強。
這也意味著,AI基礎設施的競爭邏輯正在變得更加復雜,算力仍然決定著系統(tǒng)的處理能力,而存儲能力,則越來越深地影響著數(shù)據(jù)資產能否被長期、高效地保留下來并持續(xù)利用。
02 11 碟設計讓HDD擴容
海量數(shù)據(jù)持續(xù)涌入之后,基礎設施提供商首先遇到的,是成本問題。
在西部數(shù)據(jù)面向全球核心客戶和分銷商開展的最新抽樣調查中,中國受訪者里超過90% 將總體擁有成本(TCO)列為HDD(Hard Disk Drive,機械硬盤)的主要優(yōu)勢,超過72%認為TCO是他們將HDD作為其長期戰(zhàn)略存儲層的關鍵原因。
AI資產持續(xù)增長,但數(shù)據(jù)中心的機房面積、供電能力和散熱能力不會同步擴大。如果每增加一輪數(shù)據(jù)量,都要增加機柜、擴建機房,那么存儲成本甚至可能超過業(yè)務增長帶來的收益。
行業(yè)的需求開始變?yōu)椋谝粔KHDD中,裝下更多數(shù)據(jù)!
這其中有一個容易被忽略的背景。
今天數(shù)據(jù)中心的大容量HDD,內部通常由多張高速旋轉的磁碟(Platter,盤片)組成,數(shù)據(jù)寫入時,磁頭會懸浮在盤片表面讀取和記錄信息。理論上,放進更多盤片,就意味著能夠記錄更多數(shù)據(jù)。
但現(xiàn)實是,盤片增加后,內部氣流會變化,振動會增強,磁頭穩(wěn)定性會受到影響,散熱和電機負載也會同步上升。每新增一張盤片,都要重新調整這套高速運轉的機械系統(tǒng)。
而在這樣的背景下,西部數(shù)據(jù)推出了采用11碟設計(11-disk design)的數(shù)據(jù)中心級機械硬盤。
按照車曉東介紹,在相同尺寸和面密度下,相較傳統(tǒng)的10碟架構,11碟方案能夠帶來約10% 的容量提升。
單看這個數(shù)字也許并不夸張,但放到一個動輒部署數(shù)萬塊硬盤的數(shù)據(jù)中心里,意義就完全不同了。多出來的10%,相當于每10塊硬盤就能“憑空”多出1塊HDD的存儲空間,而機柜數(shù)量、供電體系、散熱設計,則幾乎不需要變化。
車曉東坦言,西部數(shù)據(jù)在該產品在設計之初就把兼容性放在重要位置,既兼容現(xiàn)有的部署環(huán)境,也兼容既有的制造體系。
換句話說,企業(yè)級用戶不需要重新規(guī)劃數(shù)據(jù)中心架構,就能在原有基礎設施上完成新一輪的容量升級。
03 從磁道中拓展空間,創(chuàng)新磁記錄技術突破容量的邊界
如果說“11碟”設計解決的是三維空間的問題,那么接下來要解決的,就是在二維平面上,讓同樣大小的盤片,記錄更多數(shù)據(jù)。
這里要先解釋一個容易混淆的概念。
其實,HDD上的數(shù)據(jù)并不是寫在一整塊連續(xù)的區(qū)域里,是沿著一圈圈磁道(Track)記錄的。而提高單盤容量的路徑主要有兩條,其一是增加盤片數(shù)量,其二是提升盤片上的記錄密度,也就是在同樣面積內記錄更多數(shù)據(jù)。“11碟”設計已經(jīng)在第一條路徑上把空間利用推進到了相當高的水平,行業(yè)的目光,自然落到了后者,也就是如何在同一張盤片上,提升單位面積內的面密度。
傳統(tǒng)的SMR(Shingled Magnetic Recording,疊瓦式磁記錄)技術走的就是第二條路線。
它的原理像鋪瓦片,相鄰磁道之間允許部分重疊,從而在同樣面積里記錄更多數(shù)據(jù)。代價是寫入邏輯會變得更復雜,因為修改一部分數(shù)據(jù)時,可能需要對相鄰磁道或數(shù)據(jù)區(qū)塊進行重新整理。 也正因如此,SMR對控制算法、緩存管理、數(shù)據(jù)恢復,以及糾錯能力都提出了更高要求。
而西部數(shù)據(jù)提出的UltraSMR,并不依賴某項單獨技術繼續(xù)壓縮磁道,而是在SMR架構基礎上,把磁記錄、控制系統(tǒng)以及數(shù)據(jù)管理能力協(xié)同優(yōu)化,以繼續(xù)提升單位面積內可記錄的數(shù)據(jù)量。
此外,西部數(shù)據(jù)專有的 OptiNAND 架構技術,將嵌入式閃存 iNAND 與 HDD 控制體系結合,可將部分元數(shù)據(jù)和運行數(shù)據(jù)存儲在閃存中進行管理,提升數(shù)據(jù)組織、緩存與可靠性管理能力,從而為更高容量和更高密度記錄提供支撐。
與此同時,ePMR(energy-assisted Perpendicular Magnetic Recording,能量輔助垂直磁記錄) 通過在寫入過程中引入能量輔助機制,提升寫入磁場控制能力和寫入穩(wěn)定性,從而支持更高面密度下的可靠記錄。 而當記錄密度繼續(xù)提升之后,讀取與恢復的難度也會同步增加。因此,糾錯碼(ECC)能力也需要相應升級,UltraSMR采用了更先進的數(shù)據(jù)糾錯算法與機制,以保證高密度環(huán)境下的數(shù)據(jù)完整性與可靠性。
這些能力共同作用,使UltraSMR能夠在現(xiàn)有機械硬盤體系下繼續(xù)提升容量效率。車曉東透露,相比同代常規(guī)磁記錄方案(CMR,Conventional Magnetic Recording),UltraSMR可實現(xiàn)超過20%的容量提升,并推動數(shù)據(jù)中心級HDD進入32TB容量區(qū)間。
容量增長帶來的價值不言而喻。
對于基礎設施提供商而言,在相同數(shù)量的服務器、機架,以及供電條件下,如果單盤能夠承載更多數(shù)據(jù),就意味著單位存儲成本下降,同時降低擴容頻率和新增基礎設施投入。
這也是為什么車曉東反復強調,容量提升最終影響的是整個數(shù)據(jù)中心的成本結構與資源利用效率。
然而,對于西部數(shù)據(jù)而言,32TB 并不是終點。
隨著 AI推理持續(xù)產生數(shù)據(jù)、長期存儲需求不斷增長,單純依靠增加盤片數(shù)量或繼續(xù)壓縮磁道,能夠釋放的空間正在逐漸收窄。繼續(xù)提升容量,開始越來越依賴磁記錄技術本身的演進。
從車曉東披露的技術路線來看,后續(xù)西部數(shù)據(jù)將同時推進ePMR與HAMR(Heat-Assisted Magnetic Recording,熱輔助磁記錄)兩條路徑。
其中,HAMR的核心思路,是在數(shù)據(jù)寫入瞬間,通過微型激光對記錄區(qū)域進行短時間局部加熱,使磁介質在寫入時更容易完成磁化狀態(tài)變化,而在寫入結束后重新恢復高熱穩(wěn)定性。
這樣一來,就能夠使用尺寸更小、排列更密的磁性顆粒,在不犧牲數(shù)據(jù)的長期可靠性前提下,繼續(xù)提高面密度,也就是在同樣面積內記錄更多數(shù)據(jù)。
沿著這條技術路徑,西部數(shù)據(jù)規(guī)劃繼續(xù)推動單盤容量向100TB 級別演進。
04第二增長曲線:性能提升開啟HDD“iPod時刻”
解決了數(shù)據(jù)“存進去”的容量問題,下一步就是要解決數(shù)據(jù)能不能更快地“ 取出來”。
如果一塊硬盤能夠存下更多數(shù)據(jù),卻不能更快地把數(shù)據(jù)讀出來,那么容量增長未必會轉化成系統(tǒng)效率的提升。
這一現(xiàn)象,在AI場景中尤其明顯。
過去,企業(yè)級存儲更多承擔的是長期保存與歸檔的職責,數(shù)據(jù)寫入之后,被讀取的頻率并不高。但AI進入推理階段之后,大模型、RAG(Retrieval-Augmented Generation,檢索增強生成),以及智能體應用,會持續(xù)地訪問知識庫、上下文記錄、多模態(tài)素材。
數(shù)據(jù)開始被反復調用。
而問題在于,HDD過去十多年的演進并不均衡,容量持續(xù)增長,但訪問能力并沒有同步提升。一個直觀的對照是,單盤容量已經(jīng)從幾TB 提升到數(shù)十TB 以上,但單盤順序吞吐能力長期仍停留在每秒數(shù)百MB的量級。
這意味著,同樣讀取1TB 數(shù)據(jù),大容量HDD并不會比過去更快.相反,由于單塊HDD承載的數(shù)據(jù)越來越多,單位容量對應的數(shù)據(jù)訪問效率實際上在下降。
反觀在AI場景里,除了吞吐,IOPS(Input/Output Operations Per Second,每秒輸入/輸出操作次數(shù))的重要性也愈發(fā)凸顯。AI推理對知識庫、向量索引、上下文片段的訪問,往往是大量、小塊、并發(fā)的隨機請求。當一塊30TB的硬盤同時面對成千上萬次小請求時,IOPS不足帶來的延遲,會讓GPU陷入空轉,即使還有計算余量,也只能等待數(shù)據(jù)到位。
也正因如此,車曉東直言,HDD新的演進方向,就是提升性能。
這里所說的性能,首先是帶寬,即單塊硬盤單位時間內能夠完成的數(shù)據(jù)讀取與傳輸能力。
為了解決容量增長之后訪問效率跟不上的問題,西部數(shù)據(jù)推出了高帶寬硬盤技術(High Bandwidth Drive Technology,HBDT)。
具體而言,傳統(tǒng)HDD內部雖然有多張盤片和多個磁頭,但同一時刻只有一個磁頭處于工作狀態(tài),其余磁頭只能閑置等待,數(shù)據(jù)訪問本質上是串行的。
而HBDT的關鍵,是在三級執(zhí)行器(Triple-Stage Actuator,TSA)的基礎上,讓多個磁頭可以同時落在不同盤面的不同磁道上完成讀寫。TSA由音圈電機(VCM)、毫致動器(milliactuator)和微致動器(microactuator)三級控制構成,能將磁頭定位精度壓到納米級,從而支撐多磁頭在高速旋轉中并行工作。這種“多頭并行”的訪問方式,讓單盤順序吞吐能力直接翻倍,使一塊搭載HBDT的硬盤具備了接近“兩塊HDD協(xié)同工作”的訪問能力。
而這一切,是在不改變硬盤外形尺寸、也不顯著增加功耗的前提下完成的。
沿著這條路徑,HBDT未來還有進一步演進的空間。當并行讀寫的磁道數(shù)量從2條擴展到8條,單盤帶寬有望達到當前HDD的8倍。車曉東透露,西部數(shù)據(jù)正在研發(fā)“雙軸雙臂”的雙樞軸技術(Dual Pivot Technology),將傳統(tǒng)的單一執(zhí)行器升級為兩套相互獨立的執(zhí)行器,分別從盤片兩側對磁頭進行控制。這一架構能在不犧牲單盤容量的前提下,再帶來約2倍的順序吞吐提升。兩者疊加之后,單盤I/O性能有望相比當前主流HDD提升約4倍。
AI基礎設施本質上是一個數(shù)據(jù)系統(tǒng),在這個系統(tǒng)里,任何孤立的硬件都沒有價值。為了承接企業(yè)普遍采用的RAG多模態(tài)知識庫需求,西部數(shù)據(jù)正在開發(fā)能夠與GPU直接聯(lián)動的系統(tǒng)層架構。
在這一架構中,HDD、SSD等不同存儲介質,會與中間的軟件層(Software Layer)深度耦合,讓數(shù)據(jù)在更合適的介質之間無縫流轉。
落到西部數(shù)據(jù)的具體產品上,這種“讓數(shù)據(jù)各居其位”的分層思路,對應著兩類數(shù)據(jù)中心存儲平臺。
靠近性能需求的熱數(shù)據(jù)層,可由OpenFlex Data24 4000系列NVMe-oF 存儲平臺來承接。該平臺在2U 24盤位的機身里可容納高達 1474.56TB 的低延遲雙端口 SSD,通過高性能以太網(wǎng)把 NVMe 閃存延伸到共享存儲環(huán)境,做到接近直連存儲(DAS)的性能,又能讓存儲與網(wǎng)絡帶寬相互匹配、避免過度訂閱。
其中,4100型號可提供PCIe Gen4x4連接,主打單盤極致性能;4200 型號則以雙路 PCIe Gen4x2 連接支持主機I/O主動故障轉移,兼顧高可用性。
![]()
在更偏重容量的溫冷數(shù)據(jù)層,Ultrastar Data系列JBOD混合存儲平臺作為解耦與軟件定義存儲(SDS)架構的基礎構建塊,可在實現(xiàn)高容量的同時兼顧靈活性。Ultrastar Data102 3000 在4U機架內,容納多達102塊HDD,提供高達3.26PB的原始容量,串聯(lián)四臺后總原始容量可達13.04PB。該系列的Ultrastar Data60 3000則在4U 內支持多達60塊HDD、提供 1.92PB 原始容量,串聯(lián)四臺后可達7.68PB。
![]()
此外,該系列還集成了兩項專利可靠性技術:“IsoVibe振動隔離技術”能主動抵消盤片振動,讓硬盤在滿載狀態(tài)下依然保持穩(wěn)定性能,“ArcticFlow 熱區(qū)冷卻技術”則將冷風精準送入機箱中心,實現(xiàn)高效散熱。兩者疊加,可將硬盤返修率降低高達 62%,從而大幅減少故障、降低運營成本。
事實上,這種底層架構與前端應用的共生關系,車曉東也用消費電子設備的演進做了一個類比——“iPod 時刻”。
早期 iPod 等移動設備曾使用微型硬盤來滿足當時的大容量本地存儲需求;隨著移動終端向更輕薄、更高性能的智能手機形態(tài)演進,本地存儲逐漸轉向閃存。而今天,OpenClaw, Manus這類Agentic AI 應用扮演的就像當年的iPod,它們在前端持續(xù)生成推理結果、上下文、日志和衍生數(shù)據(jù),這些數(shù)據(jù)中的相當一部分最終仍會進入企業(yè)或云端存儲基礎設施進行長期管理和留存,從而進一步推動對大容量 HDD 的需求。
不僅如此,在性能狂飆的背后,西部數(shù)據(jù)還在持續(xù)向能源與安全方面發(fā)力。
能源,是 AI 時代的“第二通貨”。車曉東指出,面對數(shù)據(jù)中心日益嚴苛的PUE要求,西部數(shù)據(jù)在數(shù)據(jù)中心產品上搭載 HelioSeal氦氣封裝技術,通過把盤片密封在低阻力的氦氣環(huán)境中,讓整盤功耗下降約30%,每TB 功耗相比傳統(tǒng)空氣硬盤實現(xiàn)明顯降低。再配合低功耗選項(Low Power Option)的調優(yōu),進一步降低硬盤的能耗。
而在安全性上,西部數(shù)據(jù)已經(jīng)把戰(zhàn)略眼光投向了“后量子時代(Post-Quantum Era)”。
由于HDD的承載屬性極強,一旦被黑客奪取控制權,后果將是災難性的。車曉東強調,“面對未來量子計算可能帶來的新威脅,我們采用完全符合NIST標準的抗量子加密方案,從頭重新設計了HSM(硬件安全模塊)與BitLocker,并引入主機真實性驗證(Authenticity Check),確保在這場數(shù)據(jù)守衛(wèi)戰(zhàn)中,底層防線足夠堅固。”
05 寫在最后
盤片、磁道、氦氣、糾錯、磁頭、加密這些技術細節(jié),恰恰藏著AI 基礎設施的底層運行邏輯。
過去兩年,行業(yè)幾乎把所有注意力都投向了算力,仿佛只要算力持續(xù)增長,AI就會自然向前演進。
可現(xiàn)實并不是這樣。
模型需要被訓練,需要被調用,需要持續(xù)產生數(shù)據(jù)、保存狀態(tài)、形成歷史記錄,而這些數(shù)據(jù)能否被低成本、穩(wěn)定、安全地存下來,決定AI系統(tǒng)是否能長期運行。
尤其進入推理時代之后,數(shù)據(jù)的增長方式正在變化。
訓練數(shù)據(jù)是階段性的,而推理數(shù)據(jù)是持續(xù)性的。智能體每一次調用、交互都在形成新的數(shù)據(jù)沉淀。這時,存儲開始影響整個AI系統(tǒng)的邊界。
如果回頭再看西部數(shù)據(jù)這一輪技術演進,11碟設計解決容量,UltraSMR等磁記錄技術提高密度,HBDT與DPT提升吞吐,HelioSeal技術降低能耗,這些創(chuàng)新解決的其實是同一類問題,那就是讓持續(xù)增長的數(shù)據(jù),以可接受的成本長期存在。
正如每一次技術爆發(fā)那樣,繁榮屬于前臺,基礎設施留在后臺。而這種背后的“長期主義”,往往就發(fā)生在那些看不見的地方!
數(shù)據(jù)來源:IDC, https://www.idc.com/resource-center/blog/ai-infrastructure-spending-caps-historic-year-at-90-billion-in-q4-2025-2029-spending-to-eclipse-1-trillion/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.