![]()
這項由德國人工智能研究中心(DFKI)與萊茵蘭-普法爾茨技術大學(RPTU Kaiserslautern-Landau)聯合完成的研究,以預印本形式于2026年6月3日發布在arXiv平臺,編號為arXiv:2606.05515。研究成果名為"BRepCLIP:基于BRep基元的對比多模態預訓練用于CAD理解",感興趣的讀者可通過上述編號查閱完整論文。
說到CAD,大多數人腦海里浮現的是工程師盯著屏幕設計齒輪、螺栓、機殼的場景。這些設計圖不是普通的照片或素描,而是由一套叫做"邊界表示"(BRep)的精確數學語言描述的——每一個面是什么形狀,每一條邊是什么曲線,各個部分如何拼接,全都有精確的定義。這就好比建筑圖紙不只是一張漂亮的效果圖,而是精確到毫米的施工說明書。
然而,當工程師想用一句話——比如"帶37個圓孔的矩形底板"——在公司的零件庫里找到對應的模型時,現有的AI系統往往束手無策。問題的根源在于,幾乎所有現成的3D理解AI都是基于"點云"工作的:把一個精密的工程零件"融化"成一堆散點,就像把一座精心建造的樂高城堡拆散后隨手撒在地上,記錄每個積木塊的坐標,卻完全丟失了積木之間的連接關系、形狀類型和拓撲結構。一個圓柱形的孔和一個平面凹槽,在點云里看起來可能差不多,但在實際工程中卻是天壤之別。
正是為了解決這個問題,德法聯合研究團隊構建了BRepCLIP——這是歷史上第一個直接在BRep原始格式上進行多模態對比預訓練的框架。它能讓AI同時理解工程零件的幾何結構、文字描述和渲染圖像,并將三者對齊在同一個語義空間里。從此,工程師輸入一段文字描述,或者上傳一張零件照片,系統就能從百萬級別的CAD模型庫中精準找到最匹配的設計。
一、為什么"點云"不夠用:工程語義的失落
把CAD模型轉換成點云,就像把一首樂譜掃描成一張圖片——你能看到音符的大致位置,但再也無法知道哪些音符屬于同一個和弦,哪里是漸強,哪里是休止符。對于普通的3D物體,比如椅子、杯子,這種損失或許可以接受,因為我們關心的只是"長什么樣"。但對于工程零件,那些被抹去的信息恰恰是最重要的:這個孔是螺紋孔還是光滑孔?這條邊是倒角還是圓角?這個面是平面還是圓柱面?
現有的主流多模態3D理解方法,無論是ULIP、OpenShape還是MixCon3D,都是基于點云設計的。它們在識別椅子、飛機、花瓶這類日常物品時表現出色,但一旦面對工程零件,就像一個從未學過建筑知識的人去看施工圖——能看出"這是個方形的東西",卻完全看不懂圖紙上那些精確標注的意義。
研究團隊用一張對比圖直觀地說明了這個問題:同一個帶有37個小孔的底板,用點云表示時,那些細小的孔洞幾乎消失不見;而用BRep的面點和邊點表示時,每一個孔的形狀和位置都清晰可辨。這不是技術細節上的小差異,而是能否完成任務的根本區別。
二、BRep到底是什么:工程師的"基因密碼"
理解BRepCLIP的關鍵,先要理解BRep這種格式本身。BRep,全稱"邊界表示",是CAD軟件存儲模型的原生格式,就像DNA是生命體的原始編碼一樣。
在BRep的世界里,每一個三維零件都被描述為若干個"面"(Face)和若干條"邊"(Edge)的集合,加上它們之間的拓撲連接關系。面可以是平面、圓柱面、圓錐面、球面、圓環面,或者更復雜的自由曲面(NURBS)。邊可以是直線、圓弧、橢圓弧,或者樣條曲線。每個面是什么類型,每條邊是什么形狀,面和邊如何相互連接——這一切都被精確記錄。
打個比方,普通的3D掃描(點云)就像對一個人拍了一張模糊的背影照,記錄了大致的輪廓。而BRep則像是這個人的詳細體檢報告,不僅有身高體重,還有每塊骨骼的形狀、每條肌肉的走向、各個器官的連接方式。后者包含的信息密度和精確度,是前者無法比擬的。
研究團隊正是決定在這份"體檢報告"上直接進行AI學習,而不是先把它"翻譯"成模糊的照片再去識別。
三、雙軌道分詞器:給面和邊分別建立"詞典"
BRepCLIP的技術核心之一,是一套被稱為"混合雙dVAE分詞"的機制。理解這個機制,可以把它類比成翻譯工作。
當我們要讓AI理解文字時,首先要把文字拆分成詞語,然后給每個詞語一個編號,建立一個"詞典"。BRepCLIP對CAD的幾何信息做了類似的事情,只不過"詞語"不是漢字或英文單詞,而是幾何形狀的特征片段。
關鍵的創新在于,研究團隊沒有用一個統一的詞典來處理所有幾何信息,而是分別為"面"和"邊"各建立了一套獨立的詞典,使用了兩個獨立的離散變分自編碼器(dVAE)。原因很簡單:面和邊在幾何上有著本質的不同,就像漢字和數字雖然都可以印在紙上,但用同一套規則去理解它們顯然是不合適的。
對于"面",系統使用了一種叫PointNet的神經網絡對面上采樣的點進行編碼,然后通過一個折疊式解碼器來重建面的幾何形狀,并檢驗編碼質量。面的詞典大小是8192個"詞匯",經過100個訓練輪次學習。對于"邊",系統使用了更輕量的一維卷積神經網絡來處理沿邊排列的有序點序列,因為邊是一維曲線,有內在的順序,用一維卷積處理更自然。邊的詞典有2048個"詞匯",訓練了200個輪次,潛在表示的維度都是256。
訓練這兩個詞典的目標很直接:能把幾何形狀壓縮成一個緊湊的代碼,再從代碼還原出原始形狀,還原得越準確越好。評估還原質量使用的是"倒角距離"(Chamfer Distance),即衡量還原出的點云與原始點云之間的平均距離,距離越小說明還原越準確,同時加入了KL散度正則化來確保編碼空間的結構合理性。
四、語義增強的變換器編碼:不只看形狀,還要"讀懂"類型
有了面和邊的離散詞元(token)之后,BRepCLIP還做了進一步的增強,這一步是讓系統真正"讀懂"工程語義的關鍵。
每一個面詞元和邊詞元,除了攜帶幾何形狀信息外,還被附加了三類額外信息。第一類是"模態指示符",告訴系統這個詞元來自面還是邊,就像在混合的文件堆里給每張紙貼上"財務"或"技術"的標簽。第二類是"空間描述符",記錄這個面或邊在整個零件中的位置,就像給每個房間標上它在建筑平面圖上的坐標。第三類也是最重要的,是"語義描述符",記錄這個面是什么類型(平面、圓柱面、圓錐面、球面、圓環面還是NURBS自由曲面)以及這條邊是什么類型(直線、圓弧、橢圓弧、非有理B樣條還是有理B樣條),還有邊的拓撲關系(凸邊、凹邊、光滑邊或封閉邊)。
這就好比你在整理一棟建筑的檔案,不只是記錄每塊磚的重量和顏色,還要注明它是承重墻磚還是裝飾磚,是內墻還是外墻,是拱形結構還是平直結構。有了這些類型標簽,AI就不再是在"看圖猜謎",而是在讀懂一份有完整注釋的工程圖紙。
所有這些詞元,連同一個可學習的特殊"摘要詞元"(CLS),被送入一個12層的變換器(Transformer)編碼器處理。變換器的工作類似于一個非常擅長綜合閱讀理解的分析師,它讀入整個零件的所有面和邊的信息,綜合考慮它們之間的關系,最終在那個特殊的摘要詞元上凝練出整個零件的全局特征表示。這個全局表示的維度是512,代表了零件的"數字指紋"。
五、三方對齊:讓CAD、文字和圖像說同一種語言
擁有了零件的高質量數字指紋之后,BRepCLIP的另一個核心任務是把它和文字描述、渲染圖像對齊到同一個語義空間。這部分借鑒了CLIP(一種由OpenAI開發的視覺-語言對比學習框架)的思路,但進行了針對CAD的深度定制。
整個對齊框架包含三個分支。BRep分支就是上面描述的變換器編碼器,它是唯一在訓練中更新參數的部分。文字分支使用了凍結的OpenCLIP ViT-bigG-14文本編碼器,專門處理零件的文字描述。圖像分支同樣使用凍結的OpenCLIP ViT-bigG-14圖像編碼器,處理零件的多視角渲染圖。"凍結"的意思是這兩個編碼器的參數在訓練過程中保持不變,只有BRep編碼器在學習如何把幾何信息對齊到這兩個編碼器已經建立好的語義空間里。
對齊的訓練目標是所謂的"對比損失",直覺上非常簡單:對于同一個零件,它的BRep嵌入、文字嵌入和圖像嵌入,在512維空間里應該彼此靠近;而不同零件的嵌入則應該相互遠離。訓練數據是成批次送入的,每個批次里有若干個配對好的(CAD模型,文字描述,多視角渲染圖)三元組。系統同時優化"BRep-文字"對比損失和"BRep-圖像"對比損失,兩者權重相等。
整個訓練采用了有效批次大小200,使用AdamW優化器,學習率0.001,權重衰減0.05,訓練了38個輪次,在單張NVIDIA A100 GPU上完成,使用了混合精度和梯度檢查點技術以節省顯存。
六、訓練數據:百萬級CAD配對數據集
任何深度學習系統的能力上限,很大程度上取決于訓練數據的規模和質量。BRepCLIP得以實現的一個重要前提,是一個叫做CADCap-1M的數據集,它來自同一研究團隊此前發布的DreamCAD項目,是迄今為止規模最大的CAD配對數據集。
研究團隊使用了其中高質量的ABC子集,共40萬個樣本用于訓練,1萬個樣本用于驗證。每個樣本包含一個STEP格式的CAD文件(可以通過PythonOCC工具提取BRep結構)、一段文字描述,以及多個視角的渲染圖像。
從統計特征來看,這40萬個零件的幾何復雜度分布相當寬廣。每個模型平均有47.8個面(中位數27個,95%分位數165個)和115.9條邊(中位數69條,95%分位數408條),平均每個面被2.5條邊圍繞。面的類型分布高度集中:平面占61.3%,圓柱面占28.9%,這兩種類型合計超過90%,其余的圓環面、圓錐面、NURBS曲面和球面相對罕見。邊的類型中直線占58.4%,圓弧占22.2%,非有理B樣條占17.4%,其余更少見。邊的拓撲關系上,凸邊最多(53.1%),其次是光滑邊(23.1%)、凹邊(18.0%)和封閉邊(5.8%)。
這種數據分布反映了工業CAD設計的真實規律:大多數機械零件確實是由平面和圓柱面拼接而成,由直線和圓弧邊界劃分,這也為BRepCLIP的語義描述符設計提供了有力依據。
七、文字檢索CAD:一句話找到你要的零件
評估BRepCLIP效果的第一個任務是"文字檢索CAD":給出一段文字描述,從一個巨大的零件庫里找到最匹配的模型。
實驗設定如下:訓練集是40萬個ABC零件,檢索庫分三個。第一個是9.1萬個未見過的ABC零件(同數據來源但從未訓練過);第二個是4萬個來自CADParser數據集的零件(完全不同的數據源,零樣本遷移測試);第三個是6.5萬個來自Automate數據集的零件(同樣是零樣本遷移測試)。評估指標包括Top-1、Top-5、Top-10、Top-20精度(即正確答案出現在前1/5/10/20名的比例),以及檢索到的零件與目標零件之間的倒角距離(幾何相似度)。
對比基線涵蓋了當前最優秀的通用3D理解方法:基于點云的PointBERT、PointNet、PointMLP,以及多模態對齊方法ULIP、MixCon3D、OpenShape,還有研究團隊自己的中間版本BRepEncoder(只用文字監督,不用圖像)。所有方法都在同樣的40萬ABC數據上重新訓練,確保比較公平。
結果相當說明問題。在ABC測試集上,當前最強基線OpenShape的Top-1精度是6.12%,BRepCLIP達到8.59%,相對提升40.4%;倒角距離也從0.071降到0.058,說明檢索到的零件不只是語義上更接近,幾何上也更相似。在CADParser上,OpenShape的Top-1是4.10%,BRepCLIP達到5.00%,相對提升22.0%;倒角距離從0.043降到0.035。在Automate上,OpenShape的Top-1是7.60%,BRepCLIP達到9.42%,相對提升23.9%;倒角距離從0.080降到0.060。
值得關注的是,即使只使用文字監督、不使用圖像監督的BRepEncoder版本,也已經超過了所有基于點云的方法。這直接證明了BRep原生格式本身對于工程零件檢索的價值,而不僅僅是多模態對齊的貢獻。加入圖像監督后,全版本BRepCLIP進一步提升,說明視覺信息與幾何信息存在互補關系。
定性的對比結果更加直觀。以"圓柱形連接器,帶滾花法蘭和中空內腔,寬度略大于高度"為查詢,BRepCLIP返回的結果精準還原了法蘭結構和中空特征,而點云方法往往只能找到大致輪廓相似的零件,細節特征完全對不上。以"矩形支架,兩端圓滑,三個圓孔,兩個穿頂部,一個穿側面,高寬比約1.5"為查詢,BRepCLIP能準確捕捉孔的數量和分布,而其他方法的檢索結果在孔的數量和位置上經常出錯。
八、零樣本分類:不需要額外訓練就能認識新類別
第二個評估任務是零樣本分類:把訓練好的模型直接拿去識別從未見過的零件類別,不做任何額外調整。
測試數據集是FabWave,一個包含4421個樣本、45個工程零件類別的數據集(過濾掉43個損壞文件后,剩余4378個樣本,39個類別)。分類方法非常直接:為每個類別寫一段文字描述,然后看每個零件的BRep嵌入與哪個類別描述的文字嵌入最接近,就預測為那個類別。
結果顯示,BRepCLIP以Top-1精度38.62%、Top-5精度70.28%、Top-10精度86.71%領跑所有方法。OpenShape排在第二,Top-1精度33.58%。相比之下,純點云方法如PointBERT(17.34%)、PointNet(15.74%)、PointMLP(18.80%)明顯落后。BRepEncoder(無圖像監督)也以21.81%的Top-1精度超過了所有純點云方法,再次印證了BRep結構對于工程語義理解的重要性。
從定性結果來看,BRepCLIP能夠正確區分管接頭、墊圈、密封圈、螺母、軸套、轉軸、平頭開槽螺釘等外形相近但功能不同的零件類別,而點云方法往往在這些細粒度類別上混淆。
九、BRepCLIP-Score:給CAD生成系統打分的新尺子
BRepCLIP的第三個貢獻,是一個面向CAD生成質量評估的新指標,研究團隊稱之為BRepCLIP-Score。
這個需求的背景是:近年來,用文字或圖片來生成CAD模型的研究方向非常熱門,涌現出DeepCAD、Text2CAD、CADRille、Text2CQ、CADFusion等多個方法。但如何評估這些生成結果的質量,一直是個難題。現有的兩種主流指標都有明顯缺陷。倒角距離(Chamfer Distance)只看整體幾何形狀的接近程度,一個外形對但缺了幾個孔的零件可能得到不錯的分數。CLIP-Score是用2D渲染圖和文字做相似度計算,完全繞開了三維幾何結構,一個渲染圖好看但拓撲結構全錯的模型也能得高分。
BRepCLIP-Score的計算方式很簡單:給定一段文字描述和一個生成的CAD模型,計算文字的CLIP嵌入與CAD模型的BRep嵌入之間的余弦相似度。分數越高,說明生成的模型與描述在幾何和語義上越匹配。
為了驗證這個指標的敏感性,研究團隊設計了一個"描述破壞"實驗:從ABC、CADParser和Automate各取1萬個樣本,分別用原始描述、經過輕微GPT修改的描述(比如把孔的數量改錯,或者改變面的形狀描述)、以及完全不相關的描述來計算分數,觀察分數下降幅度。
輕微破壞時,BRepCLIP-Score下降17.71%,而CLIP-Score只下降2.78%,LongCLIP只下降4.54%。完全不相關描述時,BRepCLIP-Score下降高達104.17%(出現負值),CLIP-Score只下降25.00%,LongCLIP下降18.18%。這說明BRepCLIP-Score對幾何語義的錯誤極其敏感,而圖像類指標對這些工程細節基本"視而不見"。
進一步地,研究團隊用1.5萬個ABC樣本對六種文本到CAD生成方法進行了基準評測,并同時收集了人類專家打分和GPT打分作為參照。五位CAD設計師觀看每個方法的多視角渲染圖和輸入文字,給0-10分的語義匹配度評分,最終取平均。GPT評測使用相同的輸入格式和評分標準。
對比結果顯示,BRepCLIP-Score與人類專家分數的排名一致性明顯優于CLIP-Score。在六種方法中,CADFusion排名第一(人類分5.5分,BRepCLIP-Score 0.35),而CLIP-Score的排名則出現了與人類判斷不符的偏差。Ground Truth(原始CAD模型)的BRepCLIP-Score為0.61,遠高于所有生成方法,也印證了這個指標的上限是合理的。
十、消融實驗:每個設計選擇的作用
研究團隊還做了系列消融實驗,驗證每個設計決策的必要性。
關于面和邊的雙軌道設計:只用邊詞元的版本Top-1精度只有1.26%,只用面詞元的版本提升到3.40%,兩者結合的完整BRepCLIP達到8.59%。面和邊各自貢獻了不同層面的幾何信息,缺少任何一方都會導致大幅性能下降。面提供了表面類型和大尺度形狀信息,邊提供了局部邊界拓撲和細粒度特征,兩者互補缺一不可。
關于多模態監督:只用BRep幾何(BRepEncoder)Top-1為4.30%,加入單視角圖像監督后提升到6.64%(+54.4%),再換成多視角圖像監督進一步提升到8.59%(再+29.4%)。視覺信息為幾何編碼提供了額外的語義錨點,而多視角比單視角覆蓋了更全面的外觀信息,兩步提升都有實質貢獻。
關于批次大小:批次從128增加到200時,Top-1精度從3.15%急劇跳升到8.59%(+172.7%);從200增加到400時,只有微小的0.23%提升,但顯存需求從約30GB翻倍到約55GB。研究團隊因此選擇批次大小200作為效率與性能的最優平衡點,這與OpenShape的發現一致——對比學習確實需要足夠大的批次來提供有效的難負樣本,但邊際收益遞減效應相當明顯。
說到底,BRepCLIP做的事情,用最簡單的話來說,就是讓AI學會用工程師的眼光看零件,而不是普通人隨手拍張照片的眼光。它保留了CAD格式中那些最寶貴、最精確、最有工程意義的信息——面的類型、邊的曲線形狀、拓撲連接關系——然后用這些信息來訓練出能與人類語言對話的AI模型。
這項研究的意義不只是在技術競賽上的成績。更深遠的價值在于,它為工業領域的智能設計輔助開辟了一條新路。當工程師可以用一句普通的描述語言搜索零件庫,當生成式CAD系統可以被可靠地評估幾何質量,整個產品設計流程的效率和可靠性都會發生實質性改變。
當然,這個系統也有其局限。面和邊的幾何分辨率目前是固定的,對于非常復雜、面和邊數量極多的零件,處理起來會消耗大量計算資源。語義描述符也只覆蓋了有限的幾種面型和邊型,真實工業數據中可能還存在更多樣的幾何形態。這些都是研究團隊明確指出的未來工作方向。
有興趣深入了解技術細節的讀者,可以通過arXiv編號2606.05515找到完整論文,也可以訪問研究團隊建立的項目頁面,查看更多可視化演示和實驗結果。
Q&A
Q1:BRepCLIP和普通的CAD檢索方法有什么區別?
A:普通的CAD檢索方法通常把三維模型轉換成點云或渲染圖片再進行匹配,這個過程會丟失工程零件最關鍵的信息,比如面的類型(平面還是圓柱面)、邊的形狀(直線還是圓弧)以及各部分的拓撲連接關系。BRepCLIP直接在CAD原生的BRep格式上工作,完整保留了這些幾何和拓撲信息,因此能更準確地區分外形相似但細節不同的零件,比如帶圓孔和帶方孔的底板,或者倒角邊和圓角邊。
Q2:BRepCLIP-Score和CLIP-Score評估CAD生成質量有什么不同?
A:CLIP-Score是用生成模型的渲染圖片和輸入文字做相似度計算,本質上是在看"看起來像不像"。但工程零件在渲染圖上可能看起來差不多,實際幾何卻完全不同,比如孔的數量錯了或者面的類型不對。BRepCLIP-Score直接比較CAD模型的三維幾何嵌入與文字嵌入的相似度,對這類幾何錯誤極其敏感,實驗顯示它與人類專家評分的一致性明顯優于CLIP-Score。
Q3:BRepCLIP需要多少訓練數據,普通企業能用嗎?
A:BRepCLIP使用了40萬個CAD模型進行預訓練,來自公開的CADCap-1M數據集的ABC子集,在單張NVIDIA A100 GPU上訓練了38個輪次。對于擁有內部零件庫的企業,理論上可以用BRepCLIP的預訓練模型作為基礎,在自己的數據上進行微調,不必從頭訓練。當然,實際部署仍需要一定的技術能力,尤其是處理STEP格式文件并提取BRep結構的工程管道。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.