麻省理工學院的 Md Ferdous Alam 和 Faez Ahmed 近日發布了 GenCAD,一款從圖片直接生成參數化 CAD 模型的開源系統。與以往只輸出 3D 網格或點云的生成模型不同,GenCAD 不僅能生成可編輯的 3D 實體模型,還能同時輸出完整的 CAD 命令序列——也就是可直接在 OpenSCAD 等建模軟件中執行的參數化程序。這對于自動化設計、工程制造和設計空間探索等場景來說,是一個值得關注的技術突破。
![]()
CAD 數據的復雜性長期困擾著 AI 模型訓練。與常見的網格、體素或點云表示不同,CAD 采用邊界表示(B-rep)數據結構,這種高精度、可參數化的表達方式雖然對工程設計至關重要,但因其結構復雜且缺乏大規模公開數據集,導致 AI 模型難以直接在上面訓練。業界常見的妥協方案是先生成中間表示(如網格),再逆向轉換為 CAD 模型,但這個轉換過程會損失精度,且生成的結果無法直接編輯和參數化修改。
GenCAD 架構包含四個核心步驟。首先,自回歸 Transformer 編碼器負責學習 CAD 命令序列的潛在表示;其次,基于對比學習的模型建立 CAD 命令序列與圖片之間的聯合表征空間;第三,潛在擴散模型在圖片條件約束下生成 CAD 命令序列的潛在表示;最后,解碼器將這些潛在表示轉換為具體的參數化 CAD 命令序列。整套架構的創新之處在于:它直接學習 CAD 程序層面的表征,而不僅僅是幾何外觀。
從實際效果看,GenCAD 展示了一個從圖片渲染圖生成 CAD 模型的工作流。用戶輸入一張產品渲染圖,模型會輸出一組可選的 CAD 程序,每個程序對應一種生成結果。這解決了以往生成模型"輸出不確定、不可控"的問題——同一個輸入圖片可以對應多種合理的 CAD 建模方案,GenCAD 能夠并行生成多個候選結果供設計師選擇。論文中展示了從約 7000 個 CAD 程序庫中進行圖片條件檢索的實驗,給定一張輸入圖片,系統能夠返回最匹配的 Top-3 CAD 程序。
![]()
這種能力在工業場景中有明確的應用價值。產品的逆向工程是一個典型場景:工程師手中有產品實物或渲染圖,需要快速重建出可參數化修改的 CAD 模型。傳統方式依賴手工建模,耗時數小時甚至數天;GenCAD 可以作為初始草案生成工具,大幅縮短重建周期。設計空間探索是另一個場景:給定一個設計概念圖,設計師希望快速生成多種變體來評估不同方案的優劣,GenCAD 的多樣本生成能力可以支持這一工作流。
從技術發展角度看,GenCAD 代表了一個值得關注的方向:生成式 AI 正在從"生成圖片/視頻"向"生成可執行程序/模型"演進。代碼生成模型(如 GitHub Copilot)已經在軟件開發領域產生了深遠影響,而 CAD 程序生成的價值鏈條更長——它直接影響制造、采購和供應鏈。一個能夠讀圖并輸出參數化 CAD 模型的 AI 系統,實際上是在縮短從設計意圖到物理產品之間的認知到實物的轉化路徑。
項目代碼已在 GitHub 開源,論文發表于 arXiv(編號 2409.16294),提供了視頻演示和交互式 3D 模型展示。對 CAD 自動化、設計智能化有興趣的開發者可以訪問項目頁面深入了解。
來源:Md Ferdous Alam & Faez Ahmed, MIT (https://gencad.github.io/、https://github.com/ferdous-alam/GenCAD)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.