這兩年,AI 修圖已經不是什么新鮮事了,調色、背景模糊,到皮膚細節的打磨,幾乎都有專門的工具能處理。但說到摳圖,還真就是 AI 修圖工具里最難搞的一部分。
但摳圖這件事,說小也小,說煩也是真煩,雖然它看起來只是把背景擦掉,實際卻特別挑場景,比如人像頭發、衣服邊緣、產品反光、透明材質、復雜光線,這些地方一個沒處理好,摳出來的圖就是幾乎不可用的狀態。
實際上,很多用戶并不是想做什么高級設計,只是單純想換個頭像、摳個商品主圖、做個封面素材,但是一大堆專業工具難搞又復雜,學習成本還高。不過,近期 AI 摳圖開源工具已經在 GitHub 上如雨后春筍般涌出來,有專門制作頭像的、萬物皆可摳的,還有主打 5 秒內出圖的。
![]()
(圖源:magicpfp)
但這些 AI 摳圖,真如開發者們說的那樣好用嗎?是騾子是馬,我們還是得拉出來遛一遛才知道。
讓 AI 摳圖?很快、但質量不高
這次我們試的三個工具都是在 GitHub 上討論度挺高的,分別是 magicpfp、RMBG 和 remove-bg。這三個工具雖然都是把圖片背景摳掉,但背后的思路其實不太一樣。比如magicpfp 更像一個為頭像場景做的小網頁,重點不是“萬物皆可摳”,而是讓用戶上傳一張人像,順手把去背景、換背景、頭像美化這一套流程做完;RMBG 更像一個通用型的本地摳圖工具,主打免費、隱私和本地處理;remove-bg 則是一個更全面的工具,它直接把 WebGPU、Transformers.js 和 RMBG V1.4 這套東西塞進瀏覽器里,讓本地前端去處理。
從技術上看,這些工具的原理幾乎都是一致的,像 magicpfp 和 remove-bg 都明確標注使用了 BRIA 的 RMBG-1.4,remove-bg 還用了 Transformers.js 來調模型,盡量在瀏覽器本地完成推理。
簡單來說,這類工具不是在“拿橡皮擦圖片”,而是在讓模型判斷,圖片里哪些像素屬于主體,哪些屬于背景,再生成一張帶透明通道的結果圖。當然,之所以大家都盯上這套工具,本質上還是因為WebGPU、WASM 和前端模型調用這套能力比前幾年成熟得多了,瀏覽器性能也強多了,可以在前端干活了。
從實際體驗看,magicpfp 雖然功能有限,但是自由度是最高的一個。magicpfp 只能制作頭像,也就是它 AI 識別的對象必須是人物,其實頭像本來就是最標準化的一類圖片任務,主體通常清楚,構圖也相對固定,沒必要上來就挑戰復雜商品圖。
![]()
(圖源:the verge)
![]()
(圖源:雷科技制圖/magicpfp)
我們拿了馬斯克的一張新聞圖給 magicpfp,人物主體抓得還算穩,頭、手、上半身這些主要結構都保住了,沒有出現手指缺一塊、衣服被啃掉一截這種低級錯誤,拿去做社交頭像是夠用的。問題在于它的邊緣并不算干凈,頭發頂部有明顯溢邊,肩膀和手臂外輪廓也有一點彩邊,左下角甚至還順手把椅子給捎上了一點。
不過呢,好在它支持調整,背景顏色、邊緣、尺寸,這些都能重新做,小小的失誤是可以接受的。但很可惜,magicpfp 畢竟只是一個非常小的個人項目,所以它整體的生成速度是比較慢的,遠不及直接拿 AI 去生成一張。
![]()
(圖源:雷科技制圖/magicpfp)
RMBG 的感覺就完全不一樣了,它更像一個“我不管你好不好看,我先把活干完”的工具。首先,RMBG 是一個本地 AI 工具,不用注冊,不用把圖傳到服務器,也不會擔心這個工具要收費。
上手來看,RMBG 也是很典型的「能做,但效果一般」的角色,奧特曼那張新聞圖,主體輪廓是完整的,臉、脖子、肩膀都沒出大問題,但頭發和肩部邊緣還是有比較明顯的綠色殘留,像是背景剝掉了,臟邊卻沒擦干凈。讓 RMBG 摳廣告圖里的手機,它確實知道前景是誰,把手和手機主體都保住了,沒有傻到把整個場景都留下來,可手機右側、手指周圍的紅黃雜邊相當明顯,邊緣還有一點虛,暖色環境光和背景高光像是一起粘在了主體外輪廓上。
![]()
(圖源:雷科技制圖/RMBG)
只能說,這樣的效果用拿來商用可能是差一點,最多只能是視頻里的貼圖素材,再放大一點就要露餡。當然,RMBG 自己也說,目前僅僅能提供個人需求用途,還不到商業用途的水平。
來到 remove-bg ,熟悉 AI 摳圖工具的朋友對這個項目應該不陌生,它以高質量和超快速著稱。實際體驗下來也的確是這樣,比如那張手機廣告圖,它對主體的判斷比 RMBG 更干凈,手機輪廓、手指邊緣、頂部弧線這些容易翻車的位置都處理得更穩,刺眼的彩邊少了一截,直接商用可能都不太會被發現。
![]()
(圖源:華為)
![]()
(圖源:雷科技制圖/remove-bg)
馬斯克那張圖也是這樣,像是頭發、肩膀、雙手交疊這些區域雖然還是有輕微瑕疵,但整體臟邊感明顯更輕,左下角亂入的內容也更少。
![]()
(圖源:雷科技制圖/remove-bg)
整體看下來,這三款工具的差距倒也不是那么明顯,只是它們各自的特色太鮮明。比如magicpfp 更像頭像場景的小成品、RMBG 最高支持 20 張圖一起生成、remove-bg 的摳圖效率高,成品也很接近直接可用的程度。但如果要拿來和 PhotoShop 上用鋼筆工具一點一點摳出來的精品圖,那這三個工具幾乎沒有合格的。
普通人或許不需要最完美的摳圖
實測做完之后,一個很直接的感受就是,這幾個開源工具當然還遠沒有到把成熟商業產品干翻的程度,但它們明明還有一堆毛病,卻已經把一件過去默認得交給云端平臺去做的事,搬回了瀏覽器和本地,而這才是這項工具的趨勢。
前面我們就提到,之所以 AI 摳圖工具不斷升級,都是因為 WebGPU 的不斷進化。過去瀏覽器當然也能跑很多東西,但真碰到 AI 推理這種活,網頁環境一直有點力不從心,原因不復雜,老一代 WebGL 更偏圖形渲染,做通用 GPU 計算并不順手,而機器學習這類任務恰恰又很吃并行計算能力,所以很多 AI 功能以前只能放在服務器上跑,瀏覽器更多只是個上傳下載的殼。
WebGPU 不一樣的地方就在于,它一開始就把現代 GPU 的圖形能力和通用計算能力都更完整地暴露給網頁,Google Chrome 這些年也一直拿機器學習推理做典型案例,強調 WebGPU 能讓瀏覽器更高效地調用本地 GPU 去做高性能計算,這才讓網頁開始有點像一個真正能跑 AI 的輕量運行環境。
![]()
(圖源:RMBG)
也就是說,在 AI 摳圖這件事上,以前用戶點一下摳圖按鈕,真正干活的是遠端服務器,瀏覽器只是負責把圖片傳過去,再把結果拿回來,所以 SaaS 工具的優勢非常明顯,效果統一、速度穩定,不需要擔心自己的設備能否跟得上。可 WebGPU 出來之后,瀏覽器開始能直接借本機的 GPU 干活,很多輕量模型就有機會在本地完成推理,圖片不用先上傳,等待路徑也更短,尤其在背景移除這種相對標準化、目標又比較明確的任務上,這種變化會顯得特別明顯。
現在的模型量級越來越輕,瀏覽器越來越能算,調用方式也越來越現成,于是像背景移除這種能力,就不再非得做成一個上傳到云端再返回結果的閉環,而是可以被拆成網頁、小組件、插件,甚至設計工具里的一個內置模塊。
所以說,即便從實測來看,這些 AI 摳圖工具的表現都挺一般,沒有真正能和專業工具媲美的,但就是架不住大家的喜愛,這就是因為多數普通人并不需要非常完美的圖,只需要一個快速、基本能用的圖。
摳圖只是前奏,更多 AI 工具正在本地化
實際上,AI 摳圖之所以得到大量關注,真正值得被看見的還是關于「AI 小工具正在大量本地化」,很多原本必須交給云端去做的輕量 AI 任務,已經開始具備在本地完成的條件了。
摳圖只是這波變化里最明顯的,因為它高頻、標準化、結果又很直觀,用戶一眼就能看出好不好用,所以特別適合率先本地化。后面很可能跟上的就不只是圖片處理了,像圖片放大、簡單修邊、證件照處理、商品圖白底化這種任務,本來就和摳圖一樣,規則清楚、交互短、模型也相對可控,很容易繼續依附瀏覽器本地推理這套能力發展下去。
不僅僅是針對圖片的處理,像是音頻轉寫、字幕生成、網頁摘要、翻譯、分類、輕量 OCR、頁面內容提取,這些同樣高頻、輕量、結果容易驗證的工具,也都很有機會沿著類似路線走,因為它們本質上都符合一個條件,就是沒有復雜到非得把任務扔去云端才能完成。
![]()
(圖源:remove-bg)
所以從這個小小的 AI 摳圖工具來看,未來很多 AI 功能未必還會以獨立網站/App的形式存在,它們更可能變成瀏覽器里的一個按鈕、設計軟件里的一個模塊甚至是某個插件里默認開啟的能力。對用戶來說,這當然是好事,操作更短,隱私顧慮更少,很多小需求也不必再專門跑去一個 SaaS 平臺解決;但對行業來說,很多原本獨立存在的應用或網頁,都沒有必要存在,尤其是一些小功能,都可能在這套邏輯下,慢慢被取代。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.