出品|《態度》
作者|紀川
編輯|定西
當大模型、多模態和Agent成為企業AI討論里的高頻詞,視覺AI的問題并沒有因此消失,反而以更具體的方式重新回到現場。
“客戶缺的不僅僅是算法,更是如何把算法持續用起來的一套體系。”格靈深瞳研發副總裁閆梓禎在談到公司新推出的視覺智能工坊VE2S(Visual End-to-End Studio)產品時對網易科技表示。在他看來,過去很多視覺AI項目的核心問題,并不只是模型精度不夠,而是算法生產和業務運營之間存在斷層。
這種斷層在企業現場尤其明顯。
在傳統視覺AI交付模式下,客戶提出一個需求,算法團隊就針對這個需求訓練一個模型。比如要識別安全帽,就做一個安全帽算法;要識別人員離崗,就做一個離崗算法;要判斷柜臺服務動作是否合規,就再做一個新的規則和模型。項目制交付可以解決單點問題,但企業業務本身并不會停在單點上。一個攝像頭角度變了,一套工服換了,一個業務流程調整了,算法效果就可能出現波動。
在閆梓禎看來,過去的模式更像是“客戶要什么算法,我們就交付什么算法”。如果客戶需要20個算法,廠商就交付20個算法;如果場景變化,就再由工程師進場重新調試。這種方式在早期視覺AI落地中行得通,但當客戶的場景越來越多、需求越來越碎、變化越來越快時,單純依靠項目制和人工交付,就會變得越來越“重”。更關鍵的是,視覺AI的使用方往往不是算法工程師,而是業務人員。
在銀行網點,真正理解柜面流程的是運營人員;在工廠車間,最熟悉安全規范的是一線管理者;在園區安防場景里,最清楚告警優先級和處置流程的是安保團隊。但在過去的系統里,這些人通常只能提出需求,不能直接參與算法訓練、規則編排和效果糾偏。模型如何調整、數據如何回流、規則如何改寫,仍然依賴技術團隊。
“我們希望把它變成一個工具。”閆梓禎說。這里的“工具”,不是一個單獨算法,也不是一個只負責展示結果的平臺,而是一套能夠讓客戶圍繞自身業務持續生產、運營和迭代視覺智能能力的系統。
這也是格靈深瞳推出視覺智能工坊VE2S(以下簡稱“視覺智能工坊”)的出發點。
閆梓禎介紹,視覺智能工坊并不是一個完全從零開始的新產品,而是格靈深瞳過去十多年視覺智能落地經驗的延續和升級。過去,格靈深瞳在智慧城市、智慧金融、體育等場景里積累了大量算法訓練、業務系統和邊緣部署經驗。視覺智能工坊要做的,是把這些能力從一個個項目中抽出來,沉淀成可以復用的平臺能力。
視覺智能工坊的核心能力有三層:MENTOR算法訓練中心、EXPERT算法運營中心和SENTINEL邊緣哨兵。
![]()
視覺智能工坊三大核心能力
M層是算法訓練中心,負責場景定義、數據生成、智能標注、訓練評估、芯片適配等功能,把業務需求轉化為可上線的算法能力。E層是算法運營中心,負責零樣本啟動、模型快速迭代、低代碼編排等功能,把算法能力嵌入真實業務流程。S層是現場執行單元,負責設備接入、實時推理等功能,保障算法在邊緣側穩定運行。
換句話說,視覺智能工坊想解決的不是“有沒有某一個算法”,而是“企業能不能自己持續生產和運營算法”。
在閆梓禎看來,這套系統的核心在于閉環。傳統項目交付后,模型往往停留在上線那一刻。現場出現誤報、漏報、低置信度樣本,如果沒有被系統性采集和回流,就不會變成下一輪模型優化的燃料。視覺智能工坊則試圖把“數據采集—模型訓練—業務編排—邊緣部署—實時告警—數據回流—模型迭代”連接起來,讓算法在真實業務中持續吸收反饋并自主進化。
他把這條鏈路稱為“數據回流線”。有了這條線,模型不再只是一次性交付結果,而可以隨著現場數據和業務規則變化繼續更新。客戶也不再只是購買一個固定算法,而是在自己的業務現場里建立一套視覺智能生產線。
這也解釋了為什么格靈深瞳會在這個時間點推出視覺智能工坊。
一方面,多模態大模型正在改變視覺AI的能力邊界。過去很多必須依賴專門小模型、專門標注和專門規則才能完成的任務,未來可能通過更通用的視覺理解能力、更靈活的語義表達和更自然的交互方式完成。另一方面,大模型并不會自動解決企業AI落地問題。模型能看懂視頻,不等于它能進入銀行、工廠、園區、交通等真實場景;模型能回答問題,也不等于它能穩定接入設備、響應告警、符合權限要求,并在低成本下長期運行。
因此,對一家長期從CV時代走來的AI公司來說,視覺智能工坊更像是一次產品形態的升級:底層能力在向多模態和Agent演進,但最終交付給客戶的,不再只是一個模型算法,而是一套可部署、可運營、可迭代的智能系統。
這并不意味著人工完全退出。
相反,閆梓禎更強調的是人和系統的重新分工。算法工程師不再為每一個碎片化需求重復寫代碼、調參數,而是把更多能力沉淀到平臺里;業務人員也不再只能等待技術團隊響應,而可以通過低代碼、規則配置和運營工具,參與到算法應用的構建過程中。視覺智能工坊真正想降低的,是企業把AI從“可演示”推向“可持續使用”的門檻。
在格靈深瞳看來,視覺AI下一階段的競爭,已經不只是模型指標的競爭,也不是誰能交付更多單點算法的競爭,而是誰能把模型能力轉化為企業可復用的生產能力。多模態、Agent、國產化適配和邊緣計算,最終都要回到一個問題:客戶現場能不能用起來,能不能穩定運行,能不能隨著業務變化持續優化。
圍繞視覺智能工坊的產品邏輯、M/E/S三層架構、商業模式變化、企業落地難點,以及多模態和Agent在視覺場景中的應用,網易科技與格靈深瞳研發副總裁閆梓禎進行了一次對話。以下為對話實錄,經不改變原意的編輯。
不再只賣一個算法:格靈深瞳想給企業搭一條視覺智能生產線
網易科技:我們先從產品本身聊起。先簡單介紹一下視覺智能工坊這一產品最初是怎么被定義出來的?
格靈深瞳:視覺智能工坊并不是一個從0到1全新做出來的產品,它更多是從1到10逐步升級出來的,是我們過去十多年視覺智能落地經驗的延續。
從整體架構來看,底層包括異構計算、訓練推理框架等能力,都是我們多年積累下來的。
網易科技:視覺智能工坊有哪些核心能力?你們把它拆成M、E、S三層架構,分別對應什么角色和定位?
格靈深瞳:格靈深瞳是國內對芯片生態適配度較高的企業之一。早在2019年前后,公司就開始圍繞國產AI芯片進行視覺算法與行業場景的適配工作,當時在華為昇騰芯片上做人臉識別、智慧交通、智慧城市等相關業務時,我們已經做了很多性能優化。
后來,我們又陸續適配了更多國產芯片,包括算能、海光、百度昆侖芯等。同時,我們自研的多模態大模型,比如LLaVA-OneVision-1.5/2.0系列,在訓練與迭代過程中,也得到了開源全模態框架LoongForge的支持,進一步提升了多模態模型在國產算力環境下的訓練效率和適配能力。
現在Agent很火,我們也把自己的Agent Runtime能力加入到底層能力中。基于這些底層能力,我們構建了應用層,也就是我們所說的“M+E+S”三層架構。
![]()
視覺智能工坊Glint Agent頁面
其中,M層來源于我們過去內部訓練各種算法時使用的平臺。過去算法工程師接到需求后,會基于內部算法訓練平臺來訓練模型,這套平臺后來逐步產品化,演化成現在的M層。
E層來源于我們過去在智慧城市、智慧金融、智慧體育等業務平臺中的能力抽象。我們把其中強行業屬性的業務層去掉,保留下來能夠支撐業務構建和落地的通用內核,形成了現在的E層。它解決的核心問題是:如何把算法能力真正轉化為客戶能夠感知到的業務價值。
舉個例子,過去算法工程師訓練出一個檢測模型,交給智慧體育業務使用。但客戶真正需要的并不是一個“檢測技術”,而是運動項目的完成度如何、能否評分等業務結果。模型到業務之間需要有一座橋梁。E層提供的就是低代碼業務編排能力,不僅我們自己的工程師可以使用,很多客戶自己也可以基于它完成業務搭建。
S層最早對應的是公司內部邊緣計算產品線。它解決的是如何在有限算力的設備中和邊緣復雜環境中,采集和理解原始數據,并推送到業務平臺上。我們把邊緣業務中的通用能力抽象出來,包括如何做更具性價比的硬件、如何在有限算力下解決更多問題,最終形成了現在的S層。
當我們把M、E、S三層抽象完成后,發現它們組合在一起能夠發揮更大的能力。因此,我們把三層整合成統一產品,并重新設計了它們之間的數據聯動,形成現在的視覺智能工坊。
網易科技:能不能結合一個具體案例,講一下M、E、S是如何搭建和協同工作的?中間完整鏈路是什么?
格靈深瞳:格靈深瞳做智慧銀行已經很久了。在銀行運營和安保場景中,我們的落地規模也是行業里比較大的。
最開始交付金融場景時,主要是拼人工、拼人力。我們派了很多前端工程師,甚至算法工程師到現場做交付。但后來發現,這會變成一個無底洞,因為客戶需求一直在變化。
銀行業務有一個很大的特點:它是全國性的,各省、各市都在做。我們發現,不僅有新增算法需求,而且每個城市的需求都不一樣。一旦規模放大,靠人力就很難持續。
所以當時我們開始思考,如何把產品進行自動化、智能化封裝和改造。也是基于當時的金融產品,我們有了M、E、S這套架構的雛形。
在銀行網點層面,需要接入攝像頭并進行算法分析,這對應現在的S層。S層本質上要求低延時,也要做一些算法初篩。但它的能力很難做得很強,因為如果在網點部署高算力,成本會上升,而且很多網點環境也不適合部署高算力設備,比如網絡、電力等條件不一定支持。
因此,我們把高算力的一部分遷移到分行層。分行通常會有類似機房的環境,可以部署設備。這樣一方面可以做二次識別或二次過濾,讓算法更準;另一方面,一個設備可以管理多個邊緣設備,也就是多個網點,從而做一些偏運營的事情。
有了E層之后,我們就不只是做視覺算法,也可以做數據分析,還可以把一些動態能力放進去,解決更多場景和業務問題。
M層則來源于銀行對專業算法的需求。銀行會發現自己需要訓練很多專用模型,同時還要考慮成本。但這些訓練在E層算力不夠,而數據又不能離開銀行。于是我們就在總行數據中心構建訓練集群,全國各地的數據可以匯總到總行做統一訓練和分析,再下發到全國各地。
因為總行能夠匯聚各省數據,所以我們可以在總行訓練出偏金融場景的視覺基礎模型。這個模型對金融業務的理解會越來越深。基于它再去訓練銀行各類業務子模型時,泛化能力也會越來越強。整個M、E、S體系就是在這樣的金融場景中逐漸構建起來的。
網易科技:這樣看來,視覺智能工坊是不是替代了過去一些零散售賣的業務?或者說,之前分散購買產品的客戶現在是不是只需要購買視覺智能工坊這一項就可以?
格靈深瞳:可以這樣理解。過去客戶可能是零散地購買不同能力,現在我們提供的是一個完整的工具包。當然,這個包里面客戶仍然可以自由組合,選擇自己需要購買的部分。但整體上,我們已經把視覺AI落地過程中可能遇到的問題盡可能包含進去了。
不過它依然是一個偏通用的平臺,里面并不內置完整的強行業屬性內容。比如在銀行行業,我們可能有專門的銀行產品線,里面內置了上百個銀行運營相關算法。
但視覺智能工坊本身不會直接內置這些行業算法。我們提供給客戶的是,如果你有一個新的場景,比如智慧工廠,很多新的業務能力都可以基于這個平臺構建和生產出來。
網易科技:從客戶使用的角度看,視覺智能工坊讓他們具備了一定的自定義、延展和再生產能力。但是這個能力的邊界在哪里?哪些事情客戶可以自己完成,哪些環節仍然需要格靈深瞳參與?
格靈深瞳:我們通常是這樣定義的:首先,我們提供的平臺本身支持客戶自己持續迭代。每個算法方案都可以持續優化。
在落地中,我們比較推薦的一種方式是視覺基座模型的微調。在E層里,這個功能我們內部可能叫“快標快訓”。客戶只需要找到幾條自己想要的數據,或者認為不滿意的數據,快速標注一下,然后點擊“一鍵迭代”,系統就可以生成一個新的版本。這個版本基于客戶很小的微調需求完成迭代升級,對算力成本要求很低,客戶不需要購買完整訓練平臺,就可以在現場快速調整模型。
我們已經把平臺交互做得非常友好。客戶不需要理解AI或視覺算法背后的運轉機制,也能夠完成模型訓練。
當然,客戶也可以向我們提出需求,比如希望我們提供一個初始版本的算法,這就相當于服務能力,我們也可以提供。不管客戶是購買我們的服務,還是自己從0到1構建,或者購買我們的服務后再自己繼續迭代,平臺都支持。
過去我們提供一個算法后,客戶如果想進一步提升效果,往往需要再找我們,由算法工程師或專家到現場判斷:是需求變了,還是模型能力不夠,或者數據分布發生了變化。現在很多問題可以在現場直接解決。
除了客戶主動發現問題并調整之外,平臺內部還有一條我們稱為“數據回流線”的能力。它可以自動發現模型是否需要升級。比如一個算法上線后會輸出業務報警數據,平臺在定期巡檢時,如果發現業務報警數據和最初定義不完全匹配,就可以自動發現異常,并借助多模態大模型能力進行調整。
也就是說,模型有一定的自我進化能力。它進化完成后,可以給客戶推送通知,提示模型已經自動迭代了一次,客戶只需要判斷這次迭代是不是自己想要的。如果確認,就可以直接上線。
持續進化:讓用戶端到端地構建解決自身業務問題的能力
網易科技:你們認為什么樣的客戶最適合使用視覺智能工坊?
格靈深瞳:凡是希望借助視覺AI能力,通過視覺傳感器來做履職、安全合規、安全管理、預警事件等場景的客戶,都可以考慮視覺智能工坊。
我們有各種不同規格,適合小場景、中場景和大場景。只要客戶的需求和視覺AI相關,就可以考慮我們的產品。因為視覺智能工坊封裝的是視覺AI落地的全棧能力。
網易科技:那對客戶來說,視覺智能工坊最重要的價值是什么?
格靈深瞳:我認為最重要的價值是,客戶可以通過我們的平臺,端到端地構建真正能夠解決自身業務問題的能力。
如果客戶有新的業務需求,或者原有業務需求發生變化,我們可以保證平臺能力能夠進行遷移適配,也可以理解為“越用越聰明”。客戶既可以主動調整它,也可以等待系統被動自我調整。
過去在一個場景中,算法效果可能已經不錯,但一旦換了場景,或者業務發生變化,算法就可能不能用了。這個時候客戶往往需要重新找我們或其他人再做一版新算法。現在這些問題很多都不需要再通過傳統方式解決。
網易科技:那如果用戶本身企業數據不足呢?尤其是新場景冷啟動、長尾樣本不足。視覺智能工坊具體能幫用戶解決嗎?
格靈深瞳:它確實解決了類似問題,但視覺智能工坊解決的不僅僅是數據問題。
作為AI企業,我們以前很難直接接觸到客戶數據。比如要做水利行業,如果找不到一個有代表性的客戶陪我們一起優化算法,我們其實很難切進去。因為我們沒有水利行業相關數據,也不知道客戶的真實需求是什么。在公司內部直接推出一個水利解決方案,這并不現實。
現在視覺智能工坊首先就在解決類似問題。即便完全沒有數據,我們也有一套冷啟動方案,可以推出第一版算法并部署到現場。這個版本可能已經能夠大致解決客戶的準入問題,至少能夠產生一些業務報警和實際價值。
這個時候,模型召回率可能還比較低。接下來我們就可以通過快速迭代,讓它從第一版迭代到第二版、第三版……通過持續迭代,客戶會感受到準確率越來越好、召回率越來越高。
本質上,我們把過去算法工程師的生產流程標準化到了產品中。
![]()
視覺智能方案流程頁面
網易科技:采用視覺智能工坊是否存在轉換成本?
格靈深瞳:從我們目前內部評估來看,并沒有太多轉換成本。整體上,客戶成本是下降的。
不過對部分客戶來說,可能會有一個關鍵轉變。有些客戶會認為,你給我提供了很高的自由度,我可以自己解決問題,但我可能并不需要這種自由度,我只想要一套成熟方案。
對于這類客戶,我們可以直接推薦完整行業產品;也可以派專家或工程師幫助他們完成調整,最終交付成熟產品。現在我們也具備這樣的能力。
這種模式的好處是,我們自己的工程師也可以基于業務平臺在客戶現場搭建完整業務,不再像以前那樣,需要在公司實驗室環境和客戶現場之間反復來回。
網易科技:如果有些企業仍然希望拿到完整解決方案呢?這和視覺智能工坊強調的自進化能力會不會沖突?未來這兩種模式之間會是什么關系?
格靈深瞳:這兩種模式并不沖突。對于客戶來說,兩種模式我們都可以提供。視覺智能工坊本身也支持這兩種方式。客戶只是多了一個選擇。
即便客戶現在覺得自己沒有迭代需求,過一段時間也可能出現新的需求。對客戶來說,視覺智能工坊降低了未來風險成本。
從大方向來看,隨著大模型和AI技術發展,未來企業里可能會出現更多Agent或數字員工。如果交付鏈路和產品不升級,之后可能很難適配這個大趨勢。
視覺智能工坊具備完整的平臺化、工具化能力。如果未來客戶希望通過自己的數字員工替代部分人工去完成算法迭代和升級,我們現在也已經具備這種能力。而傳統交付模式中,客戶買完以后系統就放在那里,后續很難變化。
技術要強而可控:Agent落地關鍵在選場景
網易科技:更底層來看,支撐視覺智能工坊的底層技術是什么?
格靈深瞳:首先,底層能力必須足夠強。現在大家都在講,基礎設施能力要強,否則產品設計得再好,使用體驗也會很差。
格靈深瞳過去幾年一直堅定投入技術研發,比如我們還在訓練自己的多模態模型。同時,我們也在投入AI基礎設施,包括各種芯片的推理、訓練適配和優化。我們也做過很多大規模AI落地,并在落地過程中探索新的方向和賽道。正是基于這些積累,我們才沉淀出視覺智能工坊。
網易科技:談到你們在視覺領域的深耕,目前你們專注在解決哪些問題?比如視覺安防中,是提升精度,還是解決其他問題?
格靈深瞳:這些都會涉及。我們認為視覺智能工坊是一個全棧能力。
比如,如何更好地挖掘數據、檢索數據,如何用跨模態能力檢索數據,如何讓視覺基座模型更強,如何讓遷移訓練效果更好,如何讓推理更快,這些都是我們關注的方向。
但所有這些技術,本質上都是圍繞一個目標展開的:讓視覺算法在行業中更好地落地。我們都是基于實際需求來做技術。
網易科技:剛剛談到自進化的能力,但有些企業可能會擔心模型持續迭代帶來的風險。你們如何看待這個問題?
格靈深瞳:模型迭代確實存在風險,這也是很多企業在使用Agent時主要擔心的問題。今天很多人也提到“嚴肅場景”這個詞,基礎技術發展和嚴肅場景落地是兩條線,我們在產品中加入了很多策略,保證模型持續迭代是可控的。
只要進入To B交付、做企業級應用,這種可控能力就是必須具備的。這里既包括安全相關能力,也包括效果保證能力。
比如每一次模型迭代,我們都要保證它是正向的。里面有嚴格評估流程,Benchmark評估也已經固化在我們的算法交互體系中。只有通過這套體系,才意味著這次迭代是正向的。
網易科技:安全也是大家比較關注的問題,這方面視覺智能工坊具體是如何設計的?
格靈深瞳:我們現在在平臺里構建了多種安全體系,也加入了一些安全相關模型,用來解決輸出是否可靠、是否存在不安全行為等問題。
在S層,我們也有內置安全芯片,通過整個體系來保證安全。但我認為,企業級安全很難說做到盡頭,很難說現在做的東西就已經完全夠用了。因此后續我們還會在安全上做更多功能,投入更多精力。
網易科技:現在很多做Agent的公司都說,Agent在企業層面落地比較難。你們在落地過程中遇到的難點是什么?
格靈深瞳:我認為落地難的本質在于企業的容錯要求。
很多企業希望Agent完全取代人,而且取代之后不能出錯。但現在的Agent還沒有能力在完全脫離人的情況下做到不出錯。
所以關鍵是要選場景,在合適的場景里使用Agent。另外,我們也看到很多公司是為了落地Agent而落地Agent,但我們不是這樣。我們是在自己關注的業務領域里,把Agent加入進去,讓它解決應該解決的問題。
也就是說,我們把過去的一些事情Agent化,這樣可能節約大量人工,或者節省一定成本。我們是這樣思考問題的,而不是客戶說想引入Agent,我們就憑空造一些Agent強行加入。整體上,我們還是比較務實的。
所以我們也認為Agent落地確實比較難,但目標是清晰的。
打開新場景:把生產算法的能力交給客戶
網易科技:這種技術變化是否也意味著你們的售賣方式和商業模式發生了變化?
格靈深瞳:是的。現在視覺智能工坊售賣的是一整套工具。對客戶來說,購買這套工具后,就能夠解決實際問題。
過去我們更多是在賣算法。因為大家通常把我們稱為“算法公司”,客戶會直接提出算法需求,比如需要20個算法,我們就派工程師去解決,最后按照一個算法多少錢來收費。
現在不一樣了。我們賣給客戶的是完整工具。工具交付后,很多算法其實不再需要單獨產生費用,所以商業模式確實發生了一些變化。
網易科技:某種程度來說,這種模式下你們是不是也節省了人力成本?
格靈深瞳:對我們來說,它更主要的不是為我們節省人力成本,而是幫助客戶節省成本。
過去客戶的需求是連續變化的。這個月可能有10個需求,下個月又有另外10個需求,以前客戶每個月都可能需要再向我們支付費用。現在很多需求客戶可以自己通過平臺解決,只有在解決不了時再找我們。
當然,如果客戶人力不足,或者出于其他考慮仍希望我們來提供算法服務,我們也會繼續提供,這和以前一樣。
網易科技:如果視覺智能工坊幫助客戶節省了算法服務的成本,那對你們來說這部分收入要從哪里收回呢?
格靈深瞳:首先我們可以解決客戶更多的實際問題,帶來增量業務,另外也可以拓寬更多的行業。過去我們只能一個行業一個行業地做,比如智慧城市、智慧金融、智慧體育等等,我們只能基于具體行業來做產品和服務。
如果突然有一個新的行業客戶,比如能源行業,想購買我們的服務,過去我們其實很難直接提供能力。因為客戶可能提出100個算法需求,我們至少要完成大部分需求后,對方才可能購買服務。但我們當時沒有相應算法和數據,需要投入很大精力先解決算法和數據問題,推出能源行業解決方案,再賣給客戶并到現場迭代升級。
這意味著我們的行業客戶范圍比較窄,可能一年只能拓展一個或兩個新行業。
現在視覺智能工坊讓我們的方向拓寬了。比如能源行業即使我們之前沒有做過,也可以直接向客戶推薦視覺智能工坊。我們有信心這個產品可以解決客戶的實際問題。當然,如果某個行業我們已經構建過完整的產品體系,也可以直接推薦行業產品。但如果這個行業我們沒有做過,就可以推薦具備完整迭代能力的視覺智能工坊。因此,我們的銷售渠道和可覆蓋行業都發生了變化。
網易科技:確實是可拓展的場景更多了。面對新場景、新客戶時,你們如何說服他們使用呢?
格靈深瞳:一方面是我們主動去找客戶,另一方面也會出現客戶內部的自然擴散。
還是以銀行為例。最開始我們進入銀行時,解決的是偏安保業務,比如是否有人尾隨、是否有人摔倒等。但當我們把整個體系構建起來后,它的能力邊界被拓寬了。
很多安保客戶會把我們推薦給運營部門。因為安保和運營是兩個部門負責。運營部門看到安保側已經取得了很多成果,同時平臺自由度也很高,就會考慮能否用同一個平臺構建自己的運營業務和算法。
于是他們會主動找到我們,詢問是否可以用這個平臺解決運營問題。試用之后,如果發現效果不錯,他們可能并不需要額外采購或付費,而是直接登錄我們的賬號體系,用整個平臺去構建運營相關算法。
所以,只要產品好用,客戶能夠感知到價值,產品自然會擴展到更多場景。
網易科技:從客戶側看,他們對于這種改變的意愿和態度如何?
格靈深瞳:我們現在確實遇到兩類客戶。一類客戶明確表示自己需要這個能力;另一類客戶會說,聽起來很好,但暫時用不上。
不過只要我們能夠證明客戶整體成本沒有上升,客戶通常也能接受。因為這相當于預留了一項未來可能用得上的能力。
網易科技:今年很多和視覺相關的公司都開始往世界模型方向靠。你們是否也有這種想法?
格靈深瞳:暫時還沒有。
世界模型是一個非常寬泛的概念,不同公司對世界模型的定義可能都不一樣。從我們的業務角度來看,我們還是希望更聚焦一些。
我們仍然在投入多模態模型、視覺大模型,但更希望這些模型能在具體行業應用中發揮價值。比如我們落地比較多的是泛安防行業,我們希望視覺大模型能夠在泛安防行業中作為通用基座,更好地解決泛安防問題。
對于純粹通用的、脫離行業屬性的模型,甚至一直通用到世界模型,我們會非常慎重。我們更希望專注于實際業務方向。如果未來有機會,也可能會探討,但目前來看會比較慎重。
網易科技:視覺智能工坊未來會沿著怎樣的路徑繼續迭代?
格靈深瞳:我認為最大的迭代方向,是讓Agent在其中發揮越來越高的比重。比如現在可能有六七成能力可以完全通過Agent實現,未來這個比例會繼續提高。
另外,現在很多偏行業積累的SOP或規則,后續可能會逐步替換為由大模型自己判斷。
另一個方向是安全。Agent和大模型在企業中落地,最大的問題仍然是安全。我們需要構建完整的安全體系,保證各個層面可控。比如模型迭代是否可控、權限是否可控、數據隔離是否可控等。
我們現在也在交付一些對安全要求很高的行業,安全會是我們之后重點投入的方向。
網易科技:放到更大的行業趨勢里,你們怎么看今年AI在安防以及相關行業應用中的落地變化?
格靈深瞳:在整個安防或泛安防行業里,大家對多模態技術還是非常擁抱的。我們過去在泛安防里做的很多CV落地,現在都在做增量改進,都會用多模態大模型技術進行整體升級。
因此,我覺得未來一年仍然會圍繞多模態技術做一些改進。基于多模態大模型,可能會出現一些增量升級。但從我們判斷來看,未來一年在技術落地層面不會有翻天覆地的變化,尤其是在泛安防大范圍落地中,更多還是基于現有落地情況做增量升級。
比較大的變化可能是國產化。現在國內環境對國產化整體適配深度的要求越來越高。接下來不僅要求國產化,還會要求在國產化上的推理性能、效果指標等達到更高水平。不管是效果精度,還是推理成本,都需要優化到更深程度。這就需要我們在國內生態上做更多優化工作。
所以我認為,國產化在成本和生態層面變化會比較大。技術和產品形態上可能會有很大變化,但在大范圍落地中,不會立刻出現翻天覆地的變化。
