![]()
「學生氣太足」
可以說生數科技是最原教旨主義的清華系AI創業公司:仨創始人都清華的,其中倆都一個課題組的,置身清華內,相當于實驗室給企業轉化了。
懷揣著對優績主義的病態崇拜,我虔誠地使用了他們的產品Vidu,得出的結論是家人們鵝腿吃多了。
因為從模型能力、產品定位和宣發策略上來看,此公司的學生氣都太爆棚了,已經完全滿了,馬上智能涌現出來了。
首先我萬萬沒有想到,在2026年6月,打開VIdu的網站,映入眼簾的是他們的全新功能ViduClaw。
![]()
而且他們真的還在堅持更新這個文檔
華北地區最后的龍蝦信徒,OpenClaw最后的兵。
連之前天天全國巡演辦龍蝦氣功熱活動的那撥人現在都收手了,你還在這呢。
而且Vidu是真的想把這個ViduClaw作為入口,不管我點進什么頁面,他都要跳出來個彈窗啥的提醒我:快來試試咱們最新研發的小龍蝦功能吧。
![]()
![]()
盛情難卻啊。于是連OpenClaw都沒部署過的我,只能膽戰心驚地嘗試體驗這個時髦功能。
結果發現還好,就是個對話框,也不用自己部署。
![]()
但我不理解這玩意存在的意義啊。在Vidu的文檔里,他們如此描述ViduClaw和其他模型產品的差異:
![]()
自然語言對話、一句話生成……哥們你以為現在是Stable diffusion時代呢?現在市面上哪家產品不能通過說人話來生成視頻?哪個視頻模型不內置Agent模式?
反而呢,Vidu把其他模型產品封裝好的功能給解壓了,變成了Skills上傳到GitHub上,讓用戶自己按需下載。
![]()
我覺得這套工作流的受眾就只有嘉豪做題家。
Be like??
![]()
一切的一切都只為了和愚鈍的我們炫耀一句:是不是挺難的?
那你贏了啊,我輸了啊,我平凡的大腦確實用不明白精英的龍蝦,我只能玩明白那些給我安排得明明白白的傻瓜產品
無論如何,我還是試了試,想讓ViduClaw批量給我做幾集清華鵝腿阿姨的短劇。
結果它管我要提示詞,讓我在這填表。
![]()
真把我當學生,把自己當輔導員了。
沒辦法,我只能用Claude生成了提示詞發給它,結果:
![]()
對的,無論我如何修改提示詞,ViduClaw都堅稱這是違規內容不能生成。
安全生產不是問題。但我用同樣的提示詞在即夢、可靈、PixVerse都暢行無阻啊。
最幽默的是,當我不使用它這個ViduClaw,而是換成普通的文生視頻功能之后,這視頻也就順利生成了。
合著你這個龍蝦是個安全審核員啊?
我給Vidu提供的故事是:一個CBD國貿精英打工人舉著滿屏綠色的手機去問鵝腿阿姨,為啥自己的股票綠了,阿姨說,這是綠色新能源汁浸泡腌制形成的無任何危害。
![]()
已獲得授權
我批量生成了3個視頻,其中最能看的成品如下:
真的很令人感到失望。
畢竟Vidu宣稱自己「為劇而生」「聲畫同出」,所以我對角色說臺詞、對口型還是抱有很大期待的。
結果生成的每個視頻,角色的口型都對不上,臺詞和人物也對不上,還經常胡言亂語。
至于什么角色的動作、物體的穩定性、背景的細節,那更是完全沒有任何評價的意義。
很難相信這是一個2026年的視頻模型,整個有一種實時生成世界模型的質感,很模糊很混沌。
不如你直接學隔壁PixVerse去做世界模型得了,換個賽道大家心里都舒服點。
哦,原來生數「首個登頂兩大權威具身智能評測的通用世界行動模型Motubrain」已經在路上了。那我們拭目以待吧。
我也想過,是不是這個劇情太難了,或者是不是提示詞本身就有問題?于是我用PixVerse和即夢都試了一下。
PixVerse:
其實口型對的也一般,但起碼是對應的人在說話,而且動作也都湊合能看。
即夢:
AI感是有的,也不能說完美,但至少在動作和口型上都沒出問題。比Vidu和PixVerse都強。
我覺得起碼做成這樣才能宣傳「為(AI短)劇而生」吧。
所以Vidu說自己「為劇而生」的底氣來自于何處呢?
經過仔細思索,我覺得可能是視頻長度。
現在主流的視頻模型,無論是即夢、可靈還是PixVerse,單次生成視頻的極限一般都是15秒。
咱們Vidu呢,偏偏就是16秒,以一秒之差傲視群雄。
![]()
感覺他們想找岳云鵬當代言人,然后高歌一曲,啊16秒,你比15秒多一秒。產品宣傳片由張藝謀執導,還叫《一秒鐘》。
當然,在生數科技發布那篇介紹Vidu論文的2024年,這16秒是創造歷史的。
畢竟彼時Sora還只是內測demo,即夢可靈也都不存在,市面上爭奪國產視頻模型第一番位的那些大學生項目,生成的視頻不超過十秒。Vidu一說自己能連續生成16秒視頻直接封神了。
但發布會只是發布會,論文只是論文,等生數正式推出支持生成16秒視頻的Vidu Q3時,已經是2026年1月30日,沒過幾天偉大的Seedance 2.0就上線了,Vidu的16秒純做給自己看的了。
可憐吶,視頻沒法看,只有時長贏一秒。
Vidu就很像你那個許久不聯系的做題家朋友,高中忙著熬夜做卷,大學卷綜測卷績點,也不實習也不社會化,最后拿著一張印滿了學生會頭銜和老師評語的簡歷去面試大廠,斬獲0個offer。
于是同學聚會時飲一口白酒,一邊灑淚一邊嘆乎:哎雖然現在我不上桌了,但當年百模大戰的時候,我可是比你們多好幾秒,還記得那論文……
生數還活在過去,但AI時代的模型迭代得實在太他媽快了,卷得也太他媽激烈了。他昔日的那些國產對手轉型的轉型、退場的退場,留下的基本就是受大廠庇護的即夢、可靈,還有愛詩科技的PixVerse。
離字節快手的距離有點遠了,生數只能和愛詩1v1,顱內復刻當年的激烈。
但這兩家本身視頻生成能力都屬于第二梯隊,所以只能進行講故事大賽,講商業化的故事,也講AI視頻以外沒法商業化的故事。
PixVerse做世界模型,Vidu就做具身大腦,兩家你追我趕,都怕直接掉到第三梯隊和套殼的那幫人坐一桌。
最新的故事是,生數要啟動港股IPO,愛詩也緊接著要上市的消息。倆人連這個也要競速。
求求你們兩家都分點精力在AI視頻本身吧
話說回來,我認為生數在視頻時長上確實是有執念的。
因為上文提到的ViduClaw的一個重要功能,就是全自動把數個短的視頻拼到一起,拼成一個長的視頻。理論上講可以無限長。
為了展現這一點,我又打開ViduClaw,給了它一個任務:做一條結合胖貓和鵝腿阿姨的聯動動畫片。
![]()
劇情如上
我還貼心地上傳了3張參考圖,讓他根據這幾張圖來生成視頻。
結果我晚上七點多發出去的消息,它期間磨磨蹭蹭,九十點才把視頻做好發我。
![]()
而且做出來的30秒視頻長這樣??
在我已經上傳了參考圖的情況下,還能讓每個畫面里的胖貓畫風都不一致,不知道的以為這是什么藝術上的考量。
而且最后鵝腿阿姨的形象用的也是胖貓的,這龍蝦真是又聾又瞎啊。
這和Vidu宣傳的「主體一致」有啥關系?太沒有主體性了。
反正Vidu的一切都很學生氣,生成出來的視頻也給人一種小組作業的感覺。
包括打開他們的公眾號,推文內容風格也都跟那種大學官號一樣。
![]()
就一種酒桌AI圈之感,有沒有懂的。
然后最近Vidu可能意識到自己視頻質量跟不上了,開始走一個性價比的路線,主要面向B端客戶的中年老板。
「價格砍20%!速度飆升20%!最具性價比的視頻模型Vidu Q3來了!」
確實沒撒謊。我粗略計算了一下,用即夢生成1條視頻花的錢,可以用Vidu生成3條視頻。
但Vidu生成的3條視頻,也沒一條能用啊。
尤其是現在Seedance mini也要上了,這要是直接打個三折,那Vidu不徹底沒生態位了?
所以Vidu做產品真就學生思維,覺得自己只要努力努力再努力,像個力工似的嗷嗷干,不要錢不要命做牛做馬,甲方就樂了就買單了。
實際上花3000塊錢雇仨大學生瞎干一個月,不如找個專家干一天。
Vidu趕緊找峰哥上上課吧,再這么活在象牙塔里就完蛋了。
![]()
當然,自從今年1月推出了Q3之后,Vidu確實就沒有比較大的更新。
是不是正在憋個大的,咱也不好說。我也很期待生數弄出來個真「為劇而生」的視頻模型狠狠抽腫我的臉。
但在此之前,你們還是少吃點鴨腿,少點學生氣,多進入進入社會吧。
(本文封面由ChatGPT 生成,純人工寫作)
??
歡迎訂閱我們的Substack
funeralai.substack.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.