每日經(jīng)濟新聞 2024-11-11 22:21:14
每經(jīng)記者 王郁彪 楊昕怡 每經(jīng)編輯 張海妮
字節(jié)跳動、快手,兩位短視頻巨頭在AI領域迎來了正面交鋒。
11月8日,字節(jié)跳動旗下的AI內(nèi)容平臺即夢AI宣布,由字節(jié)跳動自研的視頻生成模型Seaweed面向平臺用戶正式開放。據(jù)字節(jié)跳動方面介紹,本次開放使用的豆包視頻生成模型Seaweed是該款模型的標準版,僅需60秒即能生成時長5秒的高質(zhì)量AI視頻,領先國內(nèi)業(yè)界3至5分鐘的所需生成時間。
《每日經(jīng)濟新聞》記者在對即夢、可靈的初代版本和最新版本進行實測時發(fā)現(xiàn),迭代后,兩款產(chǎn)品在視頻生成效果上均有多方面、不同程度的提升,可靈在空間布局和畫面細節(jié)呈現(xiàn)上更為準確,且對生成內(nèi)容效果的調(diào)節(jié)更具靈活性、便捷性;而即夢在生成時長和視頻風格上有優(yōu)勢。
視覺中國
一位大模型技術人員向記者表示,視頻生成模型要實現(xiàn)生產(chǎn)內(nèi)容的不同“畫風”是很難的,“技術之外,還主要看數(shù)據(jù)源的豐富程度”。
短期內(nèi)完成多次迭代
伴隨字節(jié)跳動自研視頻生成模型Seaweed 開放使用,國內(nèi)視頻生成模型大比拼里最具看點的一對——即夢、可靈終于正式交手。
它們都承載著理解物理世界,在衍生“真實”的同時盡可能放大想象的“AI造夢計劃”,但對于自身而言,即夢和可靈也都肩負字節(jié)跳動和快手又一番商業(yè)化前景開拓的重任。
事實上,即夢與可靈都在短短不到一年的時間,完成了數(shù)次迭代。即夢3月底開啟視頻生成功能內(nèi)測,半年后,字節(jié)跳動發(fā)布了豆包模型家族的兩款視頻生成模型Seaweed和Pixeldance,并通過即夢AI、火山引擎小范圍邀測,如今Seaweed面向平臺用戶正式開放。
工信部信息通信經(jīng)濟專家委員會委員盤和林向《每日經(jīng)濟新聞》記者表示,即夢使用的新模型生成速度有所提升,給用戶的生成體驗更好了,“即夢AI目前在國內(nèi)生成領域,還是比較領先的”。
可靈在6月“出生”后一鳴驚人,發(fā)布至今經(jīng)歷了十余次更新,包括發(fā)布圖生視頻功能以及1.5模型的上線等。截至目前,可靈擁有超過360萬用戶,累計生成3700萬個視頻,并在近期正式上架獨立App(應用軟件)。
《每日經(jīng)濟新聞》記者選取了OpenAI官方公布的5條Sora視頻提示詞(東京街頭的女士、太空人、無人機視角的海岸、3D動畫的小怪物、云端讀書的年輕人)分別測試即夢和可靈的初代版本和最新版本,縱向?qū)Ρ葍蓚€視頻生成模型的視頻效果。
對比即夢最初版本和最新版本生產(chǎn)的視頻效果后,記者發(fā)現(xiàn),即夢有兩部分更新較為明顯:一個是在動態(tài)的“人事物”表現(xiàn)上,動作的捕捉和連貫性均有較為明顯的提升;另一個是畫面風格的差異化呈現(xiàn)也有比較大的進步。
以“東京街頭的女士”為例,初代即夢塑造的人物動作僵硬,特別是在腿部、腳部動作的捕捉上,整體呈現(xiàn)的效果是模糊和扭曲的。迭代后的新版即夢,人物動作自然流暢,腳部動態(tài)的細節(jié)處理更清晰、更符合真實世界的邏輯。
即夢與可靈差異明顯
兩個模型在迭代后,生成效果都更加穩(wěn)定,畫質(zhì)也更優(yōu),流暢度和細節(jié)處理都更經(jīng)得起推敲。不過,它們在語義理解、關鍵詞捕捉和放大,以及創(chuàng)意想象力和創(chuàng)意相關性的平衡上還是有明顯區(qū)別。
橫向?qū)Ρ龋瑢⒆钚掳姹镜募磯襞c1.5模型可靈,對5條Sora視頻提示詞的呈現(xiàn)進行比拼。語義的理解和關鍵詞的捕捉,讓即夢和可靈的視頻呈現(xiàn)有所不同。
在“無人機視角的海岸”視頻中,即夢對提示詞中“帶有燈塔的小島”進行了相對模糊化的處理,而無論是可靈還是Sora,這一畫面的重點都是“小島”。而在對“海岸公路”的描述中,即夢的設置并不符合真實世界的邏輯。
在“太空人”的視頻效果上,即夢對描述中的“冒險”并未進行描述,再次生成后,手拿咖啡騎著摩托的太空人也忽視了“冒險”的設定??伸`則通過人物的表情以及運鏡強調(diào)“冒險”。不過,即夢和可靈都相對忽視了“電影預告片”這一設定,對比之下Sora的“太空人”視頻更有電影感。
在“3D動畫的小怪物”視頻生成中,即夢的小怪物設定與動畫電影《怪物公司》里的角色“薩利”幾乎相同。而提示詞中有關小怪物的部分描述,即夢的呈現(xiàn)也相對不甚準確,比如“短毛”設定的執(zhí)行。此外,在藝術風格的呈現(xiàn)上,提示詞著重強調(diào)了“光照和紋理”,即夢的執(zhí)行弱于可靈。
而在“東京街頭的女士”視頻中,即夢在多主體復雜交互的呈現(xiàn)上,效果相對于可靈,表現(xiàn)不佳。無論是對畫面主體的“女士”還是空間描述上都相對準確,但對畫面中的行人普遍進行了模糊處理,近景中的行人則出現(xiàn)扭曲變形。
不過,即夢AI官方透露,近期,Seaweed和Pixeldance兩款視頻生成模型的Pro版將開放使用。Pro版模型會對多主體交互以及多拍動作連貫性進行優(yōu)化,同時攻克多鏡頭切換的一致性等難題。
在功能與體驗上,經(jīng)過數(shù)輪迭代后的可靈,在生成視頻時,有“創(chuàng)意想象力和創(chuàng)意相關性”參數(shù)的調(diào)整,因此可以進行平衡調(diào)整。對于不希望呈現(xiàn)的內(nèi)容,可靈也可以設置,比如模糊、拼貼、變形、動畫等。生成操作更靈活,效果可調(diào)整。
經(jīng)測試,即夢視頻生成時間更短,Sora的5條提示詞的視頻生成時間,每條都不超過半分鐘。而1.5模型的可靈生成10秒高質(zhì)量視頻則需要耗時10分鐘以上。
需要注意的是,上述即夢、可靈生成的視頻,均由記者測試生成,不同版本、描述的細節(jié),都會造成視頻生成效果的差異。
AI視頻生成領域混戰(zhàn)
對于字節(jié)跳動、快手這兩大短視頻巨頭而言,AI視頻生成領域的對手遠不止彼此。
例如,11月8日,“AI六小龍”之一的智譜對其視頻生成工具清影進行升級。升級后的清影支持任意比例的圖像生成視頻,并且具備多通道生成能力,同一指令或圖片可以一次性生成4個視頻。此外,清影可以生成與畫面匹配的音效,該音效功能將在本月上線公測。
更早之前,8月31日,MiniMax發(fā)布了其首款AI高清視頻生成模型技術abab-video-1,上線首月便捷報頻傳。據(jù)MiniMax官方公眾號披露,在視頻模型上線海螺AI的首月,海螺AI網(wǎng)頁版訪問量增速超800%,用戶覆蓋全球超180個國家和地區(qū),產(chǎn)品連奪AI產(chǎn)品榜(web)9月全球增速榜和國內(nèi)增速榜榜首。
北京市社會科學院管理研究所副研究員王鵬向《每日經(jīng)濟新聞》記者指出,目前國內(nèi)外AI視頻產(chǎn)品都處于快速發(fā)展階段,國外Meta、Google等科技巨頭都在積極布局AI視頻領域;國內(nèi)方面,快手可靈、即夢AI等產(chǎn)品也在不斷迭代升級,提升用戶體驗和商業(yè)化能力。
在商業(yè)化可能性方面,東吳證券在今年8月發(fā)布的研報提到,在AI滲透率為15%的中性假設下,中國AI視頻生成行業(yè)的潛在空間為3178億元;在全AI模式下,電影、長劇、動畫片和短劇的制作成本,相較傳統(tǒng)模式將下降超95%。
龐大的潛在市場規(guī)模和降本增效的“超能力”也能從可靈的使用數(shù)據(jù)上窺見一二。
在10月舉行的“2024中國計算機大會”上,快手副總裁、大模型團隊負責人張迪透露,自今年6月發(fā)布以來,快手可靈AI已有超過360萬用戶,累計生成3700萬個視頻以及超過1億張圖片。
盤和林在接受《每日經(jīng)濟新聞》記者采訪時表示,可靈背靠快手,擁有流量支持,所以商業(yè)化進程很快,“AI視頻產(chǎn)品還是要背靠互聯(lián)網(wǎng)平臺,有流量才有商業(yè)潛力”。
相似的是,字節(jié)跳動也將視頻模型的商業(yè)化放在了任務單前列。在今年9月推出兩款視頻生成模型時,火山引擎總裁譚待曾公開表示,新款豆包視頻生成模型“從一落地就開始考慮商業(yè)化”,使用領域包括電商營銷、動畫教育、城市文旅和微劇本。
“AI視頻將在B端和C端展現(xiàn)出不同的商業(yè)化潛力。”王鵬認為,面向B端,AI視頻可以為企業(yè)提供更加高效、低成本的視頻制作和分發(fā)解決方案;在C端,AI視頻可以滿足用戶對個性化、高質(zhì)量視頻內(nèi)容的需求,還能與電商、廣告等行業(yè)相結合,實現(xiàn)更加精準的營銷和變現(xiàn)。
封面圖片來源:視覺中國
如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經(jīng)濟新聞APP