每日經(jīng)濟(jì)新聞 2024-06-08 11:19:03
每經(jīng)編輯 杜宇
據(jù)新華社,近日,快手“可靈”視頻生成大模型官網(wǎng)正式上線。相較此前各家放出的視頻大模型以展示視頻為主,本次亮相的可靈大模型已在快手旗下的快影App開放邀測(cè)體驗(yàn)。
圖片來(lái)源:可靈大模型官網(wǎng)
據(jù)官網(wǎng)介紹,快手在短視頻視頻技術(shù)方面有多年的深入積累,其視頻生成大模型也有天然、廣泛的應(yīng)用場(chǎng)景。可靈大模型為快手AI團(tuán)隊(duì)自研,具備諸多優(yōu)勢(shì):能夠生成大幅度的合理運(yùn)動(dòng);能夠模擬物理世界特性;具備強(qiáng)大的概念組合能力和想象力;生成的視頻分辨率高達(dá)1080p,時(shí)長(zhǎng)高達(dá)2分鐘(幀率30fps),且支持自由的寬高比。
“可靈”大模型為快手AI團(tuán)隊(duì)自研,基于快手在視頻技術(shù)方面的多年積累,采用“Sora”相似的技術(shù)路線,結(jié)合多項(xiàng)自研技術(shù)創(chuàng)新,效果對(duì)標(biāo)“Sora”。
據(jù)悉,可靈使用了與Sora一樣的Diffusion Transformer架構(gòu),3D時(shí)空聯(lián)合注意力機(jī)制等,該架構(gòu)巧妙地融合了時(shí)間與空間的信息,對(duì)視頻數(shù)據(jù)進(jìn)行綜合分析和處理。
可精準(zhǔn)捕捉到視頻幀內(nèi)的局部空間特征以及跨幀的時(shí)間動(dòng)態(tài)特征,從而更全面地理解和再現(xiàn)視頻中的運(yùn)動(dòng)信息。
所以,無(wú)論是快速移動(dòng)的物體、劇烈變化的場(chǎng)景,還是復(fù)雜的人物動(dòng)作都能被精確捕捉,使得生成的視頻內(nèi)容動(dòng)態(tài)性十足,同時(shí)具有很高的物理世界真實(shí)感。
讓我們一睹官方效果,動(dòng)圖截取有壓縮,畫質(zhì)遜于展示視頻,效果以官網(wǎng)為準(zhǔn)。
提示詞:兩朵花在黑色背景下緩慢綻放,展示出細(xì)膩的花瓣和花蕊
提示詞:一只戴眼鏡的小白兔坐在咖啡館的椅子上看報(bào)紙,桌上有一杯熱咖啡
提示詞:一只手將牛奶從鋼制打奶壺倒入桌上一杯咖啡中,背景為模糊的廚房
基于對(duì)文本-視頻語(yǔ)義的深刻理解和 Diffusion Transformer 架構(gòu)的強(qiáng)大能力,可靈能夠?qū)⒂脩糌S富的想象力轉(zhuǎn)化為具體的畫面,虛構(gòu)真實(shí)世界中不會(huì)出現(xiàn)的的場(chǎng)景。
基于自研的3D人臉和人體重建技術(shù),結(jié)合背景穩(wěn)定性和重定向模塊,實(shí)現(xiàn)表情肢體全驅(qū)動(dòng)技術(shù),僅需一張全身照片,即可體驗(yàn)生動(dòng)的“唱跳”玩法。
公開資料顯示,快手已先后發(fā)布通用大語(yǔ)言模型“快意”、文生圖大模型產(chǎn)品“可圖”,還推出了Direct-a-Video、Video-LaVIT、I2V-Adapter、UNIAA等視頻關(guān)鍵技術(shù),引發(fā)了廣泛關(guān)注。據(jù)悉,伴隨此次可靈大模型的發(fā)布,快手將持續(xù)加速大模型的研發(fā)與應(yīng)用,帶來(lái)更加多元的AI創(chuàng)作與互動(dòng)體驗(yàn)。
每日經(jīng)濟(jì)新聞綜合新華社、公開資料
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP