每日經(jīng)濟(jì)新聞 2024-03-17 23:29:54
每經(jīng)記者 王郁彪 每經(jīng)編輯 文多
AI(人工智能)大潮洶涌,真實(shí)與虛擬,正在被無(wú)限模糊。2024年伊始,OpenAI用它的首個(gè)視頻生成模型Sora宣告了AI新階段的到來(lái)——僅憑簡(jiǎn)單的文字描述,便可深度模擬真實(shí)物理世界,生成最長(zhǎng)60秒的擬真視頻。
如果把AI比作剛出生的嬰兒,大語(yǔ)言模型的誕生則意味著它開(kāi)口講話,Sora的面世相當(dāng)于他/她睜開(kāi)了雙眼,并把自己觀察到的一切轉(zhuǎn)化為畫面與聲音。
隨著AI技術(shù)不斷發(fā)展與應(yīng)用,在AI賦能過(guò)程中,如何平衡其中的創(chuàng)新與挑戰(zhàn)?3月15日,由工業(yè)和信息化部工業(yè)文化發(fā)展中心牽頭成立的AI應(yīng)用工作組主辦,每日經(jīng)濟(jì)新聞承辦、數(shù)智未來(lái)場(chǎng)景實(shí)驗(yàn)室協(xié)辦的“Sora的啟示:AI應(yīng)用再飛躍”主題沙龍活動(dòng)在京成功舉辦。
北京航空航天大學(xué)計(jì)算機(jī)學(xué)院副教授巢文涵在主旨演講環(huán)節(jié)表示,生成式AI的迭代速度降低了用戶端的再訓(xùn)練必要性,因此,想要在生成式AI的應(yīng)用中尋求進(jìn)一步突破,應(yīng)該從訓(xùn)練和創(chuàng)造AI,逐漸走向調(diào)用和激發(fā)AI潛力。
圖為北京航空航天大學(xué)計(jì)算機(jī)學(xué)院副教授巢文涵進(jìn)行主旨演講 v每經(jīng)記者 韓陽(yáng) 攝
Sora尚有諸多局限性
當(dāng)其他AI視頻工具還在突破幾秒內(nèi)的連貫性時(shí),Sora已經(jīng)可以快速制作最長(zhǎng)1分鐘、準(zhǔn)確反映用戶提示、可一鏡到底的視頻。
對(duì)于Sora在技術(shù)上的突破,巢文涵認(rèn)為,Sora實(shí)際上是一個(gè)“Diffusion+Transformer模型”(Diffusion、Transformer分別為模型名稱),是二者組合成的強(qiáng)大信息提取器。Sora繼承了DallE3(OpenAI 開(kāi)發(fā)的最新文本到圖像轉(zhuǎn)換工具)的畫質(zhì)和遵循指令的能力,可以深度模擬真實(shí)物理世界,能生成具有多個(gè)角色、包含特定運(yùn)動(dòng)的復(fù)雜場(chǎng)景。因其根據(jù)靜態(tài)圖像生成視頻的能力,Sora在動(dòng)圖制作、廣告設(shè)計(jì)等領(lǐng)域具有不小的應(yīng)用前景。不過(guò),Sora能夠獲取現(xiàn)有視頻并對(duì)其進(jìn)行擴(kuò)展或填充缺失的幀,這一功能在視頻編輯、電影特效等領(lǐng)域也將有不俗的應(yīng)用表現(xiàn)。
值得一提的是,用戶還可以使用Sora連接兩個(gè)輸入視頻,在完全不同的主題和場(chǎng)景組成的視頻間實(shí)現(xiàn)無(wú)縫過(guò)渡。
Sora在技術(shù)上的突破及其未來(lái)廣闊的應(yīng)用前景,使得AI又上升到了全新的維度。“Sora雖被定義為一款人工智能文生視頻大模型,但其實(shí),OpenAI并未將其單純視為視頻模型,而是作為‘世界模擬器’。”巢文涵如此表示。
從時(shí)尚展示到動(dòng)漫制作,從心理治療到建筑規(guī)劃,Sora可以為多個(gè)相關(guān)領(lǐng)域進(jìn)行全新創(chuàng)造、再創(chuàng)造。
不過(guò),巢文涵認(rèn)為,目前Sora同樣擁有諸多局限性。比如,Sora在處理復(fù)雜場(chǎng)景時(shí)對(duì)物理規(guī)則的應(yīng)用不一致,因此出現(xiàn)無(wú)法準(zhǔn)確模擬出因果關(guān)系的特定情況。這也可以解釋,為什么在Sora生成的視頻里,時(shí)常能看到變形的椅子飛向天空的畫面。
巢文涵進(jìn)一步補(bǔ)充說(shuō),在人機(jī)交互、充分理解空間和時(shí)間的復(fù)雜性以及使用限制上,Sora還有非常多的局限性。
難免引發(fā)一系列問(wèn)題
那么,如何在AI技術(shù)不斷突破的過(guò)程中,繼續(xù)逐點(diǎn)擊破AI賦能和應(yīng)用的難點(diǎn),平衡創(chuàng)新與挑戰(zhàn)?巢文涵表示,生成式AI應(yīng)用,應(yīng)該從訓(xùn)練和創(chuàng)造AI,走向調(diào)用和激發(fā)AI潛力。
“生成式AI的迭代速度降低了用戶端的再訓(xùn)練必要性,關(guān)鍵是用戶怎么調(diào)用這些生成式AI。同時(shí),大模型本身外部檢索、多模態(tài)能力都非常強(qiáng),本身是一個(gè)好的搜索入口。”他接著補(bǔ)充說(shuō),“應(yīng)該進(jìn)一步去APP化,提供更多維度的綜合應(yīng)用交互方式。”
在巢文涵看來(lái),大模型本身具備生態(tài)插件及融合能力,其自身會(huì)調(diào)用服務(wù)接口,不需要打開(kāi)APP,而是需要設(shè)計(jì)合理的API(應(yīng)用程序編程接口)接口。此外,還需打破傳統(tǒng)AI應(yīng)用中語(yǔ)音、文字、圖片等不同格式內(nèi)容的界限,提供更多維度的綜合應(yīng)用交互方式。
從技術(shù)層面考量,Sora也面臨一系列挑戰(zhàn),包括可擴(kuò)展性和計(jì)算資源、隱私和倫理問(wèn)題以及就業(yè)和社會(huì)變革等。在這些挑戰(zhàn)中,巢文涵特別提到了深度偽造。他注意到,不法分子會(huì)利用機(jī)器的深度學(xué)習(xí)技術(shù),進(jìn)行圖像、聲音、視頻的篡改、偽造和自動(dòng)生成,產(chǎn)生高度逼真且難以甄別的內(nèi)容。
巢文涵認(rèn)為,Sora對(duì)社會(huì)生產(chǎn)力和產(chǎn)業(yè)發(fā)展的促進(jìn)作用毋庸置疑,但同時(shí),Sora創(chuàng)造的大量虛擬視頻會(huì)污染現(xiàn)存的圖像數(shù)據(jù),引發(fā)一系列問(wèn)題。因此,他建議,應(yīng)該建立法律和監(jiān)管框架,同時(shí)提供政策支持,增強(qiáng)創(chuàng)新意識(shí),加強(qiáng)數(shù)據(jù)保護(hù)與安全。
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP