每日經(jīng)濟(jì)新聞 2024-05-22 19:07:28
◎訊飛智作產(chǎn)品經(jīng)理姚仕豪認(rèn)為:“大模型有利于虛擬人的發(fā)展,目前看成本不是關(guān)鍵因素,效果更重要?!?/p>
◎隨著技術(shù)的巨大進(jìn)步,數(shù)字人在“逼真程度”上已經(jīng)媲美真人。盡管技術(shù)取得了進(jìn)步,但數(shù)字人在模仿人類行為和表情方面仍有局限性,如情感表達(dá)的深度、復(fù)雜情感的細(xì)微差別等。
每經(jīng)記者 朱成祥 每經(jīng)編輯 張海妮
在通義千問宣布大模型降價(jià)后,百度也隨即宣布旗下兩款大模型免費(fèi)。5月22日,科大訊飛(002230.SZ,股價(jià)43.87元,市值1015.76億元)也宣布訊飛星火LiteAPI永久免費(fèi)開放。
當(dāng)下,數(shù)字人的互動(dòng)能力正是依賴于大模型。大模型紛紛降價(jià),對(duì)互動(dòng)數(shù)字人是否是個(gè)機(jī)會(huì)呢?
5月21日,飛影數(shù)字人戰(zhàn)略顧問小豪對(duì)《每日經(jīng)濟(jì)新聞》記者表示:“數(shù)字人和大模型是兩個(gè)領(lǐng)域。大模型價(jià)格下跌,對(duì)我們正在做的新產(chǎn)品(互動(dòng)數(shù)字人)是利好。我們結(jié)合大模型之后,數(shù)字人升級(jí)進(jìn)化成數(shù)智人。”
訊飛智作產(chǎn)品經(jīng)理姚仕豪認(rèn)為:“大模型有利于虛擬人的發(fā)展,目前看成本不是關(guān)鍵因素,效果更重要。”
小豪首先向記者講述了數(shù)字人的具體操作:“現(xiàn)在的數(shù)字人,是需要你給文案,再根據(jù)文案來生成數(shù)字人視頻。接入大模型之后,這個(gè)數(shù)字人就可以實(shí)時(shí)互動(dòng)。比如數(shù)字人直播,可以根據(jù)觀眾的提問來實(shí)時(shí)回答。大模型是‘大腦’,數(shù)字人是‘身體’,兩者結(jié)合,成為新的數(shù)智人。”
那么,大模型降價(jià)之后,對(duì)數(shù)字人行業(yè)有何影響呢?
小豪說:“比如前面說到的互動(dòng)數(shù)字人,大模型成本降低后,面向C端普通人的用戶場(chǎng)景才能夠被真正釋放。如果大模型的價(jià)格很高,你跟一個(gè)數(shù)字人聊天1小時(shí),光是大模型的費(fèi)用就要很多,現(xiàn)在價(jià)格下降了90%后,普通人也能承擔(dān)(得起)這個(gè)費(fèi)用。”
頭豹研究院行業(yè)分析師陳慶民也對(duì)記者表示:“大模型技術(shù)的發(fā)展將為數(shù)字人提供更好的交互性,尤其是結(jié)合自然語言處理和語音識(shí)別技術(shù),數(shù)字人可以更自然地理解和回應(yīng)人類語言,從而提升用戶體驗(yàn)。”
不過,在姚仕豪看來,相比降價(jià),數(shù)字人的效果更重要。根據(jù)訊飛智作公眾號(hào)文章,虛擬人(數(shù)字人)本質(zhì)是對(duì)人的數(shù)字化模擬,具備三大特征:外觀、行為和思想。這些特性的實(shí)現(xiàn)依賴一系列先進(jìn)技術(shù)的融合,如圖像識(shí)別、3D建模、動(dòng)作捕捉、自然語言處理、計(jì)算機(jī)視覺等。
即數(shù)字人不僅僅需要大模型技術(shù)。
4月30日,《每日經(jīng)濟(jì)新聞》記者來到淘氣叮當(dāng)總部。工作人員向記者展示了數(shù)字人動(dòng)作捕捉的場(chǎng)景,以及數(shù)字人直播效果展示。如果不是工作人員提醒,記者已經(jīng)很難分清真人直播與數(shù)字人直播的區(qū)別。
上述工作人員說:“你看到的這個(gè)場(chǎng)景叫做多模態(tài)建模。她(正在被建模的真人主播)現(xiàn)在說的話、行為動(dòng)作都會(huì)被我們?cè)诤笈_(tái)打上標(biāo)簽,通過文字帶動(dòng)標(biāo)簽形成一系列動(dòng)作,還原成你看到的現(xiàn)場(chǎng)。錄制需要一個(gè)小時(shí)以上,因?yàn)榈糜凶銐蚨嗟膭?dòng)作和語言。如果5分鐘、10分鐘的素材來做建模,出來的效果并不符合品牌方的要求。”
公司總經(jīng)理王微接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)表示:“數(shù)字人直播之所以能做到那么逼真,與技術(shù)進(jìn)步密切相關(guān)。比如大模型技術(shù)、動(dòng)作捕捉、CG(計(jì)算機(jī)圖形)、CV(計(jì)算機(jī)視覺)。前年時(shí),能夠?qū)崿F(xiàn)的只是類似二次元卡通人物的虛擬人,到去年已經(jīng)出現(xiàn)1:1擬人的數(shù)字人。”
陳慶民也表示:“CG和渲染技術(shù)在實(shí)現(xiàn)數(shù)字人外觀和動(dòng)作的逼真度上占據(jù)重要地位。在面部表情和身體語言處理上,現(xiàn)在的技術(shù)能更精細(xì)地捕捉和模擬真實(shí)人類的微表情和細(xì)微動(dòng)作。”
上海交通大學(xué)博士生導(dǎo)師、深蘭科技創(chuàng)始人、董事長(zhǎng)陳海波告訴記者:“目前數(shù)字人主要依賴于深度學(xué)習(xí)、計(jì)算機(jī)視覺、語音識(shí)別和自然語言處理等技術(shù)。其中,CG和渲染技術(shù)在數(shù)字人的創(chuàng)建中占據(jù)了重要的地位,尤其是在數(shù)字人的外觀和動(dòng)作的生成中。在處理面部表情和身體語言方面,目前的技術(shù)已經(jīng)可以通過深度學(xué)習(xí)算法識(shí)別人類的面部表情和身體語言,并生成相應(yīng)的數(shù)字人表情和動(dòng)作。”
既然相關(guān)技術(shù)已在面部表情、身體語言處理、互動(dòng)能力等多方面取得較大進(jìn)步,加上大模型降價(jià),這一切會(huì)帶來數(shù)字人市場(chǎng)的爆發(fā)嗎?
一家人工智能公司的高管朱舜水(化名)5月20日也向《每日經(jīng)濟(jì)新聞》記者講述了他實(shí)際使用數(shù)字人的感受:“數(shù)字人技術(shù)的進(jìn)步,顯著提升了視頻制作的效率。以往在制作課程視頻時(shí),每一期視頻都需要進(jìn)行單獨(dú)的修改和剪輯,既費(fèi)時(shí)又費(fèi)力。現(xiàn)在我們只需要花半天時(shí)間收集音視頻素材,再用約一天時(shí)間進(jìn)行渲染、訓(xùn)練,就能夠達(dá)到‘以假亂真’的效果。”
朱舜水補(bǔ)充說:“使用數(shù)字人,我們可以替代真人進(jìn)行各種操作,不僅實(shí)現(xiàn)了高度逼真的呈現(xiàn)效果,還大大簡(jiǎn)化了修改過程。當(dāng)需要調(diào)整內(nèi)容時(shí),只需對(duì)數(shù)字人進(jìn)行相應(yīng)的修改,操作(起來)非常方便。”
王微認(rèn)為,“過去電商行業(yè)存在主播成本高、流動(dòng)性強(qiáng)的問題。很多時(shí)候,把主播培養(yǎng)出來卻留不住,主播自己?jiǎn)胃闪?。平庸的主播留得住,但不為公司?chuàng)造價(jià)值且成本也不低。比如在上海,幾乎沒有低于1萬元(月薪,下同)的主播。一個(gè)比較好的主播,可能需要1.5萬元以上,甚至2萬元以上再加提成,這對(duì)企業(yè)而言成本也蠻高的”。
在一線城市或是網(wǎng)紅經(jīng)濟(jì)比較發(fā)達(dá)的地區(qū),可能數(shù)字人主播是對(duì)真人主播的替代。而在相對(duì)較為偏遠(yuǎn)的地方,招到合適的主播也并非易事。王微稱:“對(duì)于下沉市場(chǎng),(數(shù)字人)解決的是公司找不到合適的團(tuán)隊(duì)去做直播這件事。”
此外,數(shù)字人直播還能解決傳統(tǒng)主播無法批量化復(fù)制的問題。王微稱:“(真人)主播可能播4—6個(gè)小時(shí)就很辛苦。但像數(shù)字人主播,你讓它播多久就可以講多久。比如你是某電器廠商,可以批量打造矩陣直播間,比如100個(gè)直播間只需要準(zhǔn)備100臺(tái)電腦。我們找來100個(gè)模特來克隆,克隆成數(shù)字人后,你就可以開100個(gè)直播間。”
此外,數(shù)字人還可以做外語的口播視頻。小豪表示:“比如一些跨境電商,他們需要去海外社交平臺(tái)引流,做外語口播視頻。目前都要求降本增效,主要是不用找外語專業(yè)的人出鏡,產(chǎn)量也提升很多。一般這類口播視頻,一天拍不了幾條,還需要找場(chǎng)地、拍攝人員、剪輯人員。數(shù)字人主要就是做真人嘴替,只要提供文案就能生成,一天100條都可以。”
目前,淘氣叮當(dāng)提供的是介于2D與3D之間的2.5D。姚仕豪表示:“訊飛支持2D和3D虛擬人的構(gòu)建和驅(qū)動(dòng),我們將虛擬人分為5大類:2D真人、2D生成人、3D超寫實(shí)、3D美型和3D卡通,根據(jù)不同的應(yīng)用場(chǎng)景推薦不同的虛擬人類型。”
隨著技術(shù)的巨大進(jìn)步,數(shù)字人在“逼真程度”上已經(jīng)媲美真人。朱舜水也表示:“我們給很多人看過,不提醒都意識(shí)不到是數(shù)字人。”
但他也提到數(shù)字人技術(shù)門檻不高。朱舜水稱:“小公司都能做(數(shù)字人視頻),基本都是小單子。”
《每日經(jīng)濟(jì)新聞》記者觀察到,數(shù)字人直播行業(yè)也呈現(xiàn)出從“重技術(shù)”到“重運(yùn)營(yíng)”的趨勢(shì)。
小豪表示:“數(shù)字人直播我們也做,主要是受平臺(tái)規(guī)則的限制。(但)技術(shù)上已經(jīng)能實(shí)現(xiàn)(數(shù)字人直播),數(shù)字人可以和觀眾互動(dòng),與真人同屏出現(xiàn)。另外有一些方式,可以規(guī)避在抖音直播間里被判定(為)違規(guī),但平臺(tái)整體的方向目前是不支持的態(tài)度。”
數(shù)字人視頻門檻相對(duì)低,而數(shù)字人直播則相對(duì)復(fù)雜。小豪表示:“數(shù)字人直播,老板們是很重視ROI(投資回報(bào)率)的,我們(產(chǎn)品提供方)需要和他們(用戶)的直播團(tuán)隊(duì)深度交流,研究他們的話術(shù),了解他們直播的上品流程和策略,是一個(gè)重運(yùn)營(yíng)的活。”
王微表示:“去年之前,我們更多做的是技術(shù)端的服務(wù)。即你買我的產(chǎn)品,我把數(shù)字人交付給你。(在)這個(gè)過程中,我們發(fā)現(xiàn)有一些客戶沒有運(yùn)營(yíng)團(tuán)隊(duì),(數(shù)字人)拿回去很可能會(huì)被閑置。”
“對(duì)于那些不太會(huì)用的,也沒有運(yùn)營(yíng)團(tuán)隊(duì)的,我們提供‘技術(shù)+運(yùn)營(yíng)’的方式。你只需提供你的賬號(hào),把你的樣品、產(chǎn)品賣點(diǎn)提供給我們,你就可以不用管了。我們來克隆數(shù)字主播,然后在我們基地直播。(客戶)也不用提供硬件。”王微說。
據(jù)悉,淘氣叮當(dāng)已經(jīng)在全國(guó)建設(shè)了7個(gè)數(shù)字人直播基地。
盡管平臺(tái)目前尚不支持,數(shù)字人直播依然轟轟烈烈地開展起來。對(duì)于數(shù)字人直播是否會(huì)沖擊傳統(tǒng)主播,陳慶民說:“數(shù)字人直播的興起確實(shí)對(duì)傳統(tǒng)主播的職業(yè)生涯產(chǎn)生了影響。數(shù)字人可以提供7×24小時(shí)的服務(wù),降低人力成本,這可能導(dǎo)致傳統(tǒng)主播面臨更大的競(jìng)爭(zhēng)壓力。但同時(shí),數(shù)字人的出現(xiàn)也可能催生新的職業(yè)機(jī)會(huì),如數(shù)字人的設(shè)計(jì)與開發(fā)、運(yùn)營(yíng)管理等。”
陳海波表示:“數(shù)字人直播的興起對(duì)傳統(tǒng)主播的職業(yè)生涯產(chǎn)生了一定的影響。例如,數(shù)字人可以24小時(shí)不間斷地直播,而且可以同時(shí)應(yīng)對(duì)大量的用戶。此外,數(shù)字人還可以通過算法優(yōu)化直播內(nèi)容,提升直播效果。這使得數(shù)字人在某些方面具有優(yōu)勢(shì),例如在直播時(shí)長(zhǎng)和應(yīng)對(duì)大量用戶方面。然而,傳統(tǒng)主播在表達(dá)情感、互動(dòng)和個(gè)性化方面仍然具有優(yōu)勢(shì),因此數(shù)字人和傳統(tǒng)主播可以相互補(bǔ)充,共同發(fā)展。”
此外,陳慶民也指出了數(shù)字人的技術(shù)局限性。其表示:“盡管技術(shù)取得了進(jìn)步,但數(shù)字人在模仿人類行為和表情方面仍有局限性,如情感表達(dá)的深度、復(fù)雜情感的細(xì)微差別等。目前技術(shù)成熟度在特定場(chǎng)景下已較為可靠,但應(yīng)對(duì)更復(fù)雜多變的人類行為和情感表達(dá)仍需進(jìn)一步發(fā)展。”
陳海波說:“目前數(shù)字人在模仿人類行為和表情方面還存在一些局限性。例如,數(shù)字人的表情和動(dòng)作可能不如人類自然,或者無法完全準(zhǔn)確地表達(dá)人類的情感。此外,數(shù)字人的語音和語調(diào)也可能不如人類自然。雖然技術(shù)已經(jīng)取得了很大的進(jìn)步,但在各種復(fù)雜場(chǎng)景下,數(shù)字人的表現(xiàn)可能仍然不如人類。”
封面圖片來源:每日經(jīng)濟(jì)新聞
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP