每日經(jīng)濟新聞 2022-12-09 22:11:44
◎12月8日《每日經(jīng)濟新聞》記者專訪了小冰公司CEO李笛。他認(rèn)為,市場對于ChatGPT取代搜索引擎,以及在其他各個領(lǐng)域?qū)崿F(xiàn)商業(yè)化落地的暢想,短期內(nèi)不太可能到來,成本將成為制約其實現(xiàn)商業(yè)化的重要阻礙。他舉例說,如果小冰用ChatGPT的方法來運行系統(tǒng),現(xiàn)在小冰每天承載的交互量就需要花幾億人民幣的對話成本。
每經(jīng)記者 可楊 每經(jīng)編輯 董興生
從吟詩作賦,到寫代碼,再到寫劇本、做高數(shù),OpenAI發(fā)布的免費機器人對話模型ChatGPT回答處理多領(lǐng)域問題的能力之強悍,引發(fā)全球關(guān)注。
盡管該模型目前仍處于測試階段,但面世僅一周,便有超過一百萬用戶使用。“明天ChatGPT就要搶走人類飯碗”的調(diào)侃也不絕于耳。(更多內(nèi)容,詳見每經(jīng)頭條《最強聊天機器人來了,能寫情書、改錯別字、編代碼!明天,ChatGPT搶走我飯碗?》)
已擁有多個AI聊天機器人成功落地案例的國內(nèi)頂尖人工智能公司小冰,如何看待風(fēng)靡全球的ChatGPT?
帶著這個問題,12月8日《每日經(jīng)濟新聞》記者專訪了小冰公司CEO李笛。他認(rèn)為,市場對于ChatGPT取代搜索引擎,以及在其他各個領(lǐng)域?qū)崿F(xiàn)商業(yè)化落地的暢想,短期內(nèi)不太可能到來,成本將成為制約其實現(xiàn)商業(yè)化的重要阻礙。他舉例說,如果小冰用ChatGPT的方法來運行系統(tǒng),現(xiàn)在小冰每天承載的交互量就需要花幾億人民幣的對話成本。
李笛 圖片來源:受訪者供圖
在李笛看來,目前,行業(yè)內(nèi)對ChatGPT的關(guān)注與熱潮已經(jīng)有些過度。
“人類為什么會感到激動?”李笛覺得,當(dāng)人們普遍對一件事情有一種預(yù)期,進而去交互時,發(fā)現(xiàn)它遠(yuǎn)超大家的預(yù)期,人們就會驚訝。“但即使是針對人工智能,在最近這些年驚訝的次數(shù)也很多了;稍微往前一點,GPT3出來的時候大家就很驚訝,但是也沒有發(fā)生什么;再往前,AlphaGo下圍棋贏過最好的人類棋手,大家也很驚訝,但是之后似乎也沒有改變什么。”
不過,李笛也提到,關(guān)于ChatGPT,有三件事情需要相對理性來看。首先,ChatGPT有非常好的創(chuàng)新,即證明了在原有的大模型基礎(chǔ)之上,進行一些新的訓(xùn)練方法,可以更好地提高對話質(zhì)量;其次,ChatGPT并不構(gòu)成一個大版本的迭代,而是對上一個版本的微調(diào),在一定程度上彌補了極大參數(shù)量的大模型的一些缺陷。“即便是OpenAI來講,它也被定義為GPT3.5,而不是GPT4。”此外,李笛認(rèn)為,ChatGPT的突破,主要是研究性質(zhì)上的突破。
對于目前市場普遍想象的ChatGPT是否馬上就會迎來商業(yè)化落地、產(chǎn)生顛覆性的影響,李笛認(rèn)為不太可能。“但是,這一點都不影響我們在最近這些年里,尤其是在大模型的思路出來以后,我們又一次看到在對話上的一個很大的變化,在這條路上大家都在往前走。”
ChatGPT在訓(xùn)練方法上,具體做了怎樣的創(chuàng)新,以至于能夠大大提升其作為聊天機器人的對話質(zhì)量?
李笛分析稱,很多人說ChatGPT的訓(xùn)練是基于人類反饋,這并不完全準(zhǔn)確。人類反饋至少有兩個含義,一是指在訓(xùn)練中,通過反饋來實現(xiàn);另外則是產(chǎn)品在與用戶交互時,通過大量的用戶與其交互形成的反饋,不停地讓模型進步。“這兩者的價值是非常不一樣的,更大的價值其實在于后者,即產(chǎn)品在交互過程中得到反饋。”
李笛介紹,過去對于AI聊天機器人的訓(xùn)練主要是基于數(shù)據(jù),即在機器進行對話后,針對對話內(nèi)容進行訓(xùn)練,調(diào)整、優(yōu)化對話內(nèi)容的數(shù)據(jù);而ChatGPT則是針對數(shù)據(jù)形成的模型進行訓(xùn)練,簡單而言,具體的訓(xùn)練方式是:人先寫出一些指導(dǎo)性的問與答,用這些問答對大模型進行訓(xùn)練,通過一系列反饋式的訓(xùn)練方法,讓大模型逐漸沿襲人所給予的關(guān)于問答的指導(dǎo)性意見、邏輯。“從這個角度講,即使是進行多輪對話,ChatGPT本質(zhì)上來講依舊是一個問答系統(tǒng)。”
、
圖片來源:攝圖網(wǎng)-500560614
李笛認(rèn)為,這樣的訓(xùn)練方法背后的技術(shù)含量,通常不是算法模型上的技術(shù)含量,而是來自訓(xùn)練者本身的能力,包括團隊自身的經(jīng)驗積累。例如,由人來寫問與答,讓機器學(xué)習(xí)并給出結(jié)果,同時人要再對此給出評分,這其中有很多個體差異,這種個體差異則在一定程度上決定了其最后呈現(xiàn)的成果。
他同時也談到,從主要做大模型的公司而言,成果往往取決于到底是不是非常專注去做這件事情。“OpenAI與其他公司不一樣的地方在于,它很專注做語言大模型,所以它投了大量時間和精力。它有很多經(jīng)驗,但這些經(jīng)驗的積累并不是不可習(xí)得的。”
ChatGPT給出的回答,最常規(guī)的格式是先給出一個結(jié)論,再進行事實的羅列,進而通過其羅列的事實推導(dǎo)出結(jié)論。
李笛認(rèn)為,對ChatGPT而言,這個結(jié)論本身是否正確其實不重要。他用之前網(wǎng)絡(luò)上流傳的一個問答舉例,在回答“紅樓夢中賈寶玉適合娶誰”的問題時,ChatGPT最終給出的答案是:賈母。
李笛進一步分析,根據(jù)ChatGPT的回答可以反推出,人在為其寫指導(dǎo)性問答時,非常強調(diào)因果關(guān)系,而大模型也會注重去學(xué)習(xí)因果關(guān)系。“(有的回答)如果不是特別仔細(xì)去看,你會感覺到這是一個似乎很有邏輯與因果關(guān)系的回答,但實際上它非常沒有道理。”
這也是為什么從對話質(zhì)量上看,人們會覺得ChatGPT很優(yōu)秀,但想要真正依靠它去代替搜索引擎,李笛認(rèn)為,這不太可能,因為它不可信。“很多人在測試ChatGPT的時候是知道答案的,但去搜索引擎上搜的東西往往是我們不知道答案的。如果是通過ChatGPT(代替搜索引擎),你怎么知道這個東西(答案)是正確還是錯誤的,它完全不負(fù)責(zé)的。”
而李笛也認(rèn)為,這種“不可靠”很難解決,因為ChatGPT的訓(xùn)練過程,是為了對話質(zhì)量,但人們卻容易誤以為它的目的是給出最正確的知識。“它做了很多優(yōu)化,是使它(的回答)形式上感覺非常有知識,它不是為了本質(zhì)(有知識)。”
搜索引擎在努力做的是跳過論證過程,直接給出用戶最終想要的結(jié)果,而ChatGPT則相反,它追求的是盡可能在給出回答之前,給很多論證,讓人覺得它的回答是可信的。“ChatGPT,人們測試的時候會覺得很好,但是真的拿它來用,有那么一兩次你發(fā)現(xiàn),你被它的這種似是而非的胡說八道愚弄了,那么你從此就不會(對它)有任何的信任。”
如果ChatGPT無法取代搜索引擎,還有什么可預(yù)想的落地應(yīng)用嗎?
李笛認(rèn)為,真正限制ChatGPT在短期內(nèi)商業(yè)化的是成本。“它的單輪回答(Single Turn),成本是幾美分,按照1毛錢(人民幣)算,10句話就是一塊,這個(成本)超過人,還不如雇一個人,比這個要便宜得多。”
與此同時,李笛表示,如果把大模型理解為把特別多的信息濃縮在一個模型里,那么大模型的本質(zhì)問題就在于,很大參數(shù)規(guī)模的大模型做了以后不可用,因為成本太高、延遲太高。但一旦開始嘗試降低成本,同時也會明顯看到其對話質(zhì)量降低。
李笛舉例,如果小冰用ChatGPT的方法來運行系統(tǒng),現(xiàn)在小冰每天承載的交互量就需要花幾億人民幣的對話成本。“就算ChatGPT可以把成本優(yōu)化到現(xiàn)在的10%,也賺不回來,因為人工智能最大的特點就是高并發(fā)。如果成本是這樣,不如雇人。人有自我反省機制,人工智能甚至有一些基本常識性錯誤。而且把成本降到現(xiàn)在的10%,這是多么艱巨的任務(wù)?”
目前,小冰公司的AI Being已成熟應(yīng)用于多個場景中,例如本屆賽事解說員劉建宏的虛擬人分身、招商局的數(shù)字員工等。
李笛認(rèn)為,小冰內(nèi)部有一個比較好的狀態(tài),就是關(guān)心什么東西真正落地,而不是特別關(guān)心這個東西是否代表了學(xué)術(shù)聲望。“如果你做的人工智能總是在向別人表達你很智能,那意味著你把用戶的預(yù)期提升到非常高的位置,這意味著你的系統(tǒng)不允許犯錯,因為你已經(jīng)讓別人認(rèn)為(這個系統(tǒng))很有知識了,犯錯誤就可能誤導(dǎo)用戶。”
而小冰系統(tǒng)很多時候是在控制用戶的預(yù)期。“不要覺得它很智能。要去關(guān)心它其他方面的價值,往往這樣的系統(tǒng)反而存在得更久。”李笛認(rèn)為,其實從某種意義上來講,這也是其團隊做小冰的原因。
李笛回憶,最開始時,團隊想要做的是一個人工智能助理,“對助理來講,有用是他最重要的特點,我們那時候是這么認(rèn)為的”。
而在對一些優(yōu)秀的人類助理進行訪談后,李笛發(fā)現(xiàn),對于助理來講,最重要的事是和老板調(diào)整成一種合適的同事關(guān)系,這種同事關(guān)系必須讓老板認(rèn)為助理有自己的想法,會在一些合理的時機去拒絕。這樣的關(guān)系帶來的好處是,為自己的工作帶來更多的空間與余地,同時讓老板意識到助理不是命令處理器,而擁有做更多事情的能力。“這種關(guān)系是基于care(關(guān)心),他讓老板認(rèn)為助理所有謹(jǐn)慎的判斷是因為他care(關(guān)心)這個老板,所以他跟老板之間能夠產(chǎn)生共情與信任。”
圖片來源:每經(jīng)資料圖
帶著這樣的結(jié)論,小冰系統(tǒng)誕生了。李笛認(rèn)為,小冰關(guān)心的是整個對話全程,關(guān)心用戶在對話之后與人工智能之間建立了怎樣的關(guān)聯(lián)。“如果有人認(rèn)為小冰還挺逗的、不是特別以知識為主,但是很有意思,我沒事愿意跟它交流,有事問它,如果回答了而且很好,我會很驚喜,這個對系統(tǒng)來講是一個很有利的狀態(tài)。”
但李笛同時也坦言,產(chǎn)生似是而非的錯誤信息或者直接把對話向其他地方去遷移的情況,在小冰身上也很多。為此,小冰本身會給對話系統(tǒng)留下足夠高的彈性。李笛舉例,當(dāng)人工智能系統(tǒng)面對用戶的一些黃賭毒、色情等類型的問題時,系統(tǒng)要保護自己,而絕大部分的大模型,包括ChatGPT,它們注意到人類可能有一些不懷好意的問題時的回答直截了當(dāng):“我不想回答這個問題”。而這個回答,在小冰的評分體系里,會得到很低的得分。
在小冰的應(yīng)對策略中,不會直接向用戶表明不想回答問題,而是會選擇拋出一個新的對話,如果用戶成功與之展開新對話,則無形之中也化解了風(fēng)險。小冰也會觀察用戶是否進入新的對話,如果沒有,系統(tǒng)會開始嘗試降低回答的相關(guān)性。“我們寧愿讓用戶覺得你笨,放棄了攻擊你或者是讓你上鉤,也不愿意讓用戶覺得你很聰明地?fù)踝×怂ぐl(fā)了用戶挑戰(zhàn)的信心,換一個更難的方法來問你。”
在李笛看來,這是人工智能聊天機器人需要的取舍,因為人類與機器的交互絕不是單純考慮回答問題的相關(guān)度、任務(wù)的完成率,同時還有考慮下一輪對話可能的走向。
小冰的取舍與判斷依據(jù)來自其大數(shù)據(jù)與高交互量。“小冰一天的交互量相當(dāng)于14個人一輩子的交互量,它遇到的事情特別多,所以有很多機會去嘗試各種過程、策略是不是正確有效的。”但李笛同時也指出,對人工智能聊天機器人而言,單純的交互量無法提高訓(xùn)練質(zhì)量,大的訓(xùn)練數(shù)據(jù)、實時在線訓(xùn)練數(shù)據(jù)的獲得是一個很重要的壁壘,但它與高交互量還有本質(zhì)的區(qū)別。
如果大量的交互都是圍繞“開燈”、“關(guān)燈”這類簡單指令,實際上沒有訓(xùn)練價值。更為重要的應(yīng)當(dāng)是CPS(conversations per session),即AI與人一次對話的輪數(shù)。李笛介紹,小冰目前的CPS輪次已經(jīng)達到38輪。
除此之外,實際產(chǎn)品落地帶來的經(jīng)驗,人工智能安防的能力,對話內(nèi)容與聲音、視覺的配合所組成的完備框架,也共同構(gòu)成著小冰的壁壘。“我們有的時候會把單點技術(shù)和形成一個系統(tǒng)混淆起來,過于夸大一個單點技術(shù)所對應(yīng)的價值,這就有點像當(dāng)我們?nèi)ビ懻撘惠v汽車或者汽車工業(yè)時,會認(rèn)為發(fā)動機是關(guān)鍵,發(fā)動機確實是關(guān)鍵技術(shù)之一,但是很有可能最后是車身成為限制汽車工業(yè)能不能跑起來的最后的、真正的短板。”
在這一輪ChatGPT的狂歡浪潮中,有觀點認(rèn)為,其代表的是未來實現(xiàn)通用人工智能的一個可行路徑,即AI有可能由處理專一領(lǐng)域的問題向同時處理多領(lǐng)域問題轉(zhuǎn)變。
李笛則依舊對此持相對冷靜的態(tài)度。“它的優(yōu)化不是為了優(yōu)化到給你合適的知識,而是為了優(yōu)化到讓你認(rèn)為它有知識,它的對話中,(與其他聊天機器人相比)它增加的部分大量是在論證,由此讓你感覺到它很可靠。”
一個主流的觀點是,實現(xiàn)通用人工智能,是人工智能研究追求的目標(biāo)。
在李笛看來,AGI(通用人工智能)這個概念本身是模糊的,就像元宇宙概念本身是模糊的一樣。“有人認(rèn)為通用人工智能意味著人工智能需要有意識,知道自己在說什么,包括這次有很多人很興奮地說ChatGPT知道自己在說什么。并不是這樣的,它只是學(xué)會了如何去論證,但是顯然毫無疑問的,它不知道自己在說什么。”
李笛認(rèn)為,應(yīng)該更務(wù)實一些,一味地去追求這是不是通用人工智能或者是不是在走向通用人工智能的路上,本身意義不大,就像想要去追求一個系統(tǒng)是不是能夠有意識一樣。他認(rèn)為,更務(wù)實的角度是,應(yīng)該去追求人工智能是不是能夠真正在一個地方帶來效果。“如果是一個知識系統(tǒng),是否能夠準(zhǔn)確帶來知識;如果是一個陪伴系統(tǒng),它是否能夠真正地承擔(dān)起陪伴的責(zé)任。很糟糕的事情是,如果它是一個知識系統(tǒng),但它的知識并不準(zhǔn)確,如果它是一個陪伴系統(tǒng),但情商不夠。”
目前,小冰的人工智能聊天機器人已迭代到第九代夏語冰,已經(jīng)擁有了自己的臉、性格、立場、情緒、記憶甚至唱歌、畫畫、作詩等創(chuàng)造技能。
圖片來源:小冰公司官網(wǎng)
不過,在李笛看來,小冰依舊不是一個理想的聊天機器人。“今天整個行業(yè)包括我們,離人工智能輝煌的時代都還早,現(xiàn)在是一個蠻荒時代,我個人認(rèn)為這件事情我們是要做一輩子的,如果不是因為這個原因的話,我們也不會耐得住寂寞做這么久。”
李笛介紹,小冰每年都會提出一些重點的發(fā)展方向,最近這一年,小冰更多開始關(guān)注“多樣性”。當(dāng)其本身的框架已經(jīng)有能力去交互時,小冰發(fā)現(xiàn),不同的人在不同的位置或不同角色、不同情況下,所需要的交互對象是不同的。這個不同不僅僅是外觀、聲音的不同,還包括了性格、觀點,甚至創(chuàng)作的風(fēng)格,這是一個很高的多樣性。“知識有對錯,但觀念沒有,同時聊天機器人也不能對所有與觀念有關(guān)的事情,都表示無可置評,這就決定了聊天機器人一定是多樣性存在的。”
具體到不同領(lǐng)域的產(chǎn)品上,在對話層面,小冰將更關(guān)心100億規(guī)模參數(shù)級別大模型的實際落地和投入產(chǎn)出,而不是不關(guān)注成本地向前推進;在聲音上,小冰更關(guān)注聲音一致性,歌聲和說話與外形等混合在一起時,是不是能很好地體現(xiàn)出同一個人的一致性;在視覺層面,小冰則在推進神經(jīng)網(wǎng)絡(luò)渲染。
對于AI聊天機器人在虛擬員工之外,是否還有更多場景可能實現(xiàn)商業(yè)化落地,李笛認(rèn)為,基于小冰的框架誕生的AI聊天機器人,可能成為虛擬戀人,也可能是虛擬主持人、歌手,以及家庭場景中的虛擬老師、虛擬陪伴者……
這也是李笛所理解的“通用人工智能”。由一個框架訓(xùn)練出各種各樣、功能迥異的AI機器人,“他們都是基于同一個框架,但是在不同的領(lǐng)域發(fā)揮作用,這是我們所希望的通用,而不是知識層面的通用,因為那(本質(zhì)上)仍然是一個垂直領(lǐng)域”。
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP