每日經(jīng)濟新聞 2023-09-27 23:24:56
◎天壤創(chuàng)始人、CEO薛貴榮表示:別把大模型神話,最好把它分拆下來,分成10步走,它就會非常好。通過這一輪大模型的輸出,變成下一輪的輸入,變成下一輪提示詞的一部分,你能拿到更好的結(jié)果。
每經(jīng)記者 朱成祥 每經(jīng)編輯 張海妮
近日,天壤創(chuàng)始人、CEO薛貴榮在位于上海徐匯濱江的天壤總部接受了《每日經(jīng)濟新聞》記者的專訪。
天壤創(chuàng)立于2016年,幾年間,從AI圍棋到用AI分析蛋白質(zhì)結(jié)構(gòu),乃至設(shè)計蛋白質(zhì),天壤一直緊跟AI發(fā)展的潮流。進(jìn)入大模型時代,在2023世界人工智能大會上,天壤也連發(fā)三款大模型產(chǎn)品。
如何使如今QA(一問一答)形式的大模型更容易使用呢?薛貴榮表示:“要把它(大模型)變成一個企業(yè)可用的東西,還需要加一層所謂的操作系統(tǒng)。目前大語言模型能跟人對話,已經(jīng)很好了。但真正商用,還缺一層操作系統(tǒng)。”
圖片來源:每經(jīng)記者 劉雪梅 攝(資料圖)
很多人第一次被AI震撼,是來自于其在圍棋領(lǐng)域的表現(xiàn)。
堯造圍棋,以教子丹朱。自圍棋發(fā)明以來,在這縱橫19路的棋盤上,上演了許多可歌可泣的故事。但這些故事,都是發(fā)生在人與人之間。
直到2016年3月,谷歌旗下DeepMind公司研發(fā)的“AlphaGo”與曾經(jīng)的一代王者李世石激戰(zhàn)5盤,最終以4:1獲勝。人工智能第一次在圍棋項目上,戰(zhàn)勝了人類頂尖職業(yè)棋手。
這鼓舞了無數(shù)AI人。“當(dāng)時大家都在想,是不是逼近了通用人工智能(AGI)。”薛貴榮回憶。
但很快,薛貴榮就發(fā)現(xiàn)AlphaGo這類模型的局限性,“那時我們做了一段時間,發(fā)現(xiàn)它的領(lǐng)域還是相對有限,是非常特定領(lǐng)域的小問題。相對于通用人工智能,還是比較小眾。”
因此,薛貴榮認(rèn)為,這個東西(AlphaGo)可能是通用人工智能的起點。從算法角度,叫深度學(xué)習(xí)+強化學(xué)習(xí)。“我覺得這兩者(深度學(xué)習(xí)+強化學(xué)習(xí))結(jié)合起來,能夠適應(yīng)環(huán)境的變化,算法能夠作出自身的反應(yīng)。”
于是,類似于AlphaGo的天壤AI圍棋誕生。記者查詢天壤官方微信發(fā)現(xiàn),在2018年5月第一屆2050大會上,天壤AI圍棋擊敗了世界圍棋冠軍樸廷桓。
薛貴榮也講述了彼時的研發(fā)難度:一方面,算法的能力還比較有限,類似Transformer這樣的架構(gòu)還未出現(xiàn);其次算力水平也比較低,當(dāng)時天壤買了很多V100;此外還有系統(tǒng)難題,分布式超大模型的訓(xùn)練還沒有搞定。
對于系統(tǒng)難題,其詳細(xì)解釋道:“直白一點,現(xiàn)在就是給你100塊卡,讓你去訓(xùn)練一個大的模型,你都算不出來。因為那時(指2017年、2018年)網(wǎng)絡(luò)、訓(xùn)練體系都偏向于(用)一臺機器處理。這里面我們碰到非常多的系統(tǒng)問題,比如模型需要來回不斷傳輸,怎么把模型從這臺機器搬到另一臺機器。”
在算力有限、算法水平有限以及面臨眾多系統(tǒng)問題的背景下,天壤依然突破了AI圍棋模型。但這個過程也讓薛貴榮團隊認(rèn)識到,通用人工智能可能真的要等一等。
“2018年,我們那時的結(jié)論是,得稍微等一等,這個技術(shù)沒有那么成熟,推動會很費力。”
這時,DeepMind推出了蛋白質(zhì)預(yù)測模型AlphaFold。于是,天壤把方向轉(zhuǎn)向蛋白質(zhì)結(jié)構(gòu)分析。
在研究分析蛋白質(zhì)結(jié)構(gòu)的同時,天壤也緊盯著AI發(fā)展潮流。薛貴榮說道:“我們一直Follow(跟隨)兩家實驗室,DeepMind和OpenAI。因為這兩家實驗室的理念是一致的,即走向AGI(通用人工智能)。DeepMind是AI for Science,更偏研究性;而OpenAI更偏向工程化。”
2022年初,薛貴榮認(rèn)為其蛋白質(zhì)分析已經(jīng)基本成型。在此背景下,天壤希望迎接全新的挑戰(zhàn)。于是,在研究了OpenAI的GPT后,把關(guān)注點投向大語言模型。
關(guān)于大模型,薛貴榮給出了他的見解。未來,大模型或許能通過提示詞直接生成文章。但是目前,有人寫了1000字的提示詞,仍然無法控制文章生成自己想要的方向。
對此,薛貴榮表示:“這種應(yīng)用還是比較樸素的。我說的樸素是指,只是寫了提示詞,一下子(讓大模型)把文章搞出來。人做事都不是這樣子的。人類要是寫文章,首先是查詢資料;其次是資料整合;第三開始寫;第四修改。目前大模型沒有這方面(的)能力。”
薛貴榮也給出了他的解決方案:“首先幫你查資料;第二幫你整理資料;第三是擬文章的脈絡(luò);第四把內(nèi)容放進(jìn)來,再去適當(dāng)潤色;第五再檢查。”
其強調(diào)稱:“大語言模型的兩大準(zhǔn)則,第一要盡可能清晰明了,不要帶很多假設(shè)讓它做事。你如果想假設(shè),就把假設(shè)寫進(jìn)去。第二,要給大模型時間思考。如果希望大模型一次性出結(jié)果,就沒有給它提供足夠的思考時間。”
薛貴榮進(jìn)一步表示:“大家別把大模型神話,最好把它分拆下來,分成10步走,它就會非常好。”
簡而言之,通過大模型撰寫稿件,不要追求一步到位。
薛貴榮表示:“我們現(xiàn)在碰到企業(yè),很多都希望一步到位。這是大家的理想。實際上,把問題分拆,會拿到更好的結(jié)果。比如說,1000多字的提示詞,這么長的提示詞本身就存在邏輯不自洽的東西。你寫(提示詞)的時候沒有感覺,但是從模型的角度一定會發(fā)現(xiàn)邏輯不自洽的東西。”
那么,是否可以通過連續(xù)提問,強化大模型對上下文的理解呢?對此,薛貴榮表示認(rèn)可,并介紹了另一種方案。“通過這一輪大模型的輸出,變成下一輪的輸入,變成下一輪提示詞的一部分,你能拿到更好的結(jié)果。”
對于如果使用大模型撰稿,薛貴榮認(rèn)為應(yīng)分三步走。第一步,先做Planning(規(guī)劃過程);第二步梳理文章提綱;第三步,往里填充內(nèi)容。但大部分都是機器完成,不是由作者完成,作者只是Planning。
薛貴榮笑稱:“其實我們?nèi)祟悾龊芏嗍虑槭怯蠵lanning的,但當(dāng)我們把問題給到GPT上,就變成一個QA。QA和Planning是兩回事,QA能解決一個Planning的事嗎?本來思維就是很復(fù)雜的事,你不能通過一個QA(解決問題),應(yīng)該變成10次,甚至更多。”
記者想通過大模型解決寫文章的問題,企業(yè)同樣希望通過大模型獲得價值。“我覺得本質(zhì)問題就是(大模型)對我們的價值。大模型一定要有用,而且要有核心的價值。”薛貴榮總結(jié)道。
但目前的大模型,仍然缺乏落地的應(yīng)用。薛貴榮描述道:“今年ChatGPT確實提供了(AI)大腦。但只有一個腦,那是個植物人。今天的大語言模型,我覺得一定程度上,還得配上手和腳,還得有個軀干。目前大模型沒有軀干,沒有手、沒有腳。”
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP