每日經(jīng)濟新聞 2024-09-30 09:51:46
◎近日,“2024開放原子開源生態(tài)大會”在北京舉行。會議現(xiàn)場,人工智能開源的利弊、為何開源等話題再次引發(fā)了與會企業(yè)家及學(xué)者的討論。有業(yè)內(nèi)人士表示,就大模型的發(fā)展來說,中文數(shù)據(jù),尤其是高質(zhì)量的中文數(shù)據(jù)還是很欠缺,開源則可彌補這個問題。
每經(jīng)記者 楊卉 每經(jīng)編輯 文多
大模型崛起以來,關(guān)于它是否要開源的討論就始終未停歇。Meta、谷歌、阿里云、零一萬物等“開源派”代表,陸續(xù)推出了各自的“開源”大模型,或采用Apache 2.0等常見的開源軟件許可證進行許可,或采用自行定制的模型許可證進行許可。OpenAI、字節(jié)跳動、百度等“閉源派”代表,則通過閉源形式研發(fā)自己的大模型,加速商業(yè)化進程。
伴隨開源陣營逐漸壯大,其生態(tài)也得以展現(xiàn)。近日,“2024開放原子開源生態(tài)大會”在北京舉行。會議現(xiàn)場,人工智能開源的利弊、為何開源等話題再次引發(fā)了與會企業(yè)家及學(xué)者的討論。模式之爭的背后,是關(guān)于如何平衡技術(shù)創(chuàng)新、商業(yè)利益、社區(qū)參與和市場競爭力的討論。
顧名思義,開源是指一種軟件開發(fā)模式,即源代碼免費公布,開發(fā)者可自由下載、修改、分發(fā),進而反饋軟件Bug(軟件缺陷或錯誤),提出優(yōu)化建議。從目前我國的開源進展來看,根據(jù)工業(yè)和信息化部部長金壯龍在會議期間的介紹,近年來,中國扎實構(gòu)建國內(nèi)開源體系,支持設(shè)立開放原子開源基金會,搭建起國內(nèi)外交流、產(chǎn)學(xué)研合作的重要平臺。其中,開源歐拉社區(qū)匯聚貢獻者2萬余人,用戶數(shù)量超過350萬;開源鴻蒙項目吸引340余家生態(tài)單位共建,搭載設(shè)備數(shù)量超過9億臺,木蘭中文開源許可協(xié)議實現(xiàn)國際通用。目前,我國開源參與者數(shù)量、增長速度均位居世界前列。
開源模型,是指可免費使用、公布了模型參數(shù)等技術(shù)細節(jié)的模型。開放原子開源基金會在此次大會期間正式發(fā)布了開放原子模型許可證第一版(OpenAtom Model License, Version 1.0),可為大模型應(yīng)用提供由基金會中立維護、任何人均可自由選用的開放許可證。
在中國科學(xué)院軟件研究所副總工江大勇看來,自1991年Linux創(chuàng)始人首次發(fā)布其操作系統(tǒng)版本以來,系統(tǒng)已從最初的僅含1萬行代碼,發(fā)展到如今的內(nèi)核規(guī)模達3000萬行代碼,展現(xiàn)了開源軟件的生機與潛力。
“GPT發(fā)展這么快速,單月就發(fā)展到億級用戶,這是歷史上從來沒有的。它為什么能夠發(fā)展這么快?很關(guān)鍵的原因是開源推動快速迭代、快速試錯。”在江大勇看來,通過開源的方式實現(xiàn)快速迭代試錯,也是AI的主流技術(shù)路線之一。
開放原子開源基金會秘書長助理兼運營部部長李博也認為,開源正逐漸成為推動AI技術(shù)進步的重要途徑,開源數(shù)據(jù)集的提供降低了研究和應(yīng)用的門檻,使得更多的研究人員、初創(chuàng)公司能夠參與到人工智能的研究之中,共享數(shù)據(jù)、共擔(dān)算力、共建算法。
不過,開源和閉源究竟哪個所需的成本更低,業(yè)內(nèi)始終爭論不休。今年4月,百度創(chuàng)始人李彥宏曾公開表示:“大家以前用開源覺得開源便宜,其實在大模型場景下,開源是最貴的。”
在江大勇看來,大模型時代與過去工業(yè)時代“十年磨一劍”不同,如今通過開源的方式可更快實現(xiàn)自身的產(chǎn)品迭代和生態(tài)覆蓋,解決單一主體創(chuàng)新成本過高的問題。“開源后每個人的智能結(jié)合在一起,會出現(xiàn)(智力)涌現(xiàn),這也是大模型的特點。通過去中心化的協(xié)作,激發(fā)各主體創(chuàng)新效率和創(chuàng)新質(zhì)量。”江大勇稱。
與會期間,不少企業(yè)及專家還表示,其實人工智能開源是很多企業(yè)基于實際情況必須做出的選擇。
中國電信天翼云產(chǎn)品專家、魔樂社區(qū)負責(zé)人李寶龍就直言,在國內(nèi)做人工智能,首先要面對AI中文可用資源匱乏的問題。“不是AI中文資源匱乏,是可用資源匱乏。舉個例子,前段時間GPT出來的時候,國內(nèi)訓(xùn)練了一個大模型并開放出來測試,但是需要輸入中文以后翻譯成英文,生成后再翻譯回中文。”
北京智源研究院副院長林泳華也表示,就大模型的發(fā)展來說,中文數(shù)據(jù),尤其是高質(zhì)量的中文數(shù)據(jù)還是很欠缺,開源則可彌補這個問題。
除了訓(xùn)練數(shù)據(jù)不足,江蘇潤開鴻數(shù)字科技有限公司副總裁于大伍介紹,從計算架構(gòu)來看,當(dāng)下AI發(fā)展面臨三個困境——訓(xùn)練與推理高能耗、計算架構(gòu)與軟硬件生態(tài)封閉、算力系統(tǒng)復(fù)雜度高,這導(dǎo)致投入產(chǎn)出比低。與此同時,操作系統(tǒng)還面臨著重、笨、雜的問題。
“我們私底下在想該怎么解決這些問題,想了很多辦法,最后我們覺得,一個比較好的載體是社區(qū)。”于大伍表示。
不過,談到做社區(qū),業(yè)內(nèi)不少人認為,社區(qū)形式無法讓AI技術(shù)快速變現(xiàn),會影響商業(yè)化。對此,于大伍持有不同觀點。
“其實大家做開源就知道,開源跟商業(yè)是螺旋向上的發(fā)展(關(guān)系),所以社區(qū)一定要跟商業(yè)很好地結(jié)合。我們現(xiàn)在想的是,社區(qū)匯聚了國產(chǎn)AI全產(chǎn)業(yè)鏈的能力,但社區(qū)不提供商業(yè)化的服務(wù),而是依托成員單位提供這樣的服務(wù)。在這種感召下,會有很多的開發(fā)者愿意分享。”于大伍說。
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP