国产成人精品免费视,91天堂嫩模在线播放,国产免费小视频在线观看,久久免费公开视频,国产成人精品免费视频网页大全,日韩不卡在线视频,视频一区二区精品的福利

每日經(jīng)濟(jì)新聞

要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

巖山科技攜子公司突圍國產(chǎn)大模型 Yan架構(gòu)能成Transformer的挑戰(zhàn)者嗎？

每日經(jīng)濟(jì)新聞 2024-01-25 21:57:49

◎2024年剛剛開始，自研架構(gòu)的進(jìn)一步涌現(xiàn)給新一年的大模型賽道帶來了更多的不確定性和新的可能性。Yan架構(gòu)的大模型去除了Transformer中高成本的注意力機(jī)制，代之以計算量更小、難度更低的線性計算，提高了建模效率和訓(xùn)練速度，實現(xiàn)了效率的提升和成本的降低。

每經(jīng)記者陳婷每經(jīng)編輯劉雪梅

百模大戰(zhàn)中，玩家的角逐方式越來越多樣化。

1月24日，巖芯數(shù)智正式發(fā)布了國內(nèi)首個非Attention機(jī)制的通用自然語言大模型——Yan模型，據(jù)《每日經(jīng)濟(jì)新聞》記者了解，這是業(yè)內(nèi)少有的非Transformer架構(gòu)大模型。

資料顯示，上海巖芯數(shù)智人工智能科技有限公司（以下簡稱“巖芯數(shù)智”），是巖山科技（002195，SZ）旗下子公司，是一家以認(rèn)知智能為基礎(chǔ)、專注于自然語言理解及人機(jī)交互等核心技術(shù)的創(chuàng)新型企業(yè)。此前，巖芯數(shù)智已自研自建了百億級參數(shù)的自有模型。

上市公司成立子公司突圍國產(chǎn)大模型的情況不算特別，但巖芯數(shù)智在大模型賽道上的發(fā)展路徑卻比較少見。

Transformer是當(dāng)下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基礎(chǔ)架構(gòu)，是大多數(shù)大模型的“內(nèi)核”。在Transformer已經(jīng)占據(jù)人工智能領(lǐng)域半壁江山的今天，巖芯數(shù)智卻選擇了另辟蹊徑，轉(zhuǎn)而尋求非Transformer的更多可能性。

作為行業(yè)內(nèi)少有的非Transformer大模型，Yan模型用全新自研的“Yan架構(gòu)”代替Transformer架構(gòu)。

巖芯數(shù)智董事長陳代千在接受《每日經(jīng)濟(jì)新聞》記者專訪時表示，雖然大模型的熱度在去年才因為GPT升溫，但YAN團(tuán)隊早在三年前就已經(jīng)開始布局、落地非transformer架構(gòu)相關(guān)的事情。

“我們認(rèn)為通往通用人工智能道路肯定不止一條，道路之間也互有利弊，探索過程中也充滿不確定性。”陳代千說。

換一條路走

聊大模型，很難不提及Transformer。甚至可以說，Transformer的出現(xiàn)是深度學(xué)習(xí)歷史長河中的一個里程碑。

中科深智創(chuàng)始人兼CEO成維忠便曾在接受《每日經(jīng)濟(jì)新聞》記者專訪時表示，早期，可選擇可嘗試的路很多，“一直到2017年谷歌推出Transformer，我們找到了方向，慢慢道路就清晰了。”成維忠提到，ChatGPT的底層技術(shù)也是Transformer，“當(dāng)時，谷歌基于Transformer做了很多demo，我們也很興奮，慢慢就把精力聚焦到這個方向上。”

記者了解到，憑借著其強大的自然語言理解能力，Transformer在問世的短短幾年內(nèi)便取代了傳統(tǒng)的RNN網(wǎng)絡(luò)結(jié)構(gòu)，不僅成為自然語言處理領(lǐng)域的主流模型架構(gòu)，還在計算機(jī)視覺、語音識別等多個領(lǐng)域展示了其跨界的通用能力。

巖芯數(shù)智CEO劉凡平在發(fā)布會上的演講中提及了大模型賽道的現(xiàn)狀。

他表示，目前主流的大模型系列有三個：OpenAI的GPT系列、Meta的LLaMa系列、Google的PaLM系列。

劉凡平表示，“國內(nèi)的大模型基本都延續(xù)了這三個系列，或是它們的一個子版本演變而來。這三個系列都是基于Transformer架構(gòu)衍生而來，成為大模型的支柱。”

劉凡平提到，百花齊放是“百模大戰(zhàn)”的表現(xiàn)，千篇一律是因為大家都是（基于）Transformer架構(gòu)的。

即便Transformer架構(gòu)已經(jīng)成為主流，但在部分業(yè)內(nèi)人士看來，Transformer并非完美。

以劉凡平為例，作為前百度資深工程師，劉凡平從中國科學(xué)技術(shù)大學(xué)畢業(yè)后，一路成為上海市科技專家?guī)鞂＜?，還出版過多本技術(shù)作品。

他指出，以大規(guī)模著稱的Transformer，在實際應(yīng)用中的高算力和高成本，讓不少中小型企業(yè)望而卻步。其內(nèi)部架構(gòu)的復(fù)雜性，讓決策過程難以解釋；長序列處理困難和無法控制的幻覺問題也限制了大模型在某些關(guān)鍵領(lǐng)域和特殊場景的廣泛應(yīng)用。

在他看來，隨著云計算和邊緣計算的普及，行業(yè)對于高效能、低能耗AI大模型的需求正不斷增長。

劉凡平提到，在全球范圍內(nèi)，一直以來都有不少優(yōu)秀的研究者試圖從根本上解決對Transformer架構(gòu)的過度依賴，尋求更優(yōu)的替代辦法。

或許是基于種種考量，巖芯數(shù)智走了另一條路。陳代千對記者透露，CEO劉凡平和他的團(tuán)隊拍板了這一路線。

“很多事情我覺得是一個自然而然的過程，大家在想怎么去優(yōu)化這個Transformer結(jié)構(gòu)的時候，自然會覺得我們是不是要換條路走。”陳代千說。

1月24日，巖芯數(shù)智舉辦“新架構(gòu)，新模力”大模型發(fā)布會圖片來源：每經(jīng)記者陳婷攝

為落地而生？

事實上，劉凡平及團(tuán)隊并非一開始就打定了主意要放棄Transformer架構(gòu)。

劉凡平對記者表示，Transformer架構(gòu)的主要問題在于訓(xùn)練成本太高了，交付成本也高，成本難以覆蓋客戶的付費，需要降低邊際成本。

他對記者表示：“這種情況下，如果我們自己一直做下去，我們做一單虧一單。解決這個問題也不容易，從早期的基于Transformer架構(gòu)、改進(jìn)Transformer架構(gòu)，到放棄Transformer架構(gòu)，這是一個漫長的過程。”

在很長一段時間，劉凡平和團(tuán)隊一方面改進(jìn)Transformer架構(gòu)，另一方面嘗試新的模型架構(gòu)。

巖芯數(shù)智的研究團(tuán)隊歷經(jīng)1000多個日夜，超過幾百次的設(shè)計、修改、優(yōu)化、對比、重來，研發(fā)出了“Yan架構(gòu)”，基于Yan架構(gòu)的通用大模型也應(yīng)運而生。

作為非Transformer架構(gòu)大模型，巖芯數(shù)智發(fā)布的Yan模型有什么特別之處嗎？

據(jù)巖芯數(shù)智方面介紹，Yan模型同時具備了私密化、經(jīng)濟(jì)化、精準(zhǔn)化和實時性、專業(yè)性、通用性等六大商業(yè)化落地能力，是“為落地而生”。

記者從巖芯數(shù)智方面了解到，Yan架構(gòu)的大模型去除了Transformer中高成本的注意力機(jī)制，代之以計算量更小、難度更低的線性計算，提高了建模效率和訓(xùn)練速度，實現(xiàn)了效率的提升和成本的降低。

除了成本更低之外，Yan模型的運行門檻也更低。

據(jù)了解，當(dāng)下，許多大模型會通過剪枝、壓縮等主流技術(shù)手段來實現(xiàn)在設(shè)備上的運行，而Yan模型100%支持私有化部署應(yīng)用，不經(jīng)裁剪和壓縮即可在主流消費級CPU等端側(cè)設(shè)備上無損運行。

無論如何，Yan架構(gòu)和Yan模型究竟還有多大的潛能，還需要業(yè)內(nèi)給出公允的評價，更需要市場來檢驗。

在商業(yè)化前景上，劉凡平對記者透露，公司已有的客戶是一些大型企業(yè)，“有了Yan之后，我們會延伸到中小企業(yè)中去，在更低的成本下使用AI服務(wù)。同時由于Yan可以在CPU上正常應(yīng)用，所以我們也把一些隱私性較強的場景納入我們的落地范圍。”

此外，劉凡平表示，Yan模型除了面對中小B客戶之外，也會選擇離線、隱私性較強的場景。在他看來，Yan既可以面向B端客戶，也可以面向C端客戶。

陳代千還向記者提及，巖芯數(shù)智正在考慮海外布局。與此同時，巖芯數(shù)智在未來也有吸納外部融資的可能性。

“首先是考慮（海外）客戶端，融資的話，我們也不會排斥是國內(nèi)投資人還是海外投資人，我們會先以應(yīng)用和客戶為出海落腳點。”陳代千說。

會出現(xiàn)更多的自研架構(gòu)嗎？

2023年將是大模型賽道更為火熱的一年，有了Yan架構(gòu)“打頭陣”，市面上會出現(xiàn)更多的自研大模型架構(gòu)嗎？

深度科技研究院院長張孝榮對《每日經(jīng)濟(jì)新聞》記者表示，過去，國內(nèi)發(fā)布的大模型多基于Transformer架構(gòu)，原因可能在于Transformer是開源架構(gòu)，并且已經(jīng)在自然語言處理領(lǐng)域得到了廣泛的應(yīng)用和驗證（可用，能用）。

在張孝榮看來，大模型架構(gòu)的研發(fā)曠日持久，2024年，有可能會出現(xiàn)少數(shù)幾個新模型，但很難會出現(xiàn)更多自研的大模型架構(gòu)。

北京市社會科學(xué)院管理研究所副研究員王鵬對《每日經(jīng)濟(jì)新聞》記者表示，國內(nèi)自研的大模型架構(gòu)的前景是非常值得期待的。

王鵬認(rèn)為，隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展，Transformer架構(gòu)雖然取得了很大的成功，但也存在一些固有的問題和限制。因此，探索新的架構(gòu)和思路，有望為自然語言處理領(lǐng)域注入新的活力和創(chuàng)新。

“過去，國內(nèi)發(fā)布的大模型多以Transformer為基礎(chǔ)，主要是因為Transformer在自然語言處理領(lǐng)域取得了非常顯著的效果，并且得到了廣泛的應(yīng)用和驗證。此外，Transformer架構(gòu)也相對成熟和穩(wěn)定，有較高的可靠性和易用性。但是，隨著技術(shù)的不斷發(fā)展和需求的不斷變化，自研大模型架構(gòu)的需求和重要性也逐漸凸顯出來。”王鵬說。

王鵬認(rèn)為，2024年是否會出現(xiàn)更多自研的大模型架構(gòu)取決于多個因素的綜合影響。一方面，隨著技術(shù)的不斷進(jìn)步和創(chuàng)新，自研大模型架構(gòu)的可行性和優(yōu)勢會逐漸增加；另一方面，市場需求和應(yīng)用場景的變化也會影響大模型架構(gòu)的選擇和發(fā)展方向。

“因此，未來自研大模型架構(gòu)的發(fā)展還需要根據(jù)實際情況進(jìn)行觀察和分析。”王鵬說。

值得思考的是，采用Transformer還是自研架構(gòu)，對相關(guān)企業(yè)的未來發(fā)展是否會產(chǎn)生深遠(yuǎn)影響？

張孝榮認(rèn)為，在發(fā)展路徑上，企業(yè)選擇使用Transformer架構(gòu)還是自研架構(gòu)，可能會根據(jù)不同的應(yīng)用場景和需求出現(xiàn)顯著區(qū)別，“一方面，自研架構(gòu)可能為企業(yè)提供更定制化的服務(wù)，更好地滿足特定需求；另一方面，自研架構(gòu)的開發(fā)和維護(hù)可能需要更多的資源投入。因此，企業(yè)在選擇架構(gòu)時需要權(quán)衡各種因素，包括技術(shù)成熟度、研發(fā)成本、市場需求等。”

王鵬則對記者表示，在大模型的架構(gòu)選擇方面，運用Transformer還是自研，企業(yè)在發(fā)展路徑上可能會出現(xiàn)顯著區(qū)別。他認(rèn)為，一方面，采用Transformer架構(gòu)可以快速搭建和訓(xùn)練大模型，并利用現(xiàn)有的工具和資源進(jìn)行優(yōu)化和調(diào)整；另一方面，自研大模型架構(gòu)可以更好地滿足特定應(yīng)用場景的需求，提高模型的性能和效果。

“企業(yè)在選擇大模型架構(gòu)時需要根據(jù)自身的實際情況和需求進(jìn)行綜合考慮和權(quán)衡。同時，無論采用何種架構(gòu)，都需要注重模型的可解釋性、魯棒性和可擴(kuò)展性等方面的問題，以確保模型的穩(wěn)定性和可靠性。”王鵬說。

2024年剛剛開始，自研架構(gòu)的進(jìn)一步涌現(xiàn)給新一年的大模型賽道帶來了更多的不確定性和新的可能性。長期來看，Transformer大概率不是大模型的“唯一解”，但其已經(jīng)在業(yè)內(nèi)收獲了廣泛的應(yīng)用和驗證，對于Transformer的挑戰(zhàn)者來說，發(fā)布自研架構(gòu)也不過是踏出了“萬里長征”的第一步。

封面圖片來源：公司官網(wǎng)

如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

大模型 Ai GPT 人工智能

上一篇文章

四川路橋間接參股公司1515.26萬元項目環(huán)評獲原則同意

返回每經(jīng)網(wǎng)首頁

下一篇文章

基金經(jīng)理“過年”了！今天跌超1%的產(chǎn)品僅有3只

相關(guān)文章

熱文精選

點擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2024 每日經(jīng)濟(jì)新聞報社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會征信網(wǎng)

兒童色情信息舉報專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報中心

四川省互聯(lián)網(wǎng)舉報中心

中國互聯(lián)網(wǎng)舉報中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號：蜀ICP備19004508號-3 川公網(wǎng)安備 51019002002026號

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn