国产成人精品免费视,91天堂嫩模在线播放,国产免费小视频在线观看,久久免费公开视频,国产成人精品免费视频网页大全,日韩不卡在线视频,视频一区二区精品的福利

<u id="duqgm"><object id="duqgm"></object></u>

每日經(jīng)濟新聞

要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

從根本上改變語言模型！全新架構(gòu)TTT超越Transformer和Mamba，長上下文中性能受限問題或被徹底解決，12人研究團隊中一半是華人

每日經(jīng)濟新聞 2024-07-10 13:07:41

◎ 斯坦福大學(xué)等高校以及Meta的學(xué)者提出了一種全新的大語言模型架構(gòu)，有望代替至今在AI領(lǐng)域如日中天的Transformer，性能也比Mamba更好。

每經(jīng)記者蔡鼎每經(jīng)編輯蘭素英

從2017年Google Brain團隊推出Transformer架構(gòu)逐步取代長短期記憶（LSTM）等“循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）模型”成為首選模型，到后來首個線性時間序列架構(gòu)Mamba推出又對Transformer架構(gòu)構(gòu)成挑戰(zhàn)，大語言模型底層架構(gòu)的迭代正在迅速改變?nèi)藗儗τ贏I的認(rèn)知和理解。

美東時間周一（7月8日）,一種全新的大語言模型（LLM）架構(gòu)有望代替至今在AI領(lǐng)域如日中天的Transformer，性能也比Mamba更好。

圖片來源：arXiv

在預(yù)印本網(wǎng)站arXiv上發(fā)布的一篇論文中，斯坦福大學(xué)、加州大學(xué)伯克利分校、加州大學(xué)圣地亞哥分校和Meta的學(xué)者提出了一種全新架構(gòu)，希望能用機器學(xué)習(xí)模型取代RNN的隱藏狀態(tài)。這個架構(gòu)通過對輸入token進行梯度下降來壓縮上下文，被稱為“測試時間訓(xùn)練層（Test-Time-Training layers，簡稱TTT層）”。“共同一作”加州大學(xué)伯克利分校的Karen Dalal表示，我相信這將從根本上改變語言模型。

但對于該論文，也有人提出質(zhì)疑，認(rèn)為只有30億~70億參數(shù)的可用演示模型才足以了解其實用性。

TTT-Linear 和 TTT-MLP 均能匹敵或擊敗Transformer和Mamba

過去這些年來，對大模型的研究和理解都繞不開“循環(huán)神經(jīng)網(wǎng)絡(luò)（下稱RNN）”。RNN是一種深度學(xué)習(xí)模型，由許多相互連接的組件組成，經(jīng)過訓(xùn)練后可以處理順序數(shù)據(jù)輸入并將其轉(zhuǎn)換為特定的順序數(shù)據(jù)輸出，例如將文本從一種語言翻譯成另一種語言。順序數(shù)據(jù)是指單詞、句子或時間序列數(shù)據(jù)之類的數(shù)據(jù)，其中的順序分量根據(jù)復(fù)雜的語義和語法規(guī)則相互關(guān)聯(lián)。

而“隱藏狀態(tài)”是RNN模型中的一個關(guān)鍵概念。它可以看作是網(wǎng)絡(luò)在每個時間步驟上的“記憶”，存儲了之前時間步驟中的信息，并通過時間在不同步驟之間傳遞。隱藏狀態(tài)可以捕捉到序列中的長期依賴性，從而使模型能夠理解整個序列的上下文。

在傳統(tǒng)的RNN中，隱藏狀態(tài)的固定大小表達能力受限，也不好并行訓(xùn)練。例如，像Mamba這樣的RNN層，會隨著時間的推移壓縮成一個固定大小的狀態(tài)，它們雖然效率很高，但性能受限于其表達能力。

該論文團隊的對TTT層的想法來自于：與其讓RNN隱藏狀態(tài)被動地儲存信息，不如讓它主動學(xué)習(xí)。作者們在論文中稱，他們設(shè)計的“TTT層”突破了“RNN層”在長上下文中性能受限的問題。

他們在1.25億~ 13億個參數(shù)規(guī)模的大模型上進行一系列的對比后發(fā)現(xiàn)，他們設(shè)計的TTT-Linear（線性模型）和TTT-MLP （注：MLP為多層感知器，是一種基于前饋神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型）均能匹敵或擊敗最強大的Transformers和 Mamba架構(gòu)方法。

論文稱，隱藏狀態(tài)時線性模型的TTT-Linear表現(xiàn)超過了Transformer和Mamba，用更少的算力達到更低的困惑度（下圖左），也能更好利用長上下文（下圖右）。此外，隱藏狀態(tài)時MLP模型的TTT-MLP在32k長上下文時表現(xiàn)還要更好。

圖片來源：arXiv

這不僅在理論上是線性的復(fù)雜度，而且實際運行時間也更快。

圖片來源：arXiv

12人團隊半數(shù)為華人，排首位的“共同一作”為斯坦福博士后

本篇論文一共有12名作者，有一半（6人）成員為華人。其中，排名第一的“一作”Yu Sun博士畢業(yè)于加州大學(xué)伯克利分校電氣工程與計算機科學(xué)系，目前是斯坦福大學(xué)的博士后，研究重點便是TTT的算法架構(gòu)。排在第二位的“一作”Xinhao Li為加州大學(xué)圣地亞哥分校研二學(xué)生，其研究集中在深度學(xué)習(xí)和計算機視覺，“三作”之一的Xiaolong Wang為其導(dǎo)師。

Yu Sun 圖片來源：個人主頁

論文稱，Yu Sun于2022年11月便開始和Xinhao Li做這個項目，2023年6月份開始進入全職工作狀態(tài)。Yu Sun提出了項目的概念框架，設(shè)計了小批量的TTT層和“雙重形式”，在他人的幫助下撰寫了論文，并領(lǐng)導(dǎo)了整個團隊的日常運作和實驗。

該研究“一作”之一、加州大學(xué)伯克利分校信息工程學(xué)系學(xué)生Karen Dalal在X上表示，他相信這將從根本上改變語言模型。他稱，“我們設(shè)計了一個新的架構(gòu)，用機器學(xué)習(xí)模型取代了RNN的隱藏狀態(tài)。該模型通過輸入標(biāo)記的實際梯度下降來壓縮上下文。我們將我們的方法稱為‘測試時間訓(xùn)練層’。TTT層通過表達性記憶解鎖了線性復(fù)雜性架構(gòu)，使我們能夠在上下文中用數(shù)百萬（有朝一日甚至數(shù)十億）個token來訓(xùn)練大語言模型。”

圖片來源：X

Karen Dalal還稱，“TTT-Linear已經(jīng)比最快的SSM（注：指‘狀態(tài)空間模型’）更快，并且在大小和上下文方面具有很強的可擴展性。這個架構(gòu)內(nèi)的探索空間是巨大的，我們的論文只是邁出了一小步。”

圖片來源：X

該論文的“三作”之一、加州大學(xué)伯克利分校博士后，現(xiàn)加州大學(xué)圣地亞哥分校電氣與計算機工程助理教授Xiaolong Wang則在X上激動地稱：“我真不敢相信這終于發(fā)生了。”

“TTT層理念是我們已經(jīng)研究了5年的架構(gòu)……今天的TTT和我剛開始做博士后研究的時候已經(jīng)完全不同了，它已經(jīng)是一個網(wǎng)絡(luò)層，用機器學(xué)習(xí)模型取代了RNN的隱藏狀態(tài)。我們的TTT層并不是使用特定的向量來表達記憶，而是維護一個小型神經(jīng)網(wǎng)絡(luò)來壓縮輸入標(biāo)記……這種架構(gòu)目前應(yīng)用于語言建模，但想象一下將其應(yīng)用于視頻。未來，在長視頻建模時，我們可以對幀進行密集采樣，而不是以1 FPS的速度采樣，這些密集的幀對Transformer架構(gòu)來說是負(fù)擔(dān)，但對TTT層來說卻是福音。因為它們本質(zhì)上只是在TTT內(nèi)訓(xùn)練更好網(wǎng)絡(luò)的‘時間增強’。”

圖片來源：X

《每日經(jīng)濟新聞》記者注意到，在Xiaolong Wang的推文下方，也有不少質(zhì)疑者，例如，一個名為John Bollenbacher的用戶稱，“這是一個有希望的跡象，但我認(rèn)為我需要看到2.5個以上的示例才能認(rèn)真對待。而一個30億~70億參數(shù)的可用演示模型才可以讓我們了解它的實用性。”

對此，Xiaolong Wang回復(fù)稱，“（我們正）朝著那個方向努力。我希望通過這個版本我們可以得到更多的計算……就目前而言，學(xué)術(shù)實驗室仍然很難訓(xùn)練70億參數(shù)的模型。”

圖片來源：X

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

大模型 Ai 研究

上一篇文章

防汛期間無人值班、干部脫崗飲酒，江西九江5人被查！

返回每經(jīng)網(wǎng)首頁

下一篇文章

印尼杜科諾火山噴發(fā) 火山灰柱高度達1200米

相關(guān)文章

熱文精選

點擊排行

歡迎關(guān)注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2025 每日經(jīng)濟新聞報社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會征信網(wǎng)

兒童色情信息舉報專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報中心

四川省互聯(lián)網(wǎng)舉報中心

中國互聯(lián)網(wǎng)舉報中心

每日經(jīng)濟新聞互聯(lián)網(wǎng)不良與違法信息舉報中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號：蜀ICP備19004508號-3 川公網(wǎng)安備 51019002002026號

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn