国产成人精品免费视,91天堂嫩模在线播放,国产免费小视频在线观看,久久免费公开视频,国产成人精品免费视频网页大全,日韩不卡在线视频,视频一区二区精品的福利

每日經(jīng)濟(jì)新聞
要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

DeepSeek放大招!開(kāi)源“新星”FlashMLA登場(chǎng):大模型效率革命能否破解“AI芯片荒”?

每日經(jīng)濟(jì)新聞 2025-02-25 21:17:40

2月24日,DeepSeek發(fā)布首個(gè)開(kāi)源項(xiàng)目FlashMLA,該項(xiàng)目適用于Hopper GPU的高效MLA解碼內(nèi)核。有觀點(diǎn)認(rèn)為,目前限制DeepSeek推理的主要瓶頸就是顯存,F(xiàn)lashMLA則是“以算代存”。PPIO派歐云王聞?dòng)钪赋?,DeepSeek模型與其他主流模型相比參數(shù)量更大,決定了其需要更大容量顯存以加載模型權(quán)重,顯存容量是門檻,不是瓶頸。

每經(jīng)記者 朱成祥    每經(jīng)編輯 魏官紅    

2月24日上午,DeepSeek(深度求索)發(fā)布首個(gè)開(kāi)源項(xiàng)目FlashMLA。根據(jù)DeepSeek在GitHub社區(qū)披露的信息,F(xiàn)lashMLA是適用于Hopper GPU(一種英偉達(dá)圖形處理器架構(gòu))的高效MLA(多頭潛注意力)解碼內(nèi)核,針對(duì)可變長(zhǎng)度序列服務(wù)進(jìn)行了優(yōu)化。在H800(一款英偉達(dá)芯片)上可以實(shí)現(xiàn)每秒處理3000GB(千兆字節(jié))數(shù)據(jù),每秒執(zhí)行580萬(wàn)億次浮點(diǎn)運(yùn)算。

有業(yè)內(nèi)觀點(diǎn)認(rèn)為,目前限制DeepSeek推理的主要瓶頸就是顯存,F(xiàn)lashMLA則是“以算代存”,可解決推理過(guò)程中顯存容量不足的問(wèn)題。

對(duì)此,PPIO派歐云聯(lián)合創(chuàng)始人兼CTO王聞?dòng)罡嬖V《每日經(jīng)濟(jì)新聞》記者:“(該觀點(diǎn))不完全正確,MLA的本質(zhì)是在基礎(chǔ)算法上的創(chuàng)新,通過(guò)將KV的權(quán)重矩陣轉(zhuǎn)換到潛空間,實(shí)現(xiàn)矩陣的大幅壓縮并且不造成精度損失。壓縮算法會(huì)引入微弱的計(jì)算量的增加,但是由此帶來(lái)的數(shù)據(jù)存儲(chǔ)開(kāi)銷大幅下降,訓(xùn)練及推理速度大幅提升,需要計(jì)算的數(shù)據(jù)總量減少了,總計(jì)算量反而減少了,相應(yīng)的訓(xùn)練和推理速度就會(huì)大幅提高。”

顯存容量成門檻

當(dāng)下,外界普遍使用顯存來(lái)測(cè)算部署DeepSeek各類模型所需要的推理算力。比如根據(jù)民生證券研報(bào),像DeepSeek-R1一個(gè)專注于實(shí)時(shí)推理的優(yōu)化版本,擁有15B參數(shù),推理時(shí)激活全部15B參數(shù),顯存需求約為30GB(FP16精度),單張NVIDIA A100(英偉達(dá)顯卡)或單張RTX 4090(英偉達(dá)消費(fèi)級(jí)顯卡)等顯卡可滿足需求。

像DeepSeek 67B是一個(gè)擁有67B參數(shù)的大型模型,推理時(shí)激活全部67B參數(shù),顯存需求約為140GB(FP16精度)。推薦使用4張A100-80G GPU進(jìn)行多卡并行推理。

照此計(jì)算,DeepSeek R1“滿血版”擁有671B參數(shù),在FP16精度下,需要1.4TB(太字節(jié))顯存;在FP8精度下,也需要約700GB顯存。如果按照一個(gè)服務(wù)器8張卡計(jì)算,單卡80GB的8卡服務(wù)器滿足不了“滿血版”的推理工作,可能需要多個(gè)服務(wù)器互連。

關(guān)于顯存是否為限制DeepSeek推理的主要瓶頸,王聞?dòng)钫J(rèn)為:“DeepSeek模型與其他主流模型相比,參數(shù)量更大,決定了其需要更大容量顯存以加載模型權(quán)重,顯存容量是門檻,不是瓶頸。”

那么,參數(shù)量小得多的蒸餾模型是否滿足應(yīng)用需求?王聞?dòng)畋硎荆?ldquo;蒸餾版本與滿血版本相比,參數(shù)量少很多,比如Qwen-7B,只有滿血版671B的百分之一,參數(shù)量少,導(dǎo)致在模型性能上遠(yuǎn)弱于滿血版,如何選擇模型取決于實(shí)際的應(yīng)用場(chǎng)景,要求高的場(chǎng)景可能無(wú)法用蒸餾版本來(lái)滿足。”

一位不愿具名的算力芯片廠商高管對(duì)《每日經(jīng)濟(jì)新聞》記者表示:“AI行業(yè)從業(yè)者,不管是哪個(gè)環(huán)節(jié)的,包括模型公司、AI芯片公司等,都是圍繞一個(gè)三角形來(lái)做的,三角形的三個(gè)角分別是提高價(jià)值,提高或者保持用戶體驗(yàn),維持或者降低使用成本??提高價(jià)值就是要能解決更多問(wèn)題,能解決更難的問(wèn)題;模型規(guī)模起來(lái)后,一般來(lái)說(shuō)會(huì)降低用戶體驗(yàn)、提高成本??所以大家都在這個(gè)三角形中螺旋式地往上爬。”

圖片來(lái)源:受訪對(duì)象提供

大模型效率革命?

而FlashMLA,正是在大模型規(guī)模變大、能力變強(qiáng)后,在不降低用戶體驗(yàn)的基礎(chǔ)上降低成本。

根據(jù)民生證券研報(bào),傳統(tǒng)計(jì)算方式存在KV(鍵值)矩陣重復(fù)計(jì)算的問(wèn)題,這不僅浪費(fèi)了大量的計(jì)算資源,還會(huì)導(dǎo)致顯存消耗過(guò)大,影響模型的運(yùn)行效率。而MLA技術(shù)解決了這個(gè)難題,它通過(guò)獨(dú)特的算法設(shè)計(jì),減少了對(duì)KV矩陣的重復(fù)計(jì)算,大大降低了顯存的消耗。

需要注意的是,目前FlashMLA適配的是英偉達(dá)Hopper架構(gòu)的GPU。若FlashMLA在CUDA生態(tài)大幅減少對(duì)顯存的占用,那么未來(lái)應(yīng)用到國(guó)內(nèi)算力芯片領(lǐng)域,是否有助于“推理平價(jià)”,降低推理成本,推動(dòng)國(guó)產(chǎn)算力芯片在推理領(lǐng)域的使用?

沐曦工作人員反饋:“這一周大家都忙著DeepSeek開(kāi)源周的適配。”另?yè)?jù)沐曦官方微信號(hào):“沐曦技術(shù)團(tuán)隊(duì)在FlashMLA開(kāi)源后迅速響應(yīng),僅用2小時(shí)即完成與沐曦GPU的適配工作,并于當(dāng)日將代碼提交至開(kāi)源社區(qū)。”

此外,沐曦方面也表示:“FlashMLA通過(guò)MLA解碼優(yōu)化與分頁(yè)KV緩存技術(shù)等顯著提升硬件利用率,可加速大語(yǔ)言模型解碼過(guò)程,有效提升響應(yīng)速度與吞吐量,尤其適用于聊天機(jī)器人等實(shí)時(shí)生成場(chǎng)景。沐曦在適配中應(yīng)用矩陣吸收算法將低秩投影融入Flash Attention 2核函數(shù),在保證計(jì)算效率的同時(shí)顯著降低顯存占用。”

PPIO派歐云王聞?dòng)钜脖硎荆?ldquo;FlashMLA對(duì)國(guó)內(nèi)算力芯片具有很大的借鑒價(jià)值,通過(guò)技術(shù)創(chuàng)新,將FlashMLA移植到國(guó)內(nèi)算力芯片上,也可以實(shí)現(xiàn)類似CUDA中的減少顯存占用和加速效果。”

事實(shí)上,除了通過(guò)算法領(lǐng)域的進(jìn)步來(lái)減少顯存占用,也可以從芯片設(shè)計(jì)角度出發(fā),通過(guò)定制化的芯片來(lái)增加顯存。

上述算力芯片公司高管稱:“核心問(wèn)題是HBM(高帶寬存儲(chǔ))每GB是DDR(雙倍速率同步動(dòng)態(tài)隨機(jī)存儲(chǔ)器)的5x(5倍)價(jià)錢,用HBM來(lái)存所有權(quán)重不劃算。”

其給出的解決辦法是多級(jí)存儲(chǔ)。他表示:“需要模型來(lái)進(jìn)一步改造,我認(rèn)為比較理想的軟硬件,在未來(lái)應(yīng)該是兩級(jí)或者多級(jí)存儲(chǔ)的,比如HBM和DDR都上,HBM更快,DDR更大,所以整個(gè)模型都存更大的DDR里面,就像DeepSeek論文里面寫的,他們每10分鐘刷新一批redundant expert(冗余專家),這批可以放在HBM里面,用戶用的時(shí)候,大概率從這個(gè)redundant expert里面取expert,這樣就可以既便宜又快了。”

關(guān)于MoE結(jié)構(gòu)對(duì)算力硬件需求的變化,中金研報(bào)認(rèn)為,可能帶來(lái)對(duì)處理器架構(gòu)進(jìn)一步的定制化需求,如更大的計(jì)算單元、和更高效的通信kernel(內(nèi)核)相匹配的設(shè)計(jì)單元、近存計(jì)算單元等,利好DSA(領(lǐng)域?qū)S眉軜?gòu))架構(gòu)發(fā)展。

封面圖片來(lái)源:視覺(jué)中國(guó)-VCG41N1350722136

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

模型 DeepSeek AI芯片 芯片

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

0

0