要聞

中國(guó)工程院院士鄭緯民：做好十個(gè)軟件，改善基于國(guó)產(chǎn)AI芯片的系統(tǒng)生態(tài)

每日經(jīng)濟(jì)新聞 2024-04-29 10:39:02

◎4月28日，中國(guó)移動(dòng)2024算力網(wǎng)絡(luò)大會(huì)在蘇州開幕?！睹咳战?jīng)濟(jì)新聞》記者在現(xiàn)場(chǎng)注意到，會(huì)上，中國(guó)工程院院士鄭緯民提到，目前有三類系統(tǒng)可支持大模型訓(xùn)練。基于英偉達(dá)GPU的系統(tǒng)一卡難求；基于國(guó)產(chǎn)AI芯片的系統(tǒng)仍面臨國(guó)產(chǎn)卡應(yīng)用不足、生態(tài)系統(tǒng)有待改善的問題，可通過十個(gè)軟件來進(jìn)行改善；基于超級(jí)計(jì)算機(jī)的系統(tǒng)，可在做好軟硬件協(xié)同設(shè)計(jì)的情況下實(shí)現(xiàn)大模型訓(xùn)練，但需在超算機(jī)器尚未飽和的前提下操作。

每經(jīng)記者楊卉每經(jīng)編輯楊夏

4月28日，中國(guó)移動(dòng)2024算力網(wǎng)絡(luò)大會(huì)在蘇州開幕?！睹咳战?jīng)濟(jì)新聞》記者在現(xiàn)場(chǎng)注意到，會(huì)上，中國(guó)工程院院士鄭緯民提到，目前有三類系統(tǒng)可支持大模型訓(xùn)練。

其中，基于英偉達(dá)GPU的系統(tǒng)一卡難求；基于國(guó)產(chǎn)AI芯片的系統(tǒng)仍面臨國(guó)產(chǎn)卡應(yīng)用不足、生態(tài)系統(tǒng)有待改善的問題，可通過十個(gè)軟件來進(jìn)行改善；基于超級(jí)計(jì)算機(jī)的系統(tǒng)，可在做好軟硬件協(xié)同設(shè)計(jì)的情況下實(shí)現(xiàn)大模型訓(xùn)練，但需在超算機(jī)器尚未飽和的前提下操作。整體來看，盡管打造國(guó)產(chǎn)A1卡的萬(wàn)卡大模型訓(xùn)練平臺(tái)難度不小，但十分必要。

圖片來源：每經(jīng)記者楊卉攝

國(guó)產(chǎn)卡應(yīng)用不足，生態(tài)系統(tǒng)有待改善

鄭緯民提出，近兩年來人工智能的發(fā)展導(dǎo)致算力需求呈爆發(fā)性增長(zhǎng)，其中模型研發(fā)需要配套算力；模型訓(xùn)練需要海量算力，如訓(xùn)練GPT-4需要一萬(wàn)塊英偉達(dá)A100芯片跑上11個(gè)月；模型精調(diào)需要可控算力；模型推理需要可靠算力，算力存在于大模型生命周期的每一環(huán)。

然而，海量算力背后有一個(gè)很現(xiàn)實(shí)的問題：貴。根據(jù)鄭緯民計(jì)算，在大模型訓(xùn)練的過程中，70%的開銷要花在算力上；推理過程中95%的花費(fèi)也是在算力上，人工智能產(chǎn)業(yè)算力成本居高不下。

鄭緯民進(jìn)一步指出，要構(gòu)建基于國(guó)產(chǎn)AI卡的萬(wàn)卡大模型訓(xùn)練平臺(tái)，需要考慮到幾個(gè)問題。首先是半精度運(yùn)算性能與雙精度運(yùn)算性能的平衡問題。鄭緯民強(qiáng)調(diào)，在設(shè)計(jì)過程中，不僅要考慮半精度運(yùn)算性能，還要考慮雙精度運(yùn)算能力，雙精度與半精度運(yùn)算性能之比為1∶50—1∶100為宜。“不論是自己做還是買，第一件事情就是問比例是多少。”

第二點(diǎn)是網(wǎng)絡(luò)平衡設(shè)計(jì)。

鄭緯民解釋稱，萬(wàn)卡系統(tǒng)中的萬(wàn)塊卡不能分散在各地，將其連接起來就是所謂的網(wǎng)絡(luò)。但連接也很有“講究”，每塊卡之間能實(shí)現(xiàn)直連是最好的狀態(tài)。但如此一來，每塊AI卡都需插上9999塊連接卡，一萬(wàn)塊AI芯片均要實(shí)現(xiàn)直連，所需的連接卡數(shù)量太過龐大，成本甚至還要高過萬(wàn)塊卡本身。此外，即便資金充足，卡槽數(shù)量也無(wú)法滿足需求。因此，網(wǎng)絡(luò)設(shè)計(jì)不能只針對(duì)CNN算法，還需考慮極大規(guī)模預(yù)訓(xùn)練模型對(duì)系統(tǒng)的需求。大規(guī)模預(yù)訓(xùn)練模型需要高帶寬低延遲網(wǎng)絡(luò)，支持?jǐn)?shù)據(jù)并行，模型并行和專家平行模式。

第三點(diǎn)是體系結(jié)構(gòu)感知的內(nèi)存平衡設(shè)計(jì)。鄭緯民強(qiáng)調(diào)，一方面訪問內(nèi)存的請(qǐng)求使網(wǎng)絡(luò)擁塞，降低吞吐量，反映到應(yīng)用程序上表現(xiàn)為訪存性能顯著下降；另一方面，多個(gè)訪問內(nèi)存的請(qǐng)求可能訪問同一存控對(duì)應(yīng)的內(nèi)存空間，負(fù)載不均，存控需要順序處理訪存請(qǐng)求。

第四點(diǎn)是IO子系統(tǒng)平衡設(shè)計(jì)。鄭緯民進(jìn)一步解釋稱，萬(wàn)卡系統(tǒng)中負(fù)載的芯片數(shù)量太大，即便是英偉達(dá)芯片，也基本會(huì)在三小時(shí)左右出現(xiàn)一次錯(cuò)誤。過去，為保證訓(xùn)練不被中斷，大模型訓(xùn)練廠商通常采用間隔一段時(shí)間，如2.5小時(shí)對(duì)數(shù)據(jù)進(jìn)行一次保存或轉(zhuǎn)移，一旦出現(xiàn)錯(cuò)誤可以不必從0開始，可在保存位置繼續(xù)執(zhí)行。

然而，大模型訓(xùn)練數(shù)量過大，很難沿用上述操作模式。因此，萬(wàn)卡系統(tǒng)除了支持檢查點(diǎn)操作，還需增加SSD（固態(tài)硬盤）。另外，系統(tǒng)的本地NVMe SSD僅通過本地文件系統(tǒng)訪問，限制了其應(yīng)用范圍，需將每臺(tái)服務(wù)器上的快速本地NVMe整合為應(yīng)用可見的全局分布式文件系統(tǒng)。

鄭緯民分析指出，目前來看，支持大模型訓(xùn)練有三類系統(tǒng)，分別為基于英偉達(dá)GPU的系統(tǒng)、基于國(guó)產(chǎn)AI芯片的系統(tǒng)和基于超級(jí)計(jì)算機(jī)的系統(tǒng)。其中，基于英偉達(dá)公司GPU的系統(tǒng)硬件性能和編程生態(tài)好，但受到禁售影響，加之價(jià)格暴漲，一卡難求。而基于國(guó)產(chǎn)AI芯片的系統(tǒng)，盡管近年來國(guó)內(nèi)二十余家芯片公司取得了很大的進(jìn)步，但仍面臨國(guó)產(chǎn)卡應(yīng)用不足、生態(tài)系統(tǒng)有待改善的問題。

十大軟件改善基于國(guó)產(chǎn)AI芯片的系統(tǒng)生態(tài)

鄭緯民直言，要改善基于國(guó)產(chǎn)AI芯片的系統(tǒng)生態(tài)，這一問題其實(shí)并不“抽象”，需要做好十個(gè)軟件。

第一是編程框架應(yīng)進(jìn)一步降低編寫人工智能模型的復(fù)雜度；利用基本算子快速構(gòu)建人工智能模型，如PyTorch、TensorFlow。

第二是并行加速，為多機(jī)多卡環(huán)境提供人工智能模型并行訓(xùn)練的能力；支持?jǐn)?shù)據(jù)并行、模型并行、流水線并行、張量并行等，如微軟的DeepSpeed、英偉達(dá)Megatron-LM。

第三是通信庫(kù)要提供跨機(jī)跨卡的通信能力；可支持人工智能模型訓(xùn)練所需各種通信模式；可根據(jù)底層網(wǎng)絡(luò)特點(diǎn)充分利用網(wǎng)絡(luò)通信帶寬，如英偉達(dá)的NCCL庫(kù)、超算普遍支持的MPI通信庫(kù)。

第四是算子庫(kù)，需提供人工智能模型所需基本操作的高性能實(shí)現(xiàn)；能夠盡可能覆蓋典型人工智能模型所需的操作；算子庫(kù)能充分發(fā)揮底層硬件的性能，如英偉達(dá)cuDNN，cnBLAS。

第五是AI編譯器，要可在異構(gòu)處理器上對(duì)人工智能程序生成高效的目標(biāo)代碼；對(duì)算子庫(kù)不能提供的操作通過AI編譯器自動(dòng)生成高效目標(biāo)代碼，如XLA、TVM。不過，鄭緯民也談到，目前國(guó)內(nèi)掌握AI編譯器的人才較少，實(shí)現(xiàn)難度較大。

第六是編程語(yǔ)言，要提供異構(gòu)處理器上編寫并行程序的支持；覆蓋底層硬件功能，發(fā)揮硬件性能；能夠編寫人工智能模型的基本算子（Operator），如英偉達(dá)的CUDA，Intel的oneAPI。

第七是調(diào)度器，需具備在大規(guī)模系統(tǒng)上高效調(diào)度人工智能任務(wù)的能力；同時(shí)設(shè)計(jì)高效調(diào)度算法，提高集群資源利用率，如Kubernetes（K8S）、華為ModelArts。

第八是內(nèi)存分配系統(tǒng)，可針對(duì)人工智能應(yīng)用特點(diǎn)提供高效的內(nèi)存分配策略。

第九是容錯(cuò)系統(tǒng)，用來提供在硬件發(fā)生故障后快速恢復(fù)模型訓(xùn)練的能力。

第十是存儲(chǔ)系統(tǒng)，需支持訓(xùn)練過程中高效的數(shù)據(jù)讀寫（檢查點(diǎn)訓(xùn)練數(shù)據(jù)等）。

鄭緯民直言，當(dāng)前國(guó)內(nèi)已經(jīng)有了上述軟件，但做得不夠全，不夠好。當(dāng)務(wù)之急是先將上述軟件做好，從而提高用戶的使用意愿。鄭緯民強(qiáng)調(diào)，國(guó)產(chǎn)AI芯片與業(yè)界領(lǐng)先水平存在一定差距，但若將生態(tài)做好，只要性能可以達(dá)到業(yè)界領(lǐng)先水平的一半或60%，客戶也會(huì)愿意使用，大多數(shù)任務(wù)不會(huì)因芯片性能的微小差異而有明顯感知。

至于第三種渠道，基于超級(jí)計(jì)算機(jī)的系統(tǒng)，根據(jù)鄭緯民透露，當(dāng)前國(guó)內(nèi)約有14個(gè)國(guó)家級(jí)超算中心，性能很快且機(jī)器使用情況尚未達(dá)到飽和。若軟硬件協(xié)同的設(shè)計(jì)做好，在超算機(jī)器上做大模型訓(xùn)練也是可能實(shí)現(xiàn)的。

鄭緯民提供的視頻演示顯示，在某國(guó)產(chǎn)超算上進(jìn)行大模型訓(xùn)練與推理時(shí)，使用超算調(diào)度系統(tǒng)申請(qǐng)512個(gè)節(jié)點(diǎn)來進(jìn)行7B模型預(yù)訓(xùn)練，半精度和全精度訓(xùn)練效果可與英偉達(dá)平臺(tái)完全對(duì)齊；與租用英偉達(dá)GPU相比，使用國(guó)產(chǎn)超算可節(jié)省6倍左右的成本。加載開源的百川2—7B模型進(jìn)行推理，推理精度也與英偉達(dá)一致。更為關(guān)鍵的是，從成本角度考慮，在上述超算平臺(tái)上訓(xùn)練大模型，只需花費(fèi)英偉達(dá)系統(tǒng)六分之一的成本。

談及當(dāng)前智能算力行業(yè)面臨的痛點(diǎn)，鄭緯民直言，構(gòu)建國(guó)產(chǎn)萬(wàn)卡系統(tǒng)很難，但很有必要，未來還是要繁榮國(guó)產(chǎn)卡的生態(tài)系統(tǒng)，做好軟硬件的協(xié)同設(shè)計(jì)，同時(shí)解決大模型基礎(chǔ)設(shè)施的幾大問題。“雖然很難，但只要我們努力，與芯片公司合作，一定能將萬(wàn)卡系統(tǒng)做好。”鄭緯民稱。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。