
大模型算力基礎(chǔ)設(shè)施技術(shù)趨勢、關(guān)鍵挑戰(zhàn)與發(fā)展路徑
摘要
從大模型技術(shù)發(fā)展趨勢出發(fā),分析了多模態(tài)、長序列和混合專家模型的架構(gòu)特征和算力需求特點(diǎn)。圍繞大模型對巨量算力規(guī)模與復(fù)雜通信模式的需求,重點(diǎn)從算力利用效率、集群互聯(lián)技術(shù)兩方面量化分析了當(dāng)前大模型算力基礎(chǔ)設(shè)施存在的發(fā)展問題和面臨的技術(shù)挑戰(zhàn),并提出了以應(yīng)用為導(dǎo)向、以系統(tǒng)為核心、以效率為目標(biāo)的高質(zhì)量算力基礎(chǔ)設(shè)施發(fā)展路徑。
關(guān)鍵詞:多模態(tài)模型;長序列模型;混合專家模型;算力利用效率;集群互聯(lián);高質(zhì)量算力
引言
近年來,生成式人工智能技術(shù),尤其是大語言模型(Large Language Model,LLM)的快速發(fā)展,標(biāo)志著人工智能進(jìn)入了一個(gè)前所未有的新時(shí)代。模型能力的提升和架構(gòu)的演進(jìn)催生了新的算力應(yīng)用范式,對所需的算力基礎(chǔ)設(shè)施提出了全新的挑戰(zhàn)。
1、大模型技術(shù)發(fā)展趨勢
1.1 大語言模型
最初的語言模型主要基于簡單的統(tǒng)計(jì)方法,隨著深度學(xué)習(xí)技術(shù)的進(jìn)步,模型架構(gòu)逐步從循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)到長短期記憶(Long Short Term Memory,LSTM)再到Transformer演進(jìn),模型的復(fù)雜性和能力相繼提升。2017年,Ashish Vaswani等首先提出了Transformer架構(gòu),這一架構(gòu)很快成為了大語言模型開發(fā)的基石。2018年,BERT通過預(yù)訓(xùn)練加微調(diào)的方式,在多項(xiàng)自然語言處理任務(wù)上取得了前所未有的成效,極大地推動(dòng)了下游任務(wù)的發(fā)展和應(yīng)用。2018—2020年,OpenAI相繼發(fā)布了GPT-1、GPT-2和GPT-3,模型的參數(shù)量從1 億級(jí)別增長到1 000 億級(jí)別,在多項(xiàng)自然語言處理任務(wù)上的性能呈現(xiàn)近似指數(shù)級(jí)的提升,論證了尺度定律(Scaling Law)在實(shí)際應(yīng)用中的效果。2022年底,ChatGPT發(fā)布之后,引發(fā)了一輪LLM熱潮,全球諸多企業(yè)、研究機(jī)構(gòu)短時(shí)間內(nèi)開發(fā)出LLaMA、文心一言、通義千問等上百種大語言模型。這一時(shí)期的模型大都基于Transformer基礎(chǔ)架構(gòu),利用大量的文本數(shù)據(jù)進(jìn)行訓(xùn)練,通過學(xué)習(xí)大規(guī)模數(shù)據(jù)集中的模式和關(guān)系,能夠執(zhí)行多種語言任務(wù)。但是,LLM的發(fā)展很快遇到了兩個(gè)顯著的問題,一是模型的能力局限于對文本信息的理解和生成,實(shí)際的落地應(yīng)用場景受限;二是稠密模型架構(gòu)特征將會(huì)使得模型能力提升必然伴隨著算力需求的指數(shù)級(jí)增加,在算力資源受限的大背景下模型能力進(jìn)化的速度受限。
1.2 多模態(tài)模型
為了進(jìn)一步提升大模型的通用能力,研究者開始探索模型在非文本數(shù)據(jù)(如圖像、視頻、音頻等領(lǐng)域)中的應(yīng)用,進(jìn)而發(fā)展出了多模態(tài)模型。這類模型能夠處理和理解多種類型的輸入數(shù)據(jù),實(shí)現(xiàn)跨模態(tài)的信息理解和生成。例如,OpenAI的GPT-4V模型可以理解圖片信息,而Google的BERT模型則被擴(kuò)展到VideoBERT用于理解視頻內(nèi)容。多模態(tài)模型的出現(xiàn)大大擴(kuò)展了人工智能的感知能力和應(yīng)用范圍,從簡單的文本處理到復(fù)雜的視覺和聲音處理。多模態(tài)模型在基礎(chǔ)模型架構(gòu)上跟LLM一樣大都采用Transformer,但是通常需要設(shè)計(jì)特定的架構(gòu)來處理不同類型的輸入數(shù)據(jù)。例如,它們可能結(jié)合了專門處理圖像數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)組件,需要使用跨模態(tài)的注意力機(jī)制、聯(lián)合嵌入空間或特殊的融合層來實(shí)現(xiàn)對來自不同模態(tài)信息的有效融合。
1.3 長序列模型
研究者們發(fā)現(xiàn)通過擴(kuò)展上下文窗口可以讓大模型能夠更好地捕捉全局信息,有助于更準(zhǔn)確地保留原文的語義、降低幻覺的發(fā)生、提高新任務(wù)的泛化能力,這就是提升大模型能力的另外一條有效的路徑——長序列(Long Sequence)。2023年以來,主流大模型都在不斷提高長序列的處理能力(見圖1),比如GPT-4 Turbo可以處理長達(dá)128 K的上下文,相比較GPT-3.5的4K處理能力已經(jīng)增長了32倍,Anthropic的Claude2具備支持200 K上下文的潛力,Moonshot AI的Kimi Chat更是將中文文本處理能力提高到了2 000 K。從模型架構(gòu)上來看,傳統(tǒng)的LLM訓(xùn)練主要對Transformer中耗時(shí)最多的兩個(gè)核心單元——多頭注意力層(Multi-Head Attention,MHA)和前饋神經(jīng)網(wǎng)絡(luò)層(Feedforward Neural Network,F(xiàn)NN)進(jìn)行張量并行,但保留了歸一化層和丟棄層,這部分元素不需要大量的計(jì)算但隨著序列的長度增加會(huì)產(chǎn)生大量的激活值內(nèi)存。由于這部分非張量并行的操作沿著序列維度是相互獨(dú)立的,可以通過沿序列維度切分實(shí)現(xiàn)激活值內(nèi)存的減少。然而,序列并行(Sequence Parallelism,SP)的增加會(huì)引入額外的全聚集(All Gather)通信操作。因此,長序列的訓(xùn)練和推理會(huì)使得計(jì)算復(fù)雜度和難度提升,計(jì)算復(fù)雜度隨序列長度n呈平方增加O(n2),模型需要引入新的并行層次和集合通信操作,從而導(dǎo)致端到端通信耗時(shí)占比增加,將會(huì)對模型算力利用率(Model FLOPS Utilization,MFU)產(chǎn)生影響。
圖1 大模型上下文序列長度發(fā)展趨勢
1.4 混合專家模型
為了在提高模型能力的同時(shí)能夠優(yōu)化算力開銷,研究者們選擇引入條件計(jì)算機(jī)制,即根據(jù)輸入有選擇地激活部分參數(shù)來進(jìn)行訓(xùn)練,這樣就使得整體計(jì)算開銷隨模型參數(shù)量的增長趨勢相對變緩,這就是混合專家(Mixture of Experts,MoE)模型的核心思想。MoE模型實(shí)際構(gòu)建了一種稀疏型的模型組件,將大型網(wǎng)絡(luò)分解為若干個(gè)“專家”子網(wǎng)絡(luò),每個(gè)專家擅長處理特定類型的信息或任務(wù),通過一個(gè)門控網(wǎng)絡(luò),在給定輸入時(shí)動(dòng)態(tài)選拔最適合的專家參與計(jì)算,這樣既可以減少不必要的計(jì)算量,也能提高模型的專業(yè)性和效率。Google早在2022年就發(fā)布了具有1.6 億參數(shù)的MoE模型Switch Transformer,包含2 048個(gè)專家,在同樣的FLOPS/Token的計(jì)算量下,Switch Transformer模型相比稠密型的T5-Base模型訓(xùn)練性能有7倍的提升。
MoE模型通過這種方式,在保持模型性能的同時(shí),相比同等規(guī)模的稠密模型顯著降低了計(jì)算資源的需求,在處理大規(guī)模數(shù)據(jù)和任務(wù)時(shí)表現(xiàn)出了更高的效率和可擴(kuò)展性。如今MoE模型已經(jīng)成為了業(yè)界大模型的發(fā)展趨勢,2024年3月以來,已經(jīng)先后出現(xiàn)了GPT4、Mixtral-8×7B、LLaMA-MoE、Grok-1、Qwen1.5-MoE、Jamba等10余種MoE模型。但是,MoE模型層的引入同時(shí)也帶來了額外的通信開銷,相比較LLM訓(xùn)練過程常用的張量并行、流水線并行和數(shù)據(jù)并行之外,MoE模型的訓(xùn)練引入了一種新的并行策略——專家并行(Expert Parallelism,EP),需要在MoE模型層前后分別增加一次多對多(All-to-All)通信操作,由此帶來了對硬件互聯(lián)拓?fù)浜屯ㄐ艓挼母咭蟆?/p>
根據(jù)上述分析,多模態(tài)、長序列、MoE模型已經(jīng)成為大模型架構(gòu)演進(jìn)的確定性趨勢,其中多模態(tài)、長序列模型側(cè)重在模型能力側(cè)的提升,MoE模型兼顧模型能力的提升和算力利用效率的優(yōu)化。這種發(fā)展不僅提升了人工智能在內(nèi)容理解和內(nèi)容生成方面的能力,而且提高了模型的泛化能力和任務(wù)適應(yīng)性。然而,模型架構(gòu)的演進(jìn)同時(shí)帶來了更巨量的算力需求以及更復(fù)雜的集合通信需求,對現(xiàn)有算力基礎(chǔ)設(shè)施帶來了更大挑戰(zhàn)。
2、大模型算力基礎(chǔ)設(shè)施發(fā)展問題與挑戰(zhàn)
2.1 可用算力規(guī)模亟需算力利用效率提升
業(yè)界先進(jìn)的(State-Of-The-Art,SOTA)模型參數(shù)規(guī)模和數(shù)據(jù)規(guī)模仍在持續(xù)增長,巨頭之爭已經(jīng)從千億模型向萬億模型發(fā)展(見圖2),GPT-4模型具有1.8萬億參數(shù),在約 13萬億個(gè)Token上進(jìn)行了訓(xùn)練,算力需求大約為2.15e25 FLOPS,相當(dāng)于在大約2.5萬張A100加速卡上運(yùn)行90~100天。為此,領(lǐng)先的科技公司正在加速算力基礎(chǔ)設(shè)施建設(shè),Meta在原有1.6萬張A100卡集群基礎(chǔ)上又建設(shè)兩個(gè)具有約2.5萬張H100加速卡集群,用來加速LLaMA3的訓(xùn)練;Google建設(shè)了具有2.6萬張H100加速卡的A3人工智能超級(jí)計(jì)算機(jī),可以提供26 ExaFLOPS的人工智能性能,Microsoft和OpenAI正在為GPT-6訓(xùn)練構(gòu)建具有10萬張H100加速卡集群,并規(guī)劃具有數(shù)百萬張卡的“星際之門”人工智能超算。由此可見,萬卡已經(jīng)成為未來先進(jìn)大模型訓(xùn)練的新起點(diǎn)。
圖2 大模型算力需求發(fā)展趨勢
隨著算力需求持續(xù)增加、算力規(guī)模持續(xù)擴(kuò)大,算力利用效率問題日益凸顯。據(jù)公開報(bào)道,GPT-4訓(xùn)練的MFU在32%~36%之間,其根本原因是顯存帶寬限制了芯片算力的發(fā)揮,即“內(nèi)存墻”(Memory Wall)問題。在LLM模型的訓(xùn)練過程中,模型參數(shù)、梯度、中間狀態(tài)、激活值都需要存放在顯存當(dāng)中,并且需要頻繁地傳輸參數(shù)和梯度信息以進(jìn)行參數(shù)的更新。高顯存帶寬可以加快參數(shù)和梯度數(shù)據(jù)的傳輸速度,從而提高參數(shù)更新的效率,加速模型收斂的速度。因此,用于人工智能訓(xùn)練的高端加速卡會(huì)選用最先進(jìn)的高帶寬內(nèi)存(High Bandwidth Memory,HBM)作為顯存,以求最大化數(shù)據(jù)傳輸速度,增加計(jì)算時(shí)間占比,從而獲得更高的算力利用效率。
從宏觀技術(shù)發(fā)展趨勢上看,在過去20年間芯片的算力峰值以每2年3倍的速度增長,但是內(nèi)存的帶寬增長速度只有1.6倍[11]。內(nèi)存的性能提升速度遠(yuǎn)低于處理器的性能提升速度,這就使得芯片計(jì)算力和運(yùn)載力之間的剪刀差越來越大,僅通過增加處理器數(shù)量和核心數(shù),也無法有效提高整體的計(jì)算能力。為此,NVIDIA從V100開始,在每一代芯片中間都會(huì)有一次顯存升級(jí),以A100為例,首發(fā)版本采用40 G HBM2顯存,帶寬最高1 555 GB/s,升級(jí)版本采用80 G HBM2,帶寬提升至2 039 GB/s,但這帶來的算力利用效率和應(yīng)用性能提升效果有限,A100 80 G在Bert-Large微調(diào)場景下性能提升僅14%(見圖3)。
圖3 相同算力下不同顯存帶寬A100模型性能對比
為了能夠量化顯存帶寬對芯片算力利用效率的影響,采用具有相同顯存(容量96 G、帶寬2.45 TB/s)、不同算力的人工智能加速卡,在具有不同參數(shù)規(guī)模大小的LLM模型預(yù)訓(xùn)練場景中進(jìn)行了算力效率的實(shí)測。如圖4(a)所示,在使用BF16算力精度訓(xùn)練LLaMA-7B模型的過程中,BF16算力利用率隨芯片算力的降低而顯著增加,對于具有443 TFLOPS算力值的芯片而言,其算力利用率只有54%,而具有148 TFLOPS算力的芯片,算力利用率達(dá)到了71.3%,這意味著顯存帶寬限制了高算力芯片的算力利用效率。同樣的規(guī)律也反映在了LLaMA-13B和GPT-22B等更大參數(shù)規(guī)模的模型預(yù)訓(xùn)練實(shí)測結(jié)果中。如圖4(b)所示,當(dāng)標(biāo)稱BF16性能從148 TFLOPS增加到298 TFLOPS,即標(biāo)稱算力增加2倍的情況下,可用算力增加僅1.8倍,或者說算力損失29.6%;當(dāng)BF16性能進(jìn)一步從298 TFLOPS繼續(xù)增加到443 TFLOPS,即標(biāo)稱算力增加48.8%的情況下,可用算力性能僅增加22.4%,算力損失高達(dá)42.1%。由此可以推斷,算力性能進(jìn)一步提高所帶來的可用算力收益會(huì)由于顯存帶寬的限制呈現(xiàn)邊際遞減,即GPT-4訓(xùn)練的MFU只有不到40%的原因??梢钥闯?,“內(nèi)存墻”是限制當(dāng)前可用AI算力擴(kuò)展的最大瓶頸。
圖4 顯存帶寬對算力利用效率影響
2.2 集群性能提升依賴跨尺度、多層次互聯(lián)
在尺度定律的驅(qū)動(dòng)下,SOTA模型的參數(shù)量以每2年410倍的速度增長、算力需求以每2年750倍的速度增長,遵循“摩爾定律”的硬件算力增長速度和顯存容量增長速度遠(yuǎn)遠(yuǎn)無法滿足模型訓(xùn)練的需求。因此,構(gòu)建多芯互聯(lián)集群成為大模型技術(shù)發(fā)展的必經(jīng)之路,能夠支持SOTA模型訓(xùn)練集群的規(guī)模也在短時(shí)間內(nèi)從千卡向萬卡發(fā)展,集群性能的實(shí)現(xiàn)將會(huì)受到顯存帶寬、卡間互聯(lián)帶寬、節(jié)點(diǎn)間互聯(lián)帶寬、互聯(lián)拓?fù)?、網(wǎng)絡(luò)架構(gòu)、通信庫設(shè)計(jì)、軟件和算法等多重因素影響,大規(guī)模加速計(jì)算集群的構(gòu)建已經(jīng)演變成為跨尺度、多層次的復(fù)雜系統(tǒng)工程問題。
從應(yīng)用層面來看,大模型訓(xùn)練往往需要通過有機(jī)的組合多種分布式策略,來有效地緩解LLM訓(xùn)練過程中的硬件限制。對于基于Transformer架構(gòu)的模型來說,常用的分布式策略包括數(shù)據(jù)并行、張量并行和流水線并行,各自的實(shí)現(xiàn)方式和所引入的集合通信操作有所不同。其中,數(shù)據(jù)并行和流水線并行的通信計(jì)算比不高,通常發(fā)生在計(jì)算節(jié)點(diǎn)之間。張量并行的核心思想是對Transformer Block中的兩個(gè)核心單元——多頭自注意力層和前饋神經(jīng)網(wǎng)絡(luò)層進(jìn)行拆分,其中多頭自注意力層按照不同的頭進(jìn)行并行拆分,而前饋神經(jīng)網(wǎng)絡(luò)層按照權(quán)重進(jìn)行并行拆分。使用張量并行時(shí),每個(gè)Transformer Block將在前向計(jì)算和反向傳播時(shí)分別引入兩次額外的All Reduce通信操作。與數(shù)據(jù)并行相比,張量并行具有更高的通信計(jì)算比,這意味著張量并行算法對計(jì)算設(shè)備間的通信帶寬需求更高。因此,在實(shí)際應(yīng)用中,一般把張量并行算法限制在單個(gè)計(jì)算節(jié)點(diǎn)內(nèi)。如前文所述,隨著大模型進(jìn)一步向多模態(tài)、長序列、混合專家架構(gòu)演進(jìn),分布式策略也隨之更加復(fù)雜,序列并行和專家并行的引入,也帶來了更多All Gather和All-to-All通信操作,與張量并行類似,需要計(jì)算設(shè)備間超低延遲、超高帶寬的通信能力,從而進(jìn)一步提高對單個(gè)計(jì)算節(jié)點(diǎn)或者說計(jì)算域的性能要求。
從硬件層面來看,互聯(lián)的設(shè)計(jì)一方面需要滿足算力高效擴(kuò)展的需求,另一方面還要匹配并行訓(xùn)練集合通信對互聯(lián)拓?fù)涞囊蟆;ヂ?lián)設(shè)計(jì)可以按尺度分為片上互聯(lián)、片間互聯(lián)和節(jié)點(diǎn)間互聯(lián)。片上互聯(lián)物理尺度最小、技術(shù)難度較高,需要采用芯粒(Chiplet)技術(shù)將多個(gè)Chiplet進(jìn)行合封并建立超高速互聯(lián)鏈路,領(lǐng)先的芯片廠商AMD、Intel、NVIDIA、壁仞科技等公司的產(chǎn)品都采用相關(guān)技術(shù)。以NVIDIA的B100芯片為例,由于逼近光刻工藝極限,芯片單位面積計(jì)算能力較上代只有14%提升,性能的進(jìn)一步提升只能通過增加硅面積,但這又受到掩膜極限的限制。于是,NVIDIA在盡可能做大單晶粒面積的基礎(chǔ)上,通過更先進(jìn)的基片上芯片(Chip on Wafer on Substrate,CoWoS)工藝將兩個(gè)晶粒整合到一個(gè)封裝當(dāng)中,之間通過10 TB/s NVLink進(jìn)行互聯(lián),使得兩個(gè)芯片可以作為一個(gè)統(tǒng)一計(jì)算設(shè)備架構(gòu)(Compute Unified Device Architecture,CUDA)在GPU運(yùn)行。由此可見,在當(dāng)前工藝極限和掩膜極限下,通過先進(jìn)封裝和高速晶粒對晶?;ヂ?lián)可以進(jìn)一步推動(dòng)芯片性能提高,但是這條技術(shù)路線的封裝良率和高昂成本也將會(huì)極大限制最新芯片的產(chǎn)能,影響芯片的可獲得性。
相比片上互聯(lián),片間互聯(lián)的技術(shù)成熟度更高、可獲得性更優(yōu),通常這部分互聯(lián)發(fā)生在單一節(jié)點(diǎn)或超節(jié)點(diǎn)內(nèi)部,旨在構(gòu)建多卡之間超高帶寬、超低延遲的計(jì)算域,來滿足張量并行、專家并行和序列并行極高的通信需求。目前,已經(jīng)有NVLink、PCIe、RoCE(RDMA over Converged Ethernet)以及諸多私有互聯(lián)方案。從互聯(lián)速率來看,NVIDIA第5代NVLink單Link雙向帶寬從第4代NVLink的50 GB/s升級(jí)到100 GB/s,也就是說B100/B200片間互聯(lián)雙向帶寬最高可以達(dá)到1 800 GB/s,AMD的Infinity Fabric最大可以支持112 GB/s 點(diǎn)對點(diǎn)(Peer-to-Peer,P2P)互聯(lián)帶寬。從互聯(lián)拓?fù)湫螒B(tài)來看,片間互聯(lián)可以分為直連拓?fù)浜徒粨Q拓?fù)鋬纱箢?,直連拓?fù)涞耐ㄓ眯愿鼜?qiáng)、協(xié)議兼容性更高,如AMD MI300X、Intel Gaudi、寒武紀(jì)MLU系列等開放加速規(guī)范模組(OCP Accelerator Module,OAM)形態(tài)加速卡可以通過通用加速器基板(Universal Baseboard,UBB)實(shí)現(xiàn)8卡全互聯(lián),NVIDIA H100 NVL、AMD MI210、Intel Gaudi3(HL-338)等PCIe形態(tài)加速卡則可以通過橋接器實(shí)現(xiàn)2卡或4卡互聯(lián),直連拓?fù)涞膯栴}在于片間互聯(lián)均分每卡的輸入/輸出(Input/Output,I/O)總帶寬,導(dǎo)致任意兩卡間P2P互聯(lián)帶寬較低,互聯(lián)帶寬的提升依賴于SerDes速率的升級(jí),相較算力提升速度滯后。交換拓?fù)湫枰诮粨Q機(jī)(Switch)交換芯片,目前主流芯片廠商中只有NVIDIA提供基于NVSwitch的互聯(lián)方案,所有GPU的縱向擴(kuò)展(Scale-up)端口直連到NVSwitch以實(shí)現(xiàn)全帶寬、All to All互聯(lián)形態(tài),這也是NVLink帶寬遠(yuǎn)高于直連拓?fù)浞桨傅脑?。未來,隨著單卡算力的提升以及單節(jié)點(diǎn)內(nèi)加速卡數(shù)量提升,基于Switch芯片構(gòu)建更高帶寬、更大規(guī)模的GPU互聯(lián)域?qū)⒊蔀橐环N趨勢,但是如何實(shí)現(xiàn)Scale-up網(wǎng)絡(luò)的延遲優(yōu)化、擁塞控制、負(fù)載均衡以及在網(wǎng)計(jì)算也將成為新的挑戰(zhàn)。
節(jié)點(diǎn)間橫向擴(kuò)展(Scale-out)互聯(lián)作用主要是為參數(shù)面網(wǎng)絡(luò)中流水線并行和數(shù)據(jù)并行提供足夠通信帶寬,通常采用Infiniband或RoCE組成胖樹(Fat-Tree)無阻塞網(wǎng)絡(luò)架構(gòu),二者都能夠通過多層組網(wǎng)實(shí)現(xiàn)千卡乃至萬卡級(jí)集群互聯(lián),比如采用64端口交換機(jī),通過3層Fat-Tree無阻塞組網(wǎng)理論上可以構(gòu)建約6.6萬卡集群,采用128端口交換機(jī)理論上可以構(gòu)建約52.4萬卡集群。從節(jié)點(diǎn)側(cè)來看,Scale-out的設(shè)計(jì)分為外置網(wǎng)絡(luò)控制器和集成網(wǎng)絡(luò)控制器兩種類型,外置網(wǎng)絡(luò)控制器方案通用性更強(qiáng),PCIe標(biāo)準(zhǔn)形態(tài)的網(wǎng)絡(luò)控制器通常會(huì)按1∶1或者1∶2的比例與加速卡連接到同一顆PCIe Switch芯片上以實(shí)現(xiàn)最短的Scale-out路徑,可以根據(jù)現(xiàn)有數(shù)據(jù)中心網(wǎng)絡(luò)基礎(chǔ)設(shè)施設(shè)計(jì)來靈活選擇與之相匹配的網(wǎng)絡(luò)控制器類型和數(shù)量組成遠(yuǎn)程直接內(nèi)存訪問(Remote Direct Memory Access,RDMA)網(wǎng)絡(luò)方案,支持Infiniband卡、以太網(wǎng)卡以及定制智能網(wǎng)卡。集成網(wǎng)絡(luò)控制器方案將網(wǎng)絡(luò)控制器直接集成到加速卡芯片當(dāng)中,比較有代表性的如Intel Gaudi系列,Gaudi2每顆芯片支持直出300 Gbit/s Ethernet Scale-out鏈路,Gaudi3將帶寬進(jìn)行了翻倍升級(jí)達(dá)到600 Gbit/s,計(jì)算和網(wǎng)絡(luò)的同步在芯片內(nèi)完成,無需主機(jī)干預(yù),可以進(jìn)一步減小延遲。數(shù)據(jù)中心內(nèi)部的節(jié)點(diǎn)間互聯(lián)方案已經(jīng)相對成熟,但隨著GPU集群建設(shè)規(guī)模的不斷擴(kuò)大,節(jié)點(diǎn)間互聯(lián)方案的成本和能耗也在不斷提升,在中等規(guī)模集群當(dāng)中占比已達(dá)15%~20%。因此,需要面向?qū)嶋H應(yīng)用需求,平衡性能、成本、能耗三大要素,最終實(shí)現(xiàn)全局最優(yōu)的節(jié)點(diǎn)間互聯(lián)方案設(shè)計(jì)。此外,大模型頭部公司正在規(guī)劃的具有百萬卡級(jí)的集群,已經(jīng)超出現(xiàn)有網(wǎng)絡(luò)架構(gòu)可擴(kuò)展極限,而單一數(shù)據(jù)中心無法同時(shí)為如此規(guī)模的卡提供足夠的電力支撐。未來,超大規(guī)模跨域無損算力網(wǎng)絡(luò)將會(huì)是支撐更大規(guī)模模型訓(xùn)練的關(guān)鍵。
綜上,隨著大模型算力需求的增長,加速集群互聯(lián)技術(shù)已經(jīng)演變成為跨尺度、多層次的復(fù)雜系統(tǒng)工程問題,涉及芯片設(shè)計(jì)、先進(jìn)封裝、高速電路、互聯(lián)拓?fù)?、網(wǎng)絡(luò)架構(gòu)、傳輸技術(shù)等多學(xué)科和工程領(lǐng)域,需要以系統(tǒng)為核心,自上而下軟硬協(xié)同設(shè)計(jì)才能獲得最優(yōu)的集群性能。
3、大模型算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展路徑
隨著SOTA大模型訓(xùn)練算力起點(diǎn)從千卡向萬卡乃至更大規(guī)模演進(jìn),能源逐漸成為大模型發(fā)展遇到的主要瓶頸,在算力資源和電力資源的雙重限制下,未來大模型的軍備競賽將會(huì)從“算力之爭”演變?yōu)?ldquo;效率之爭”,優(yōu)化算力供給結(jié)構(gòu),發(fā)展具有高算效、高能效、可持續(xù)、可獲得、可評(píng)估五大特征的高質(zhì)量算力已經(jīng)成為當(dāng)務(wù)之急。
算力效率的提升要圍繞算力的生產(chǎn)、聚合、調(diào)度、釋放形成一個(gè)完整的技術(shù)體系。在算力生產(chǎn)環(huán)節(jié),算力和顯存帶寬的設(shè)計(jì)失衡往往是導(dǎo)致算力效率損失的主要因素。因此,芯片“算力-顯存”協(xié)同設(shè)計(jì)至關(guān)重要,需要以算力效率為目標(biāo)來平衡芯片的計(jì)算能力和顯存的運(yùn)載能力,避免顯存帶寬約束下的巨大算力損失。在算力聚合環(huán)節(jié),通過“算力-互聯(lián)”協(xié)同設(shè)計(jì)和“算力-網(wǎng)絡(luò)”協(xié)同設(shè)計(jì),采用高、低速域分層互聯(lián)架構(gòu),為芯片匹配合適的片間互聯(lián)和節(jié)點(diǎn)間互聯(lián)帶寬,解決通信性能瓶頸,可以進(jìn)一步提升芯片在實(shí)際業(yè)務(wù)模型下的MFU,提升集群層面投資回報(bào)率。在算力調(diào)度環(huán)節(jié),通過全面的監(jiān)控指標(biāo)和異常檢測快速定位軟硬件故障,通過斷點(diǎn)續(xù)訓(xùn)、故障容錯(cuò)等機(jī)制快速恢復(fù)訓(xùn)練,實(shí)現(xiàn)大模型長時(shí)間穩(wěn)定訓(xùn)練,以此提升集群算力整體利用率,降低大模型整體訓(xùn)練成本。在算力釋放環(huán)節(jié),兼容主流生態(tài),支持業(yè)界主流框架、算法和計(jì)算精度,能夠在最短時(shí)間內(nèi)利用最新的精度優(yōu)化、顯存優(yōu)化以及通信優(yōu)化上的算法創(chuàng)新成果發(fā)掘出有限算力的最大價(jià)值。
能源利用效率的提升需要以節(jié)能為目標(biāo),開展面向應(yīng)用、軟硬協(xié)同的集群方案設(shè)計(jì),在高算效服務(wù)器系統(tǒng)硬件基礎(chǔ)上,通過匹配實(shí)際可用算力規(guī)模的網(wǎng)絡(luò)方案實(shí)現(xiàn)設(shè)計(jì)層面的集群功耗優(yōu)化。進(jìn)一步,通過部件、系統(tǒng)、機(jī)柜、數(shù)據(jù)中心多層級(jí)先進(jìn)液冷技術(shù)的應(yīng)用,結(jié)合供電、散熱、制冷、管理一體化設(shè)計(jì)實(shí)現(xiàn)部署層面的能效提升,最終獲得全局最優(yōu)電源使用效率(Power Usage Effectiveness,PUE)。
此外,大模型算力基礎(chǔ)設(shè)施已經(jīng)成為推動(dòng)信息產(chǎn)業(yè)核心技術(shù)發(fā)展的重要驅(qū)動(dòng)力,需要聚攏核心部件、專用芯片、電子元器件、基礎(chǔ)軟件、應(yīng)用軟件等國內(nèi)外產(chǎn)業(yè)鏈領(lǐng)先技術(shù)方案,加速構(gòu)建分層解耦、多元開放、標(biāo)準(zhǔn)統(tǒng)一的產(chǎn)業(yè)鏈生態(tài),降低對單一技術(shù)路線的依賴、避免煙囪式發(fā)展,通過產(chǎn)業(yè)鏈協(xié)同創(chuàng)新實(shí)現(xiàn)可持續(xù)算力演進(jìn)和算力產(chǎn)業(yè)的健康發(fā)展。持續(xù)推動(dòng)算力基建化,采用融合架構(gòu),通過硬件重構(gòu)實(shí)現(xiàn)多元異構(gòu)算力資源池化,提供多元、彈性、可伸縮擴(kuò)展的算力聚合能力,通過軟件定義實(shí)現(xiàn)資源池的智能高效管理,提供更高效、更便捷的算力調(diào)度能力,降低多元算力的使用門檻,實(shí)現(xiàn)算力普適普惠。最后,還需要建立以應(yīng)用為導(dǎo)向、以效率為目標(biāo)、全面科學(xué)的高質(zhì)量算力評(píng)估標(biāo)準(zhǔn),推動(dòng)算力供給結(jié)構(gòu)優(yōu)化,促進(jìn)算力產(chǎn)業(yè)良性發(fā)展。
?結(jié)束語
在市場、資本、政策的聯(lián)合驅(qū)動(dòng)下,大模型快速向多模態(tài)、長序列、混合專家形態(tài)演進(jìn),參數(shù)量更加龐大、模型架構(gòu)日益復(fù)雜,從而帶來對更大規(guī)模算力和更復(fù)雜通信模式的需求。然而,算存失衡發(fā)展嚴(yán)重限制了算力利用效率,并帶來了巨大的算力資源損失,實(shí)際可用算力規(guī)模增速難以滿足應(yīng)用發(fā)展需求。隨著集群規(guī)模從千卡向萬卡發(fā)展,跨尺度、多層次互聯(lián)技術(shù)將成為未來集群性能擴(kuò)展效率的關(guān)鍵。在算力和電力資源的雙重限制下,大模型軍備競賽正在向效率之爭快速轉(zhuǎn)變,亟需圍繞算力生產(chǎn)、聚合、調(diào)度、釋放四大環(huán)節(jié)構(gòu)建高算效實(shí)現(xiàn)的完整技術(shù)體系,從集群設(shè)計(jì)和數(shù)據(jù)中心部署層面實(shí)現(xiàn)更高能效,最終形成可持續(xù)、可獲得、可評(píng)估的高質(zhì)量算力。
來源:信息通信技術(shù)與政策
獲取最新價(jià)格?我們會(huì)盡快回復(fù)(12小時(shí)內(nèi))