天天報道:微軟推ZeRO++新系統(tǒng):減少大模型訓(xùn)練時間和成本
發(fā)布時間:2023-06-26 17:00:45 文章來源:動點科技
這些通信優(yōu)化大大減少了通信量。


(相關(guān)資料圖)

微軟研究人員推出了名為ZeRO++的新系統(tǒng),用于優(yōu)化訓(xùn)練大型AI模型,以應(yīng)對高數(shù)據(jù)傳輸開銷和有限帶寬的難題。

ZeRO++ 建立在現(xiàn)有的 ZeRO 優(yōu)化的基礎(chǔ)上,并提供增強(qiáng)的通信策略,以提高訓(xùn)練效率,減少訓(xùn)練時間和成本。

像Turing-NLG、ChatGPT和GPT-4這樣的大型模型的訓(xùn)練需要跨多個GPU設(shè)備占用大量內(nèi)存和計算資源。DeepSpeed開發(fā)的ZeRO++引入了通信優(yōu)化策略,以克服在每個GPU上批量大小較小時或在低帶寬集群上進(jìn)行訓(xùn)練時ZeRO的限制。

ZeRO優(yōu)化系列包括ZeRO-Inference,它使用GPU的集體內(nèi)存和計算能力,將模型狀態(tài)分割在多個GPU之間。然而,在訓(xùn)練過程中,ZeRO可能會產(chǎn)生較高的通信開銷。ZeRO++通過整合三組通信優(yōu)化來解決這個問題:量化權(quán)重通信(qwZ)、分層權(quán)重分割(hpZ)和量化梯度通信(qgZ)。

為了減少參數(shù)通信量,ZeRO++對權(quán)重進(jìn)行量化,利用基于塊的量化方法來保持訓(xùn)練精度。這種優(yōu)化的量化過程比基本量化更快更準(zhǔn)確。為了在反向傳播過程中盡量減少通信開銷,ZeRO++通過在每臺機(jī)器上保持完整的模型副本,以 GPU 內(nèi)存換取通信。梯度通信方面,ZeRO++引入了一種新的量化梯度通信范式 qgZ,可以減少跨節(jié)點的流量和延遲。

這些通信優(yōu)化大大減少了通信量。與ZeRO相比,ZeRO++實現(xiàn)了減少高達(dá)4倍的通信量,提高了訓(xùn)練吞吐量和效率。當(dāng)在每個GPU上使用小批量大小時,在高帶寬集群中,ZeRO++相比ZeRO-3的吞吐量提高了28%至36%。在低帶寬集群中,與ZeRO-3相比,ZeRO++實現(xiàn)了平均2倍的加速,使得大模型訓(xùn)練在更多種類的集群上更為可行。

ZeRO++不僅限于訓(xùn)練場景,還可應(yīng)用于對話模型中使用的人類反饋強(qiáng)化學(xué)習(xí)(RLHF)訓(xùn)練。通過將ZeRO++與DeepSpeed-Chat集成,RLHF訓(xùn)練可以獲得更好的生成和訓(xùn)練吞吐量,生成吞吐量提高了高達(dá)2.25倍,訓(xùn)練吞吐量提高了1.26倍,超過了ZeRO。

DeepSpeed已經(jīng)發(fā)布了ZeRO++,以使大型模型的訓(xùn)練在AI社區(qū)更加高效和可訪問。該系統(tǒng)旨在加快訓(xùn)練速度,減少通信開銷,并實現(xiàn)更大的批量大小,從而節(jié)省時間和資源。研究人員和實踐者可以利用ZeRO++更有效地訓(xùn)練像ChatGPT這樣的模型,并在AI領(lǐng)域探索新的可能性。

來源:站長之家

標(biāo)簽:

資訊播報

樂活HOT

娛樂LOVE

精彩推送