大規模言語モデル(LLM)の開発は、高価なAI(人工知能)用GPU(画像処理半導体)を数千個以上搭載するAIスーパーコンピューターで発生する様々なハードウエア故障との戦いである。米Meta(メタ)が最近発表した論文で、その実態を明らかにした。
筆者が注目したのは、メタが2025年3月上旬に米ラスベガスで開催されるスパコンの学会「2025 IEEE International Symposium on High-Performance Computer Architecture(HPCA 2025)」で発表する予定の論文「Revisiting Reliability in Large-Scale Machine Learning Research Clusters」だ。論文速報サイトの「arXiv」には2024年10月29日に公開され、2025年2月6日に第2版に改訂されている。
この論文は、メタが2022年夏に本格稼働させた「AI Research SuperCluster(RSC)」というAIスパコンの11カ月間に及ぶ稼働実績から、ハードウエア故障の傾向などを示したもの。RSCは2系統あり「RSC-1」は米NVIDIA(エヌビディア)のAI用GPUである「A100」を1万6000個、「RSC-2」はA100個を8000個搭載する。より大規模なRCS-1はLLMのトレーニングに、RSC-2は画像認識アプリケーションに使用する。
まず当たり前のこととして、クラスターに含まれるサーバーの台数が増えれば増えるほど、部品などが故障するまでの平均時間を示すMTTF(平均故障時間)は短くなるものだ。ハードウエア故障は確率的に発生するため、1台ごとのサーバーの故障率は低かったとしても、クラスターの規模が大きくなると、常にどこかしらで故障が発生するという状況になる。「下手な鉄砲も数打ちゃ当たる」という理屈である。
GPUが4000個あると、10時間に1度は故障が発生
実際にメタの論文によれば、RSCにおいては、GPUを8個使うジョブにおけるMTTFは47.7日だったのに対して、GPUを4000個使うジョブではMTTFが約10時間にまで悪化したという。RSC-1は1万6000個のGPUを搭載するが、ソフトウエア上の制約で1つのジョブには最大4000個のGPUしか同時に使えない。
そこでメタは、1つのジョブで使用するGPUの数を4000個よりも増やした場合の故障頻度を試算した。すると1つのジョブで使用するGPUの数を1万6000個にまで増やした場合のMTTFは1.8時間、GPUの数を13万個にまで増やした場合のMTTFは0.23時間にまで悪化することが分かったという。15分に1回は故障が発生する計算になる。
大規模なLLMのトレーニングで悩ましいのは、クラスターの一部が故障するだけで、全体のジョブをやり直す必要が生じることだ。大規模なLLMは1台のサーバーのGPUメモリーには収まりきらないため、複数台のサーバーのGPUメモリーにまたがるかたちで稼働させている。
もしLLMが小さく、1台のサーバーのGPUメモリーに収まるサイズであれば、壊れたサーバーが担っていたジョブだけをやり直せば済む。しかしLLMのサイズが大きく、複数台のサーバーのGPUメモリーにまたがっている場合は、1台のサーバーが故障すると、ジョブ全体をやり直す必要が生じる。