「NVIDIA H100 GPU」を2万4576基搭載して「Llama 3」などのトレーニングに活用されているGPUクラスターの情報をMetaが公開


「AI開発をリードするということは、ハードウェアインフラへの投資でリードするということ」として、MetaがAIのための投資として行っている、2万4000基以上のGPUを搭載したデータセンタースケールのクラスターの情報を明らかにしました。
Building Meta’s GenAI Infrastructure - Engineering at Meta
https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/


Meta reveals details of two new 24k GPU AI clusters - DCD
https://www.datacenterdynamics.com/en/news/meta-reveals-details-of-two-new-24k-gpu-ai-clusters/


2022年、MetaがGPU1万6000基を搭載した「AI Research SuperCluster(RSC)」の構築が報じられました。
1万6000個のGPUを搭載した世界最速のAIスーパーコンピューターをMetaが構築中 - GIGAZINE


新たなGPUクラスターは、このRSCをベースとして得られた教訓などを反映して構築されていて、機械学習に最適だとされる「NVIDIA H100 GPU」を2万4576基搭載しています。Metaは2023年にNVIDIA H100 GPUを15万基購入したとみられています。
15万台のNVIDIA H100 GPUをMetaとMicrosoftが購入したとの分析、Google・Amazon・Oracleの3倍 - GIGAZINE


Metaによると、新たなGPUクラスターはRSCよりも巨大で複雑なモデルをサポートできるようになるので、生成AI開発の進歩への道が開かれるとのこと。実際に、このクラスターは一般公開されている大規模言語モデル・Llama 2の後継であるLlama 3を含む、Metaが取り組んでいる現世代および次世代のAIモデルをサポートするとともに、生成AIや、その他の分野のAI研究開発をサポートしているとのこと。
なお、Metaのインフラストラクチャロードマップにおいて、今回のGPUクラスター構築はステップの1つに過ぎず、2024年末までにNVIDIA H100 GPU35万基を含み、計算能力でいえばNVIDIA H100 GPU60万基に相当するインフラの構築を目指すとのことです。

ジャンルで探す