中国製GPUで学習した純中国製LLM「MT-infini-3B」が「Llama3-8B」を超える性能を示し中国単独で高性能AIを開発できることが明らかに
中国に拠点を置くGPUメーカーの「摩爾線程(Moore Threads)」が、自社製GPUを用いて大規模言語モデル「MT-infini-3B」を開発したことを発表しました。MT-infini-3BはNVIDIA製GPUを用いて学習した大規模言語モデルと同等以上の性能を備えているそうです。
摩尔线程携手无问芯穹:基于夸娥千卡智算集群的“MT-infini-3B”大模型实训已完成 | 摩尔线程
https://www.mthreads.com/news/171
アメリカ政府は中国によるAI研究を軍事上の脅威と捉えており、中国に対して高性能半導体の禁輸措置を実施しています。このため中国ではNVIDIAやAMD、Intelなどが開発しているAI研究用チップの開発が困難となっています。
そんな中、Moore Threadsは2023年12月に独自開発のAI研究用GPU「MTT S4000」を発表しました。MTT S4000は単精度(FP32)において25TFLOPSの性能を発揮することや、CUDAとの互換性も保持していることがアピールされており、大規模なAIの開発に活用できる可能性が指摘されていました。
中国のGPUメーカー「Moore Threads」がAIトレーニングやデータセンター向けGPU「MTT S4000」を発表 - GIGAZINE
そして、Moore Threadsは2024年5月27日に自社製GPUを用いて大規模言語モデル「MT-infini-3B」を開発したことを発表しました。MT-infini-3Bはパラメーター数30億の言語モデルで、学習にかかった期間は合計13.2日とのこと。なお、Moore Threadsは学習に使用したGPUのモデル名を明らかにしていません。
以下の表は、Moore Threadsが公開したMT-infini-3Bとその他の大規模言語モデルのベンチマーク結果比較表です。表を見ると、MT-infini-3Bはパラメーター数80億のLlama3-8Bを上回る性能を示していることが分かります。また、表には各モデルの学習に使用されたGPUのメーカー名が記されており、Moore ThreadsのGPUがNVIDIA製GPUと同等の用途に使えることがアピールされています。
MT-infini-3Bの学習は、中国企業の无聞芯穹が提供するAI学習プラットフォームを活用して実行されたとのこと。无聞芯穹の夏立雪CEOは「MT-infini-3Bは中国製GPUを用いて最初から最後まで学習された最初の大規模言語モデルです」と述べ、MT-infini-3Bが中国の技術によって構築されていることを強調しています。
05/30 07:00
GIGAZINE