「Llama 2-7B」の1万分の1以下の学習コストなのにLlama 2-7Bを上回る大規模言語モデル「JetMoE-8B」が登場

「Llama 2-7B」の1万分の1以下の学習コストなのにLlama 2-7Bを上回る大規模言語モデル「JetMoE-8B」が登場 - 画像

数千億円をかけた訓練リソースを用いるMetaの「Llama 2-7B」を上回る性能を持ちながら、学習コストは1000万円以下に抑えられるという大規模言語モデル「JetMoE-8B」が登場しました。
JetMoE
https://research.myshell.ai/jetmoe
GitHub - myshell-ai/JetMoE: Reaching LLaMA2 Performance with 0.1M Dollars
https://github.com/myshell-ai/JetMoE
jetmoe/jetmoe-8b · Hugging Face
https://huggingface.co/jetmoe/jetmoe-8b
AI開発企業・MyShellがリリースしたJetMoE-8Bは、学習コストが既存のモデルに比べて格段に低いため、民生グレードのGPUなどでもモデルの微調整が可能だとされています。また、トレーニングに公共データセットのみを使用しているほか、コードはオープンソースでありプロプライエタリなリソースは必要ないことなどを特徴としています。
JetMoE-8BをLlama 2-7BやDeepseekMoE-16B、Gemma-2Bなどと比較した数値が以下の通り。JetMoE-8Bの推論中のアクティブパラメーターは2.2Bで、これは計算コストがLlamaなどを下回っていることを意味します。MBPP、MMLUなどのデータセットを用いたベンチマークでは、JetMoE-8BはLlama 2-7Bやその他のモデルを上回るスコアを記録しました。

「Llama 2-7B」の1万分の1以下の学習コストなのにLlama 2-7Bを上回る大規模言語モデル「JetMoE-8B」が登場 - 画像

大規模言語モデルを構築できるデモサイト「Lepton AI」から、JetMoE-8Bの実力を確かめられます。
JetMoE | Lepton AI Playground
https://www.lepton.ai/playground/chat?model=jetmoe-8b-chat
まずはログインが必要なので「Login to chat」をクリック。

「Llama 2-7B」の1万分の1以下の学習コストなのにLlama 2-7Bを上回る大規模言語モデル「JetMoE-8B」が登場 - 画像