コード生成・数学・推論の能力が大幅に向上した「Mistral Large 2」をMistral AIがリリース


フランスのAI開発企業・Mistral AIが、新世代の主力モデル「Mistral Large 2」を2024年7月24日に発表しました。Mistral Large 2は、コード生成、数学、推論能力が大幅に向上したほか、128kのコンテキストウィンドウを持ち、数十種類の言語やプログラミング言語にも対応しています。
Large Enough | Mistral AI | Frontier AI in your hands
https://mistral.ai/news/mistral-large-2407/
Mistral Large 2のモデルサイズは1230億パラメーターで、単一ノードで高スループットを実現できるように設計されているとのこと。また、128kのコンテキストウィンドウを持ち、英語以外にもフランス語、ドイツ語、スペイン語、イタリア語、ポルトガル語、アラビア語、ヒンディー語、ロシア語、中国語、日本語、韓国語など多数の言語をサポート。さらにPython、Java、C、C++、JavaScript、Bashを含む80以上のプログラミング言語にも対応しています。
Mistral AIは、「Mistral Large 2は、一般的な性能評価指標であるMMLU(Massive Multitask Language)ベンチマークで84.0%の精度を達成した」とアピールしています。特にコード生成と推論能力の面では前世代のMistral Largeを大幅に上回り、GPT-4やClaude3 Opus、Llama 3 405Bといったモデルと同等の性能を示しているとのこと。
数学的推論能力も向上しており、MultiPL-E、GSM8K、MathInstructなどの数学ベンチマークで高い精度を達成しています。Mistral Large 2では幻覚(ハルシネーション)を最小限に抑える努力がなされ、数学的ベンチマークでの性能向上にも反映されているとMistral AIは主張しました。


コード生成の精度を言語ごとにまとめた表が以下で、OpenAIのGPT-4oに匹敵していることがわかります。


指示に従う能力や会話能力の評価では、MTBench、Wild Bench、Arena Hardなどのベンチマークで高いスコアを記録しています。特筆すべきは、モデルの回答が簡潔であることを重視している点で、短い生成は迅速な対話を可能にし、推論コストも低く抑えられるとMistral AIは述べています。


言語の多様性においても優れた性能を示しており、Multilingual MMULベンチマークでは、Mistral Large 2は英語以外の言語でも高いスコアを達成しました。特に英語のほかにはフランス語、ドイツ語、スペイン語、イタリア語、ポルトガル語、オランダ語、ロシア語、中国語、日本語、韓国語、アラビア語、ヒンディー語で優れた性能を発揮したと報告されています。以下はMultilingual MMULベンチマークの結果を示したもので、4050億パラメーターのLlama 3.1 405Bとほぼ同等である80%以上の精度を示しています。


さらに、Mistral Large 2は関数呼び出しや情報検索のスキルが強化されており、並列および逐次的な関数呼び出しを効率的に実行できるとのこと。これにより、複雑なビジネスアプリケーションの中核エンジンとして機能することが可能になっています。
Mistral Large 2は「La Plateforme」上で「mistral-large-2407」として利用可能なほか、Hugging Faceでモデルが配布されており、APIを通じてアクセスできます。また、Google Cloud PlatformのVertex AI、Azure AI Studio、Amazon Bedrock、IBM watsonx.aiなどの主要クラウドサービスプロバイダーを通じても利用可能です。Mistral AIはMistral Large 2を通じて、高性能なAIモデルをより広範囲のユーザーに提供することを目指しています。
なお、Mistral Large 2は、研究用および非商用利用に対してはMistral Research Licenseの下でリリースされており、商用利用の場合はMistral AIに連絡した上でMistral Commercial Licenseの取得が必要です。

ジャンルで探す