無料で商用利用可能な大規模言語モデル「Mixtral 8x7B」が登場、低い推論コストでGPT-3.5と同等以上の性能を発揮可能

無料で商用利用可能な大規模言語モデル「Mixtral 8x7B」が登場、低い推論コストでGPT-3.5と同等以上の性能を発揮可能 - 画像


GoogleのDeepMindやMeta出身の研究者によって設立されたAI企業のMistral AIが、大幅にモデルのサイズを縮小してコストパフォーマンスに優れた推論を行える大規模言語モデル「Mixtral 8x7B」をリリースしました。多くのベンチマークでGPT-3.5やLlama 2 70Bを上回る性能を持つとされています。
Mixtral of experts | Mistral AI | Open source models
https://mistral.ai/news/mixtral-of-experts/
Mistral AIは2023年5月に設立されたフランスのスタートアップAI企業で、9月にはパラメーター数を70億に抑えながら「Llama 2 13B」や「Llama 1 34B」を上回る性能を持つ大規模言語モデル「Mistral 7B」をリリースするなど積極的にAIの開発を行っています。2023年12月に行った資金調達では評価額が約3000億円とされており、急速に規模を拡大しています。
そんなMistral AIが2023年12月11日に新たなモデル「Mixtral 8x7B」をリリースしました。Mixtral 8x7BはMistral 7BモデルをベースにTransformer内のFeedForwardブロックを8倍のサイズに拡張したモデルとのこと。モデルの一部のみが8倍になっているため、パラメーターの総数は560億ではなく467億となっています。
さらに、推論において毎回全てのFeedForwardブロックを使用するのではなく、8個のブロックのうち2つのみをトークンの処理に利用することで、トークンの処理に利用されるパラメーターの数を129億に抑えています。この仕組みを利用することで129億パラメーターと同じ速度・同じコストで推論を行う事が可能とのこと。
Mixtral 8x7Bのスペックは下記の通り。
・3万2000トークンのコンテキストを処理可能
・英語、フランス語、イタリア語、ドイツ語、スペイン語に対応
・コード生成において強力なパフォーマンスを発揮
・ファインチューニングでMT-Benchで8.3というスコアを出せる命令追従モデルにすることが可能
大規模言語モデルの評価に使用されるさまざまなベンチマークにおいて、Mixtral 8x7BはLLaMA 2 70BやGPT-3.5と同等かそれ以上の評価を獲得しています。パラメーター数が小さく推論コストが低いため、かなりコストパフォーマンスが高くなっています。

無料で商用利用可能な大規模言語モデル「Mixtral 8x7B」が登場、低い推論コストでGPT-3.5と同等以上の性能を発揮可能 - 画像


Mistral 7Bと推論コストあたりの性能を比較した結果は下図の通り。この図からも推論コストを抑えつつパフォーマンスが向上していることが分かります。

無料で商用利用可能な大規模言語モデル「Mixtral 8x7B」が登場、低い推論コストでGPT-3.5と同等以上の性能を発揮可能 - 画像


また、Mixtral 8x7Bは幻覚や偏見についても改善が行われており、多くの指標でLlama 2 70Bモデルを上回りました。

無料で商用利用可能な大規模言語モデル「Mixtral 8x7B」が登場、低い推論コストでGPT-3.5と同等以上の性能を発揮可能 - 画像


同時に多言語対応も行われており、英語のほかにフランス語、イタリア語、ドイツ語、スペイン語をLlama 2 70Bモデル以上にうまく扱うことができます。

無料で商用利用可能な大規模言語モデル「Mixtral 8x7B」が登場、低い推論コストでGPT-3.5と同等以上の性能を発揮可能 - 画像


Mixtral 8x7BはApache 2.0でライセンスされているオープンソースモデルで、自由に改変や商用利用することが可能です。モデル自体がHugging Faceでホスティングされているほか、Mistral AIのmistral-smallエンドポイントを通して利用することが可能とのこと。ただし、記事作成時点ではmistral-smallエンドポイントはベータ版となっており、待機リストに登録して順番待ちをする必要がありました。

無料で商用利用可能な大規模言語モデル「Mixtral 8x7B」が登場、低い推論コストでGPT-3.5と同等以上の性能を発揮可能 - 画像

ジャンルで探す