TransformerとMamba2のハイブリッドとなる小規模言語モデル「Zamba2-7B」が公開される


アメリカのAIスタートアップであるZyphraが、自然言語処理モデルの「Zamba2-7B」をリリースしました。Zyphraは、Zamba2-7BがGoogleのGemmaやMetaのLlama 3シリーズを上回るパフォーマンスを発揮するとアピールしています。
Zyphra is excited to release Zamba2-7B
https://www.zyphra.com/post/zamba2-7b
Zyphra/Zamba2-7B · Hugging Face
https://huggingface.co/Zyphra/Zamba2-7B
Zamba2-7Bは、従来の言語モデルで広く使用されているTransformerアーキテクチャと2023年12月に発表されたMambaアーキテクチャのハイブリッドである「Zambaアーキテクチャ」で設計されています。
また、Zamba2-7Bは前モデルであるZamba1から進化し、Mamba1ブロックがMamba2ブロックに置き換えられ、さらに2つの交互に配置された共有アテンションブロックを導入しています。この「共有」とは、同じ重みを持つアテンションブロックがモデル内の複数の場所で再利用されることを意味します。この共有アプローチにより、モデルの全体的なパラメーター数を抑えつつ、Transformerアーキテクチャの機能を活用することができ、モデルサイズとパフォーマンスのバランスを取ることができるとZyphraは説明しています。
効率性を高めるため、大規模言語モデルのファインチューニングに使われるLoRA(Low-Rank Adaptation)プロジェクターを各共有多層パーセプトロン(MLP)とアテンションブロックに適用し、ネットワークの深さに応じた特殊化を可能にしています。また、共有アテンションレイヤーにRotary Position Embeddingsを導入することで、性能をさらに向上させています。


Zamba2-7Bは約74億のパラメータを持ち、2兆トークンのテキストとコードデータで事前学習を行い、その後約1000億の高品質トークンを用いて追加の学習フェーズを実施しているとのこと。この結果、Zamba2-7B(青)は8B以下のパラメータを持つモデルの中で、Mistral-7B(赤)やGemma 7B(黄)、Llama 3.1-8B(緑)などを上回る性能を示しているとZyphraは主張しています。


特に、ZyphraはZamba2-7Bの推論効率に注目。以下のグラフで示されている通り、Zamba2-7B(赤)は、従来のTransformerベースのモデルと比較して大幅に小さいメモリフットプリントで高速な生成が可能となっており、トークン生成までの時間(左)が25%短縮、トークン生成速度(右)が20%向上しています。


Zamba2-7BはApache 2.0ライセンスでオープンソースとして公開されており、研究者や開発者、企業が自由に利用できるようになっています。Zephraは、Zamba2-7Bが小規模ながら高性能で効率的な言語モデルとして、オンデバイス処理や消費者向けGPU上での実行、さらには多くのエンタープライズアプリケーションに適した選択肢になると述べました。

ジャンルで探す