Metaが「マルチトークン予測」を実行する事前トレーニング済みのコード生成モデルをオープンソースでリリース

Metaが「マルチトークン予測」を実行する事前トレーニング済みのコード生成モデルをオープンソースでリリース - 画像


通常、大規模言語モデル(LLM)のほとんどは「次の単語を予測する」という作業を行っており、一度に出力されるデータ(トークン)は1つです。これに対しMetaは2024年4月の論文で、一度に複数のトークンを出力する「マルチトークン予測」というアプローチを提案しています。7月4日、Metaがマルチトークン予測を用いた事前トレーニング済みモデルを、AI開発プラットフォームのHugging Faceにオープンソースでリリースしました。
In April we published a paper on a new training approach for better & faster LLMs using multi-token prediction. To enable further exploration by researchers, we’ve released pre-trained models for code completion using this approach on @HuggingFace ⬇️https://t.co/OnUsGcDpYx— AI at Meta (@AIatMeta) July 3, 2024
facebook/multi-token-prediction · Hugging Face
https://huggingface.co/facebook/multi-token-prediction
Meta drops AI bombshell: Multi-token prediction models now open for research | VentureBeat
https://venturebeat.com/ai/meta-drops-ai-bombshell-multi-token-prediction-models-now-open-for-research/
Meta open-sources new ‘multi-token prediction’ language models - SiliconANGLE
https://siliconangle.com/2024/07/04/meta-open-sources-new-multi-token-prediction-language-models/
ほとんどの大規模言語モデルは一度に1つのトークンを出力しており、これは単純でスケーラブルな一方、トレーニングに膨大なデータが必要で非効率的という問題点もあります。これに対し、Metaが提案したマルチトークン予測は一度に複数のトークンを生成することで、大規模言語モデルのパフォーマンスとトレーニング効率が向上するとされています。
Metaは7月4日に、マルチトークン予測を実装した4つのトレーニング済み大規模言語モデルを、Hugging Faceにオープンソースで公開しました。4つのモデルはコード生成タスクに焦点を当てており、それぞれ70億のパラメーターを備えています。
テクノロジー系メディア・SiliconANGLEによると、各モデルは一度に4つのトークンを出力するとのこと。マルチトークン予測が従来のアプローチより高品質のコードを生成する理由は不明ですが、大規模言語モデルのトレーニングに使われる「teacher-forcing(教師強制)」という手法による制限が、複数のトークン生成によって緩和される可能性があるとMetaは考えています。
Metaは、マルチトークン予測を採用したモデルのパフォーマンスを、コーディングタスクのベンチマークであるMBPPとHumanEvalでテストしました。その結果、従来の大規模言語モデルと比較してMBPPで17%、HumanEvalで12%優れたパフォーマンスを発揮し、出力速度も3倍に向上したとのことです。

Metaが「マルチトークン予測」を実行する事前トレーニング済みのコード生成モデルをオープンソースでリリース - 画像


テクノロジー系メディア・VentureBeatは、マルチトークン予測は単なる大規模言語モデルの効率向上にとどまらず、言語構造やコンテキストをより高い精度で理解できるようにすることで、人間とAIの間のギャップを埋める可能性があるとしています。その一方で、AIを用いた誤情報の生成やサイバー攻撃など、潜在的な悪用の障壁も下げてしまうため、高度なAIツールをオープンソースで公開することはメリットとデメリットの両方があると指摘しました。

ジャンルで探す