完全にオープンで再現可能な大規模言語モデル「OpenCoder」がリリースされる
上海のAI企業「INF Technology」やオープンソースのAI研究コミュニティ「M-A-P」などに在籍する研究者のチームにより、最終モデルだけでなくトレーニングデータやデータ処理パイプラインなど、モデルを再現するのに必要な情報全てがオープンな大規模言語モデル「OpenCoder」が公開されました。
OpenCoder: Top-Tier Open Code Large Language Models
https://opencoder-llm.github.io/
大規模言語モデルについて「オープンなモデル」と言う場合、どの程度オープンなのかについてはさまざまです。モデルのアーキテクチャが公開されていて誰でも独自のデータで大規模言語モデルをトレーニングできる場合を「オープンソース」、トレーニング済みのモデルが公開されていて誰でも自分のローカルPCで実行できる場合を「オープンウェイト」、トレーニングに使用したデータが公開されていて誰でもトレーニングを再現できる場合を「オープンデータ」と言いますが、OpenCoderは全てを公開している「完全にオープンなモデル」です。
OpenCoderは15億パラメーターのモデルと80億パラメーターのモデルがリリースされており、80億パラメーターのモデルは「完全にオープンなモデル」のカテゴリでベースモデルとしては同規模のモデル内で過去最高のスコアを獲得しました。
OpenCoderは90%のコードデータと10%のコード関連ウェブデータの合計750億トークンを用い、のべ2兆5000億トークン分の事前トレーニングが行われたとのこと。その後、450万個の高品質な例を用いて教師ありファインチューニングが施されました。
記事作成時点で、モデルの作成方法が詳しく記載された論文、トレーニング後のモデル本体、教師ありファインチューニングに用いられた450万個の高品質な例が公開されています。その他のデータについても公開のための作業が進行中とのこと。
実際にOpenCoderを試した人によるコメントによると、実際のところそれほどOpenCoderの品質は高くないようで、GPT-4には遠く及ばず、アリババが開発したQwen2.5 72BモデルやMetaのLlama 3.1 70Bモデルなどにも完全に敗北しているほか、幻覚の発生率も高めとのこと。
他のモデルとは異なり、OpenCoderはモデルの開発に必要な情報全てを公開する取り組みを行っていることから「モデルのパフォーマンスを問わず、全ての工程が公開されている事は全員の利益になることだ」と公開について称賛するコメントも行われています。
11/11 12:00
GIGAZINE