Googleがオープンソースのビジュアル言語モデル「PaliGemma」を公開&Llama 3と同等性能の大規模言語モデル「Gemma 2」を発表


Googleが2024年5月15日にビジュアル言語モデル(VLM)の「PaliGemma」と、大規模言語モデル(LLM)の「Gemma 2」を発表しました。PaliGemmaはすでにリリースされており、簡単に試せるデモも公開されています。
Introducing PaliGemma, Gemma 2, and an Upgraded Responsible AI Toolkit - Google Developers Blog
https://developers.googleblog.com/en/gemma-family-and-toolkit-expansion-io-2024/
PaliGemma – Google's Cutting-Edge Open Vision Language Model
https://huggingface.co/blog/paligemma
◆ビジュアル言語モデル「PaliGemma」
PaliGemmaは画像を認識して「画像の内容を説明する」「画像内のテキストを理解する」「画像内のオブジェクトと背景を分離する」といった操作が可能なビジュアル言語モデルです。
PaliGemmaはGitHub、Hugging Face、Kaggle、Vertex AI Model Gardenで入手可能なほか、NVIDIAも自社製GPUに最適化したPaliGemmaを開発しています。また、PaliGemmaの機能を試せるデモページも以下のリンク先で公開されています。
PaliGemma Demo - a Hugging Face Space by google
https://huggingface.co/spaces/google/paligemma


実際に、デモページでPaliGemmaの機能を試してみました。ティッシュ箱が写る画像と「これは何?」というテキストを入力して「Run」をクリック。


すると、「グレーのカーペットの上に座ってる白いティッシュボックス」という回答が返ってきました。


◆大規模言語モデル「Gemma 2」
Googleは2024年2月にGeminiの研究資源を活用したオープンソースのLLM「Gemma」を公開していました。新たに、GoogleはGemmaの強化版であるGemma 2を発表しました。
Googleがオープンかつ商用利用可能で軽量な大規模言語モデル「Gemma」を公開 - GIGAZINE


Gemma 2のパラメータ数は270億で、パラメータ数700億のLlama 3 70Bに匹敵する性能を発揮するとのこと。また、Gemma 2はNVIDIA製GPUやGoogleのAIプラットフォーム「Vertex AI」に最適化されており、同等クラスのモデルと比べて半分未満のリソースで動作させられます。
記事作成時点ではGemma 2は事前トレーニングの最中ですが、すでに各種ベンチマークテストでGrokを上回るスコアを示しています。


なお、Gemma 2は今後数週間以内に公開される予定です。

ジャンルで探す