GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能

GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - 画像


Googleがテキスト・画像・ムービーをまとめて処理できるマルチモーダルAI「Gemini」の次世代モデルとして「Gemini 1.5」を発表しました。処理できるトークン数の上限が100万まで上昇したほか、従来の1.0モデルと比べて少ない計算で高い品質の結果を提供できるとのことです。
Google Japan Blog: 次世代モデル、 Gemini 1.5 を発表
https://japan.googleblog.com/2024/02/gemini-15.html
従来モデルであるGemini 1.0は「GPT-4を超える性能のマルチモーダルAI」として2023年12月6日に登場しました。最上位モデルのGemini 1.0 Ultraを使用したハンズオンムービーではまるで人間かと思うような受け答えをしている様子が確認できます。
文字・音声・画像を同時に処理して人間以上に自然なやりとりができるGPT-4を超える性能のマルチモーダルAI「Gemini」がリリースされる - GIGAZINE

GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - 画像


そして2024年2月15日、GoogleはGeminiの次世代モデルとして「Gemini 1.5」を発表しました。発表と同時に、Gemini 1.5 ProモデルがプライベートプレビューとしてAI StudioおよびVertex AIにて利用可能になっているとのこと。「Gemini 1.5 Proは動作に必要なコンピューティングリソースを削減しながらGemini 1.0 Ultraと同等の性能を出せる」「さまざまな面で劇的な改善が行われている」とGoogleとAlphabetのCEOであるサンダー・ピチャイは語りました。
Gemini 1.5 Proの標準コンテキストウィンドウは12万8000トークンとなっていますが、初期のテスターとして選ばれた一部の企業や開発者は最大で100万トークンまで対応しているGemini 1.5 Proを利用可能です。100万トークンというのは「1時間のムービー」「11時間の音声」「3万行以上のコード」「70万語以上のテキスト」に匹敵するとのこと。なお、研究段階では最大で1000万トークンの処理にも成功しています。

GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - 画像


実際にGemini 1.5 Proの実力を証明するデモムービーが複数本YouTubeにアップロードされています。1本目はアポロ11号の402ページにわたる記録を読むという内容です。
Reasoning across a 402-page transcript | Gemini 1.5 Pro Demo - YouTube

402ページの記録は約33万トークンとのこと。

GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - 画像


PDFファイルをアップロードし、「3つの笑えるタイミングを見つけて引用し、絵文字を付けてください」とプロンプトを入力。

GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - 画像


ちゃんと「ふざけたやりとり」の部分を抜き出すことができました。

GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - 画像


一歩を踏み出す画像を用意して「これはどんな瞬間ですか?」と聞くとGemini 1.5 Proは「人間が初めて月面を歩いた瞬間」と答えました。

GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - 画像


2本目の例は44分のムービーを解釈するというもの。
Multimodal prompting with a 44-minute movie | Gemini 1.5 Pro Demo - YouTube

44分のムービーは約70万トークンです。

GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - 画像


Gemini 1.5 Proにムービーを渡し、「人のポケットから紙を取り出す瞬間を見つけて時間と文脈を教えて」と頼みます。

GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - 画像


するとGemini 1.5 Proはその出来事が発生した時間を正確に伝えるだけでなく、ムービー内の日付や人物、紙の内容などの情報を出力しました。

GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - 画像


手書きの画像を元に「これが発生した時間は?」と聞いても対応できています。

GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - 画像


最後は10万行を超えるコードを読むという内容です。
Problem solving across 100,633 lines of code | Gemini 1.5 Pro Demo - YouTube

トークン数は約82万とのこと。three.jsのサンプルコードが使用されています。

GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - 画像


「コードに含まれているデモのうち、キャラクターをアニメーションさせる技術について学べるものを3つ見せて」とお願いするとデモの説明付きで紹介してくれます。

GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - 画像


テキストでコードの変更を依頼することも可能です。「アニメーションのスピードを調整するスライダーを付けて」と頼むと適切なコードを生成してくれました。

GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - 画像


Gemini 1.5 Proを使ってみたい開発者は「AI Studio」の待機リストに登録すればよく、企業の場合はVertex AIのアカウントチームへ問い合わせるように求められています。
Googleはモデルの幅広いリリースの準備が整い次第12万8000トークンのコンテキストウィンドウを持ったGemini 1.5 Proを一般公開し、その後モデルを改善しながら100万トークンまでコンテキストウィンドウをスケールアップできるプランを用意する予定と述べています。

ジャンルで探す