Gemini 1.5 Proを実際に使ってみたエンジニアが「特にムービーの処理がすごい」と絶賛するレビューを投稿

Gemini 1.5 Proを実際に使ってみたエンジニアが「特にムービーの処理がすごい」と絶賛するレビューを投稿 - 画像


Djangoの作者の1人であるエンジニアのサイモン・ウィルソン氏がGemini 1.5 Proを実際に使ってみた感想をブログに投稿しています。
The killer app of Gemini Pro 1.5 is video
https://simonwillison.net/2024/Feb/21/gemini-pro-video/
Gemini 1.5 ProはGoogleが2024年2月16日に発表したマルチモーダルAIで、最大100万トークンを処理できると述べられています。
GoogleがGemini 1.5をリリース、最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 - GIGAZINE

Gemini 1.5 Proを実際に使ってみたエンジニアが「特にムービーの処理がすごい」と絶賛するレビューを投稿 - 画像


ウィルソン氏は「トークンコンテキストサイズが100万まで拡大したのもすごいが、一番エキサイティングなのはムービーを入力できること」と述べ、実際にムービーを処理するとどんな感じなのかを投稿しました。例えば以下のムービーはウィルソン氏の本棚を撮影した約7秒のムービーです。
My bookshelf - YouTube

このムービーでわずか1841トークンしか消費しないのが最初のすごい点で、さらにGeminiはちゃんと内容を読み取って背表紙に書かれた本のタイトルを一覧で出力しました。

Gemini 1.5 Proを実際に使ってみたエンジニアが「特にムービーの処理がすごい」と絶賛するレビューを投稿 - 画像


「JSONにして」と頼むとJSON形式で出力してくれます。

Gemini 1.5 Proを実際に使ってみたエンジニアが「特にムービーの処理がすごい」と絶賛するレビューを投稿 - 画像


それだけでなく、下図のように半分以上が隠れているような本であってもちゃんとLuke Wroblewski著の「Site Seeing: A Visual Approach to Web Usability」であるとGeminiが出力したことにウィルソン氏は特に驚いたとのこと。

Gemini 1.5 Proを実際に使ってみたエンジニアが「特にムービーの処理がすごい」と絶賛するレビューを投稿 - 画像


ただし1件の幻覚が発生してしまったとウィルソン氏は述べています。
ウィルソン氏は続いて下記の約22秒のムービーを撮影しました。少し長めのムービーでしたが、それでもムービーのトークン数はわずか6049トークンだったとのこと。
My bookshelf 2 - YouTube

ウィルソン氏はトークン数があまりにも少ないことからムービーは画像とは異なる形式で処理されているのではないかと疑っていたそうですが、Googleのブログ投稿に「Google AI Studioはムービーを画像に分割する」と書かれているのを見て考えを改めたそうです。
なお、ウィルソン氏は実際に画像の入力も試し、画像1枚が258トークンになることを確認しました。Googleは、Geminiが45分の映画を2674フレーム・68万4000トークンで処理すると述べていることから、68万4000÷2674の計算より1フレーム当たり256トークンで処理していることになり、ムービーを画像に分割して処理していることは間違いなさそうだと結論付けています。

Gemini 1.5 Proを実際に使ってみたエンジニアが「特にムービーの処理がすごい」と絶賛するレビューを投稿 - 画像

ジャンルで探す