画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは?

画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは? - 画像


GoogleのマルチモーダルAI「Gemini」を利用して、録画した映像から必要なデータを抽出する「ビデオスクレイピング」について、AI研究者でデータジャーナリストのサイモン・ウィルソン氏が解説しています。
Video scraping: extracting JSON data from a 35 second screen capture for less than 1/10th of a cent
https://simonwillison.net/2024/Oct/17/video-scraping/

画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは? - 画像


Cheap AI “video scraping” can now extract data from any screen recording
https://arstechnica.com/ai/2024/10/cheap-ai-video-scraping-can-now-extract-data-from-any-screen-recording/
AI researcher scrapes usable data from a 35-second screen recording for less than one cent via Google Gemini | Tom's Hardware
https://www.tomshardware.com/tech-industry/artificial-intelligence/ai-researcher-scrapes-usable-data-from-a-35-second-screen-recording-for-less-than-one-cent-via-google-gemini
ウィルソン氏はある日、12通のメールに散らばる数値を集計する機会に遭遇しました。しかし、すべての数値をメールからコピーして表計算ソフトなどに貼り付けるのは手間がかかるため、別のやり方を試してみようと思ったとのこと。
そこでウィルソン氏が考案したのが、GoogleのマルチモーダルAI「Gemini」と画面録画を組み合わせたデータ抽出手法です。まずはOSに搭載された画面録画機能を使い、余計な個人情報が写らないように画面の一部だけを録画するように設定して、Gmailに届いたメールを順番に開きました。ボックス内に抽出したいデータが写るようにして数秒間待機し、それから次のメールを開くという風にしていき、ウィルソン氏は35秒の動画を作成しました。
次に、Geminiを使用できるGoogleのウェブサービス・Google AI Studioに作成した動画をアップロードし、「Turn this into a JSON array where each item has a yyyy-mm-dd date and a floating point dollar amount for that date(これをJSON配列に変換し、各項目に『yyyy-mm-dd』形式の日付と、その日付の浮動小数点ドル額を指定してください)」と指示しました。
すると、Geminiはしっかり日付と金額をJSON配列を出力しました。さらにこのデータをCSV形式に変換するよう指示すると、すぐに表計算ソフトに貼り付けられるCSV形式のデータが得られたとのことです。

画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは? - 画像


念のためにウィルソン氏自身も動画をじっくりと見返し、数値を拾い上げて再計算してみたところ、Geminiが出した答えはすべて正しかったとのこと。また、ウィルソン氏はもともと最新のGemini 1.5 Proを選択する予定が、誤ってより安価なGemini 1.5 Flash 002を選択してしまったそうですが、計算の精度に問題はありませんでした。
Google AI Studioによると、一連の処理では1万1018トークンを使用し、このうち動画に1万326トークンが費やされていました。Gemini 1.5 Flashの利用料金は100万トークンあたり0.075ドル(約11円)であるため、一連の処理にかかるコストはわずか0.08セント(約0.12円)ほどという計算になります。なお、記事作成時点ではGoogle AI Studio自体が無料で提供されているため、実際にウィルソン氏が払った費用はゼロです。
今回のテストは、文字だけでなく音声や動画も処理可能なマルチモーダルAIであるGeminiの性能と、その拡張性を示す結果となっています。
ウィルソン氏は今回のビデオスクレイピングが、「メールを1通ずつ開いて数値を拾い上げて計算する」「Gmailのデータにプログラムでアクセスして計算を実行する」「Gmailアカウントをクリックできるブラウザ自動化ツールを使用して計算する」といった代替案より簡単だと述べました。代替案としては、既存のAIツールにメールアカウント全体へのアクセスを許可し、同様のことを実行させる方法がありますが、セキュリティ上のリスクが伴います。
ウィルソン氏は、「このビデオスクレイピングテクニックの素晴らしいところは、画面に映っているものなら何でも使えるという点です。そして、最終的にAIモデルに公開するものを完全にコントロールできます」「私が得られる結果は、スクリーンキャプチャの範囲をどのように配置し、どのようにクリックしたのかに完全に依存しています。これにセットアップ費用は一切かかりません。サイトにサインインして、録画ボタンを押して少しブラウジングし、動画をGeminiに投入するだけです」と述べました。

画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは? - 画像


テクノロジー系メディアのArs Technicaは、データジャーナリストのような人々が扱うデータソースには、データのフォーマットや保存されている場所、表示形式などがまちまちであるため、自動スクレイピングが難しいことも多いと指摘。今回の方法は、AIの画像認識によって表示形式が異なるデータソースをまとめて扱えるため、データ抽出に対する従来の障壁を回避する可能性があります。
ウィルソン氏は、「私は今後、このテクニックをもっと頻繁に使うことになるでしょう。これは、スクレイピングされたくないソースからデータをスクレイピングする必要性が高いデータジャーナリズムの世界でも応用できます」と述べました。

ジャンルで探す