人間のようにマウスやキーボードを操作してゲームをプレイできるAIフレームワーク「Cradle」が開発される
近年ではAIの性能が飛躍的に向上し、現実世界の複雑なシナリオでタスクを実行できるAIエージェントが開発されています。しかし、これらのAIエージェントは複数のシナリオ間で一般化されたタスクを実行する際に失敗することが多いそうで、これは各環境で必要な観察や行動の違いに起因するとのこと。そこで中国の研究チームが、最も統一化されたインターフェースである「スクリーン」を入力に、「キーボード」と「マウス」を出力に使用することで、まるで人間のようにゲームやアプリを操作できるAIフレームワーク「Cradle」を発表しました。
[2403.03186] Cradle: Empowering Foundation Agents Towards General Computer Control
https://arxiv.org/abs/2403.03186
Cradle: Empowering Foundation Agents Towards General Computer Control
https://baai-agents.github.io/Cradle/
Unlocking the Potential of General Computer Control with CRADLE: Steering Through Digital Challenges - MarkTechPost
https://www.marktechpost.com/2024/03/15/unlocking-the-potential-of-general-computer-control-with-cradle-steering-through-digital-challenges/
研究チームはAIエージェントをさまざまなシナリオ間で一般化するため、スクリーンの入力に対してマウスとキーボードで出力してソフトウェアと対話する「General Computer Control(GCC)」を提案しました。
コンピューターは人間とデジタル世界をつなぐ最も重要かつ普遍的なインターフェースであり、AIエージェントが操作できるアプリやゲームなどのソフトウェアを提供すると同時に、ハードウェア要件や故障といった現実のロボットにまつわる問題を回避します。これらの仮想環境をマスターすることは、AIエージェントを一般化する方法として有望です。
GCCの達成には、「スクリーンを通じた視覚情報の適切な理解とそれに基づいた意思決定」「コンピューターと対話するためのキーボードやマウスの正確な制御」「複雑なタスク実行のための推論や経験の保持」「より優れた戦略と解決策を自立的に発見する自己改善」といったさまざまな能力が必要です。そして、GCCに向けた予備的な試みとして開発されたのが、大規模言語モデル(LLM)を活用したAIフレームワークのCradleです。
CradleのバックボーンモデルにはOpenAIのGPT-4oが使用されており、「1:マルチモーダルなインプットを処理する情報収集モジュール」「2:過去の経験を再考する自己反省モジュール」「3:次に行う最適なタスクを選択するタスク推論モジュール」「4:特定のタスクに関連したスキルを生成・更新するスキル収集モジュール」「5:キーボードとマウスによるアクションを決定するアクション計画モジュール」「6:過去の経験とスキルを保存するメモリモジュール」の、合計6つのモジュールで構成されています。これらのモジュールによってCradleはさまざまなタスクを実行し、ゲームをプレイすることも可能だとのこと。
Cradleはゲームのプレイにおいて、「NPCを追いかける」「特定の場所に行く」といった単純なタスクでは、かなり高い成功率を発揮したと研究チームは報告しています。その一方で、空間認識や時間に関連する意思決定が苦手なため、「危険で曲がりくねった道を進む」「リアルタイムの戦闘や捜索タスクを実行する」といったタスクになると成功率は下がるそうです。
実際にCradleがゲームをプレイする様子は、YouTubeに投稿された複数の動画で確認できます。以下はオープンワールド型のアクションゲームである「Red Dead Redemption 2」を、Cradleがプレイした動画で、Cradleは40分かかる1つのミッションを成功させることができたとのこと。
Cradle Mastering Tasks in Chapter 1 of Red Dead Redemption II (at 16x speed) - YouTube
都市開発シミュレーションゲームの「Cities: Skylines」をCradleがプレイした動画が以下。Cradleは水道管の接続に失敗して市内で水不足が発生するといったミスを犯したものの、利用可能なエリアを住宅・商業施設・工業地帯でカバーすることには成功したと報告されています。
Cradle Mastering Tasks in Cities: Skylines (at 16x speed) - YouTube
以下はスローライフ体験ゲーム「Stardew Valley」のプレイ動画です。Cradleはオブジェクトの操作やキャラクターとの対話に苦労したものの、パースニップを収穫することができました。
Cradle Mastering Tasks in Stardew Valley (at 16x speed) - YouTube
また、Cradleはゲームだけでなく「Chromeで論文をダウンロードする」「ChromeからX(旧Twitter)に投稿する」「Chromeでページを開いたり閉じたりする」「Outlookで特定のメールを探し出す」「Outlookで返信する」といったタスクで、一定の成功率を記録しました。しかし、ChromeやOutlookなどの標準的なGUIでも、特定のUIを認識できなかったり視覚的なコンテキストを見失ったりすることがあり、その他の非標準的なソフトウェアだと成功率はさらに下がったのことです。
研究チームは、「私たちの知る限り、CradleはAIエージェントが組み込みAPIに依存することなく、このように多様な環境で成功することを可能にする最初のフレームワークです」「まだCradleは特定のタスクにおいて困難な状況に直面することもありますが、フレームワークのさらなる拡張とLLMの進歩の両方を組み合わせることで、コンピューター制御タスク全体でより強力なLLMベースの汎用(はんよう)エージェントを開発するための先駆的研究として役立ちます」と述べました。
07/17 21:00
GIGAZINE