Appleが複数のAIベンチマークで最先端のパフォーマンスを実現できるマルチモーダルAIの構築手法を発表、AIとApple製品にとって大きな進歩となる可能性

Appleが複数のAIベンチマークで最先端のパフォーマンスを実現できるマルチモーダルAIの構築手法を発表、AIとApple製品にとって大きな進歩となる可能性 - 画像


Appleの研究者チームが、パフォーマンスの高いマルチモーダル大規模言語モデル(MLLM)を構築する手法「MM1」を発表しました。
[2403.09611] MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
https://arxiv.org/abs/2403.09611


Apple researchers achieve breakthroughs in multimodal AI as company ramps up investments | VentureBeat
https://venturebeat.com/ai/apple-researchers-achieve-breakthroughs-in-multimodal-ai-as-company-ramps-up-investments/
Appleの研究チームが、テキストと画像の両方で大規模言語モデルとトレーニングする新しい手法「MM1」を開発しました。これについて、テクノロジーメディアのVentureBeatは「より強力かつ柔軟なAIシステムの構築が可能となり、AIとApple製品にとって大きな進歩となる可能性があります」と指摘しています。
Appleが発表したMM1に関する研究論文では、複数のトレーニングデータとモデルアーキテクチャを慎重に組み合わせることで、どのような結果が得られるかが示されています。MM1を用いることで、さまざまなAIベンチマークテストで最先端のパフォーマンスを実現することが可能です。
研究チームは、「我々は『画像キャプション』や『インターリーブされた画像テキスト』、『テキストのみのデータ』を慎重に組み合わせた大規模なマルチモーダル事前トレーニングが、複数のベンチマークにわたって最先端の結果を達成するのに重要であることを実証しました」と説明しています。
MM1は、資格情報と言語情報にわたる多様なデータセットでモデルをトレーニングすることで、画像キャプション・視覚的な質問応答・自然言語推論などのタスクで優れた性能を発揮することに成功しています。

Appleが複数のAIベンチマークで最先端のパフォーマンスを実現できるマルチモーダルAIの構築手法を発表、AIとApple製品にとって大きな進歩となる可能性 - 画像


研究チームによると、画像エンコーダーの選択と入力画像の解像度がモデルのパフォーマンスに大きな影響を与えることも発見しています。研究チームは「我々は画像エンコーダーと画像の解像度、画像のトークン数が大きな影響を与える一方で、視覚言語コネクタの設計は比較的無視できることを示しました」と記しています。これについて、VentureBeatは「マルチモーダルモデルの視覚コンポーネントの継続的なスケーリングと洗練が、さらなる利益を引き出すカギとなることを示唆しています」と指摘しました。
最大300億のパラメーターを保持するMM1は、強力なコンテキスト内学習能力を有し、思考連鎖プロンプトを使用して複数の入力画像に対して多段階の推論を実行することに成功しています。これは大規模マルチモーダルモデルが、根拠のある言語の理解と生成を必要とする複雑で無制限な問題に取り組むことができる可能性を示しているそうです。
MM1について、VentureBeatは「生成AIと製品の統合を進めるGoogleやMicrosoft、Amazonといったライバル企業に追いつくために、AppleがAI分野への投資を強化する中でMM1が発表されました」と指摘しました。なお、AppleがAI開発に多額の資金を投じていることはしばらくウワサされており、2024年2月末に行われた株主総会の中でAppleのティム・クックCEOがAIへ多額の投資を行っていることを認めています。
AppleがAI開発に多額の投資を行っていることを明かし「2024年後半に詳細を明らかにする」と話す - GIGAZINE


Appleは「Ajax」と呼ばれる大規模言語モデルを開発するためのフレームワークと、「Apple GPT」と呼ばれるチャットAIを開発中であると報じられています。Appleの目標はApple GPTを、Siriやメッセージアプリ、Apple Musicといったサービスと統合することであると目されており、AIを使用して音楽のプレイリストを自動作成したり、開発者のコード作成を支援したり、自由な会話やタスクの完了に参加したりすることができるようになると考えられます。
Appleが独自の大規模言語モデルとチャットボットAI「Apple GPT」を開発中か - GIGAZINE


ジャンルで探す