AppleがアシスタントAI「Apple Intelligence」の性能を示すベンチマーク結果を公開、GPT-4-Turboとの性能差も明らかに

AppleがアシスタントAI「Apple Intelligence」の性能を示すベンチマーク結果を公開、GPT-4-Turboとの性能差も明らかに - 画像


Appleが、Apple製デバイス向けのパーソナルAI「Apple Intelligence」のベンチマーク結果を公開しました。
Introducing Apple’s On-Device and Server Foundation Models - Apple Machine Learning Research
https://machinelearning.apple.com/research/introducing-apple-foundation-models

AppleがアシスタントAI「Apple Intelligence」の性能を示すベンチマーク結果を公開、GPT-4-Turboとの性能差も明らかに - 画像


Apple Intelligenceは2024年6月11日2時からAppleが開催している年次開発者会議「WWDC24」の基調講演にて発表されました。基調講演のうち、Apple Intelligenceに関する内容は下記の記事で確認できます。
Appleが新たなパーソナルAIの「Apple Intelligence」を発表、OpenAIとの提携でSiriがChatGPTをサポート - GIGAZINE

AppleがアシスタントAI「Apple Intelligence」の性能を示すベンチマーク結果を公開、GPT-4-Turboとの性能差も明らかに - 画像


Apple IntelligenceはiPhoneなどのデバイス上で実行できる約30億パラメーターのデバイス版モデルと、より大規模で高性能なサーバー版モデルの2つに分かれています。いずれのモデルについても、学習元となるデータの収集を含め、トレーニングや最適化などモデル作成における全ての段階についてAppleが責任を持って管理しており、プライバシー基盤の上で構築されているとのこと。

AppleがアシスタントAI「Apple Intelligence」の性能を示すベンチマーク結果を公開、GPT-4-Turboとの性能差も明らかに - 画像


Apple Intelligenceの基礎モデルはAppleのAXLearnフレームワークでトレーニングされており、学習元となるデータについてはライセンスされたデータが使用されています。また、データをフィルターしてクレジットカード情報など個人を特定できる情報を削除したり、下品な言葉や低品質のコンテンツを除外したりしたと述べられています。
基礎モデルはユーザーの日常活動にあわせてファインチューニングされていますが、モデルのさまざまなレイヤーに「プラグイン」できるアダプターを使用することで特定のタスク処理能力を高めているとのこと。

AppleがアシスタントAI「Apple Intelligence」の性能を示すベンチマーク結果を公開、GPT-4-Turboとの性能差も明らかに - 画像


今回発表されたApple Intelligenceのモデルについて、他のモデルとのベンチマーク比較結果が公開されています。デバイス版モデルの比較対象は「Gemma」の2Bモデルと7Bモデルのほか「Mistral-7B」「Phi-3-mini」など小規模なオープンモデルで、サーバー版モデルの比較対象は「DBRX-Instruct」「Mixtral-8x22B」など大規模なオープンモデルおよびOpenAIの商用モデル「GPT-3.5-Turbo」「GPT-4-Turbo」です。
下図は実世界を模したさまざまなプロンプトに対する回答を人間が「どちらが優れているか?」で評価した結果。デバイス版モデルでは全ての比較対象よりも明確に「Appleのモデルが優れている」という回答が上回り、サーバー版モデルでもDBRX-Instruct・GPT-3.5-Turbo・Mixtral-8x22Bに対しては上回りましたがGPT-4-Turboとの比較ではGPT-4-Turboに軍配が上がりました。

AppleがアシスタントAI「Apple Intelligence」の性能を示すベンチマーク結果を公開、GPT-4-Turboとの性能差も明らかに - 画像


セーフティを回避しようとする敵対的プロンプトに対して有害なコンテンツを出力する可能性を比較すると、Apple Intelligenceのモデルはデバイス版・サーバー版ともに比較対象の中で最も有害なコンテンツを生成しにくいという結果になりました。

AppleがアシスタントAI「Apple Intelligence」の性能を示すベンチマーク結果を公開、GPT-4-Turboとの性能差も明らかに - 画像


有害なコンテンツを生成させようとするプロンプトに対する回答に限定すると、Apple Intelligenceモデルの回答は比較対象よりも大幅に好ましいと評価されています。

AppleがアシスタントAI「Apple Intelligence」の性能を示すベンチマーク結果を公開、GPT-4-Turboとの性能差も明らかに - 画像


また、命令にどれほど追従できたかを測定するIFEvalベンチマークではデバイス版モデルが比較対象の中で最高のスコアを記録し、サーバー版モデルはGPT-4-Turboと同等のスコアを記録しています。

AppleがアシスタントAI「Apple Intelligence」の性能を示すベンチマーク結果を公開、GPT-4-Turboとの性能差も明らかに - 画像


下図は要約および作文という文章作成能力のベンチマーク結果です。デバイス版モデル・サーバー版モデルともに最高レベルの性能を発揮できていることがわかります。

AppleがアシスタントAI「Apple Intelligence」の性能を示すベンチマーク結果を公開、GPT-4-Turboとの性能差も明らかに - 画像


なお、言語モデルや拡散モデル、コーディングモデルなどApple Intelligenceのより広範なモデルファミリーについて近いうちに詳細情報を公開する予定とのことです。

ジャンルで探す