ArmがAI向けの次世代プラットフォーム「CSS for Client」や前世代からAI性能46%向上のArmv9.2アーキテクチャCPUコア「Cortex-X925」を発表


Armがスマートフォンやタブレット向けのコンピューティングプラットフォームとして「Arm Compute Subsystems(CSS) for Client」を発表し、Armv9アーキテクチャで設計されるCPUコア「Cortex-X925」「Cortex-A725」を追加することを明らかにしました。
Arm CSS for Client: The Compute Platform for AI-powered Consumer Experiences - Arm Newsroom
https://newsroom.arm.com/blog/arm-css-for-client-platform
New Armv9 CPUs for Accelerating AI on Mobile and Beyond - Arm Newsroom
https://newsroom.arm.com/blog/armv9-cpus-consumer-devices
Arm Unveils 2024 CPU Core Designs, Cortex X925, A725 and A520: Arm v9.2 Redefined For 3nm
https://www.anandtech.com/show/21399/arm-unveils-2024-cpu-core-designs-cortex-x925-a725-and-a520-arm-v9-2-redefined-for-3nm-
CSS for Clientは、第2世代Armv9.2アーキテクチャのCPUコアや第5世代GPUコアなどのハードウェア、Android用の包括的なリファレンスソフトウェアスタック、AIフレームワークのKleidiAIや画像処理ライブラリのKleidiCV、Arm Performance Studioを通じた堅牢(けんろう)なツール環境を統合してクライアントデバイスのパフォーマンスと効率を最適化するための包括的なプラットフォームです。


CSS for Clientの構成ラインナップは以下の通り。


Armv9.2アーキテクチャで設計されるCortex-X925は、開発時「Blackhawk」というコードネームで呼ばれていたCPUプライムコアです。2023年における最上位クラスのスマートフォンと比較して、シングルスレッドパフォーマンスが36%、前世代のArm Cortex-X4と比較してAIパフォーマンスが46%上昇するとのこと。


Armv9.2アーキテクチャは、IPC(サイクルあたりの命令実行数)を最大化するように改良しているとのこと。この強化により、コアはより多くの命令を同時に実行できるようになり、実行ユニットの利用率が向上し、全体的なスループットが向上します。
Armは、この広い命令パスをサポートするために、命令ウィンドウのサイズを2倍に拡大しました。これにより、プログラムやシステムが処理を停止してしまう状態が減少し、実行パイプラインの効率が向上します。さらにArmは、L1命令キャッシュの帯域幅を2倍に拡大し、L1命令TLBのサイズも同様に拡大しています。これらの機能強化により、コアは命令を迅速にフェッチおよびデコードできるようになり、遅延を最小限に抑え、性能を最大限が引き出されるとのこと。


そしてCPU高性能コアとして、Cortex-A725が発表されました。


Cortex-A725はCortex-A720と比較してパフォーマンス効率が35%向上、電力効率が25%向上したとArmはアピール。また、L2キャッシュが1MBに増量されており、特に高速なデータ取得を必要とするアプリケーションでレイテンシが軽減され、パフォーマンスが向上するとのこと。


さらに、高効率コアのCortex-A520は、CSS for Client向けに3nmノードを採用する形でアップデートされ、前世代プラットフォームであるTCS23のCortex-A520と比較して電力効率が15%向上しています。
GPUは前世代のImmortalis-G720から第5世代GPUアーキテクチャを進化させたImmortalis-G925で、14コアと4MBのL2キャッシュを搭載し、グラフィックス性能が37%向上しています。
CSS for ClientのパワーマネジメントをつかさどるDynamIQ Shared Unit(DSU)は、TCS23と同じくDSU-120ですが、新しくパフォーマンスモード・効率性モード・低消費電力モードが追加され、コンシューマーデバイス向けの機能強化が含まれるほか、最大14コアまで拡張できるオプションも維持されています。これらにより、一般的なワークロードでは消費電力を50%削減、CPUクラスタ全体ではキャッシュミス電力を60%削減し、消費者向けデバイスのバッテリー寿命を向上させるように改良されているとのこと。


Armによると、CSS for ClientはAI向けを想定しており、前世代のCortex-X4と比較して、大規模言語モデル(LLM)のLLaMA 3を実行して最初のトークンを出力するまでの時間が42%高速化、Phi-3の場合は46%高速化したと述べています。


CSS for Clientは前世代プラットフォームであるTCS23と比較して、CPUでのAI推論が59%高速化、GPUでのAI推論が36%高速化したとのこと。さらにCortex-X925を2基にすることで、Cortex-X4×1基のTCS23構成と比較してCPUでのAI推論が2.7倍に高速化したとArmはアピールしています。


ArmはAIに特化したCSS for Clientのユースケースとして、写真の背景をぼかしてリアルなボケ効果を加えるカメラの画像処理を挙げています。TCS23と比較すると、CSS for Clientは写真にボケを追加するAI処理のパフォーマンスが24%向上し、バッテリー寿命を犠牲にすることなく写真やビデオでより高速でスムーズなボケ効果を楽しむことができるとArmは述べています。


なお、Armによれば、CSS for Clientの物理的実装は3.6GHzを超えるクロック速度を達成し、3nmノードで最適な電力・性能・面積メトリクスを提供することができるとのこと。3nmノードについて、Armは「CSS for Clientのコアクラスタ製造は、TSMCとSamsungの3nmプロセスが主要な選択肢です」と述べています。

ジャンルで探す