vfpbench」カテゴリーアーカイブ

vfpbench

Pixel 7a Google Tensor G2 の vfpbench の結果

Google の Pixel 7a は Pixel 7 や Fold と同じ Tensor G2 が搭載されています。Tensor G2 でも vfpbench を走らせてみました。

Tensor G2 には 3種類の CPU Core が搭載されています。

Cortex-A55x41.80 GHz
Cortex-A78x22.35 GHz
Cortex-X1x22.85 GHz

それぞれの結果を詳しく見ると、A55 はスカラーの add, mul, fma や 64bit 演算で 2命令走りますが 128bit 演算では 1命令です。よって 64bit 演算 x2 の構成であることがわかります。

A55
FPU fmul (32bit x1) n8            :    0.319     3389.7     3389.7  (  1.0 1.9)
FPU fadd (32bit x1) n8            :    0.334     3243.8     3243.8  (  1.0 1.8)
FPU fmadd (32bit x1) n8           :    0.319     6785.6     3392.8  (  2.0 1.9)
NEON fmul.4s (32bit x4) n12       :    0.924     7027.6     1756.9  (  4.0 1.0)
NEON fadd.4s (32bit x4) n12       :    0.928     6995.3     1748.8  (  4.0 1.0)
NEON fmla.4s (32bit x4) n12       :    0.924    14046.3     1755.8  (  8.0 1.0)

対して A78 はスカラーも 128bit 演算も変わらず 2命令で一定なので、128bit x2 になります。

A78
FPU fmul (32bit x1) n8            :    0.301     4676.9     4676.9  (  1.0 2.0)
FPU fadd (32bit x1) n8            :    0.301     4678.5     4678.5  (  1.0 2.0)
FPU fmadd (32bit x1) n8           :    0.301     9353.7     4676.9  (  2.0 2.0)
NEON fmul.4s (32bit x4) n12       :    0.452    18712.2     4678.1  (  4.0 2.0)
NEON fadd.4s (32bit x4) n12       :    0.452    18713.6     4678.4  (  4.0 2.0)
NEON fmla.4s (32bit x4) n12       :    0.452    37368.1     4671.0  (  8.0 2.0)

最上位の Cortex-X1 はスカラー・ベクター関係なく add/mul 演算で 4命令、fma で 2命令です。fma のピーク値だけ見るとあまり差がないように見えますが、128bit x4 と演算能力が大きく拡張されており高いスループットが期待できます。

X1
FPU fmul (32bit x1) n8            :    0.151    11337.4    11337.4  (  1.0 4.0)
FPU fadd (32bit x1) n8            :    0.150    11370.1    11370.1  (  1.0 4.0)
FPU fmadd (32bit x1) n8           :    0.301    11364.5     5682.3  (  2.0 2.0)
NEON fmul.4s (32bit x4) n12       :    0.226    45347.7    11336.9  (  4.0 4.0)
NEON fadd.4s (32bit x4) n12       :    0.226    45353.3    11338.3  (  4.0 4.0)
NEON fmla.4s (32bit x4) n12       :    0.448    45813.8     5726.7  (  8.0 2.0)

まとめると以下の通りです。

s-adds-muls-fmav-addv-mulv-fma
Cortex-A5522211164bit x2
Cortex-A78222222128bit x2
Cortex-X1442442128bit x4

関連エントリ

Meta Quest3 の CPU (Snapdragon XR2 Gen2)

Meta Quest 3 は今年 (2023年) の 10月に発売されたばかりの最新の VR ヘッドセットです。Inside Out のセルフトラッキングのみで 6.6DoF を実現する Quest シリーズの 3世代目であり、カラーパススルーに対応したことで MR ゲームもプレイできるようになりました。

シースルー型の HoloLens と違い、ディスプレイ部が視界の一部のみに限られていることもありません。HoloLens に期待していた世界が Quest3 でようやく現実になったといえます。

MR 機能だけでなく、世代が上がりプロセッサもトラッキングも強化されています。特にコントローラーはトラッキング用の LED リングが無くだいぶ小さくなりました。VR というより Switch のような左右分離型のただのゲームコントローラーに見えます。

その Quest3 で以前 Termux が動くことを確認したので同時に vfpbench も走らせてみました。ただし実行中も画面の描画やトラッキングは行われていたため、結果の値には注意が必要です。プロセッサ自体のピーク性能ではなく、GPU やトラッキングにリソースが奪われている状態での結果と思ってください。

スペックによると Quest 3 のプロセッサは Qualcomm Snapdragon XR2 Gen2 が採用されていることがわかります。

https://www.meta.com/jp/quest/quest-3/#specs

計測結果は以下の通り

vfpench MetaQuest3

アプリケーションから見えるプロセッサは 6 Core で 2+4 の 2グループでした。

CPU Thread:  6
CPU Core  :  6
CPU Group :  2
  Group 0: Thread= 2  Clock=2.054400 GHz  (mask:3)
  Group 1: Thread= 4  Clock=2.361600 GHz  (mask:3c)

この両グループの結果を比べてみると、各命令の IPC には明確な差がなくクロック以外はほぼ同等となっています。そのため同じ CPU core が使われている可能性があります。なおこの情報だけではプロセッサの種類まで特定することはできませんでした。

NEON fmul.2d (64bit x2) n12       :    0.819     5189.4     2594.7  (  2.0 1.1)
NEON fadd.2d (64bit x2) n12       :    0.816     5209.8     2604.9  (  2.0 1.1)
NEON fmla.2d (64bit x2) n12       :    0.819    10376.6     2594.1  (  4.0 1.1)

64bit と 128bit に差がないのでリトルコアではなく、また fma と mul/add の差もないため、X1~X3 のようなハイエンドコアでも無さそうです。ただし計測結果はミドルコアのクロックにしてはあまり高くないので、バックグラウンドでパフォーマンスが奪われていたのかもしくは動作中に想定よりクロックが落ちていた可能性があります。この結果はあくまで参考程度でお願いします。

Total:
SingleThread HP max:   42.163 GFLOPS
SingleThread SP max:   21.240 GFLOPS
SingleThread DP max:   10.445 GFLOPS
MultiThread  HP max:  263.868 GFLOPS
MultiThread  SP max:  134.370 GFLOPS
MultiThread  DP max:   63.517 GFLOPS

関連エントリ

SteamDeck CPU の浮動小数点演算能力を調べる vfpbench の結果

SteamDeck で vfpbench を走らせてみました。
SteamDeck はポータブルゲーム専用機で、PC 向けのゲームを走らせることができます。

CPU/GPU は Ryzen + RADEON という一般的な PC と同じものですが、Zen2 Core に RDNA2 という組み合わせの APU は PC 向けとして市販されていません。Zen2 + RDNA2 の組み合わせは PS5 / XboxSX|SS / SteamDeck のみ使われており、ゲーム機専用のカスタムだと思われます。

ただしゲーム機向けと言っても SteamDeck の場合はバッテリー駆動のポータブル機なので、消費電力重視のバランス取りが行われています。Zen2 世代の APU と比べると GPU やメモリは強化されていますが、RDNA2 世代として見た場合は決して突出した性能ではなくなっています。

今回の計測は LCD の旧型 SteamDeck で、かつ SteamOS (Linux) ではなく Windows 11 での値となっています。SteamOS (Linux) 上ではまた違った結果になる可能性があります。

SingleThread SP max:  107.328 GFLOPS
SingleThread DP max:   51.903 GFLOPS
MultiThread  SP max:  448.238 GFLOPS
MultiThread  DP max:  203.651 GFLOPS

結果を見る限り、専用のカスタム CPU と言っても通常の Zen2 とほぼ同等だと思われます。浮動小数点演算の実行パイプライン本数が減らされていることもなく、256bit で fma x2 命令が同時に走っていることがわかります。

AVX vmul+addps (32bit x8) n8      :    0.380   283223.9     4425.4  ( 64.0 1.6)
FMA vfmaddps (32bit x8) n8        :    0.534   402439.6     3144.1  (128.0 1.1)
FMA vfmaddps (32bit x8) n12       :    0.803   401825.8     3139.3  (128.0 1.1)
FMA vfma+mlps (32bit x8) n12      :    0.795   304483.4     3171.7  ( 96.0 1.1)
FMA vfma+adps (32bit x8) n12      :    0.540   448238.2     4669.1  ( 96.0 1.7)
AVX vml+ad+adps (32bit x8) n9     :    0.410   295300.2     4614.1  ( 64.0 1.6)

vfpbench 結果のベースクロックは 2.8GHz 計算になっていますが、fma の IPC が 1.1 なので 8 Thread 実行時におよそ 3.1GHz 前後で動作していたと考えられます。本来 IPC は 2 ですが、SMT (Hyper Threading) なのでマルチスレッド実行時は半分の計算です。

関連エントリ

ROG Ally Zen4 vfpbench の結果

ROG Ally で Z1 Extreme (Zen4) に触ることができたため vfpbench の結果を調べました。ポータブル機でも 8 core あるため基本性能が高く、CPU だけでも単精度で 1 TFLOPS を超えています。

SingleThread SP max: 137.726 GFLOPS
SingleThread DP max: 68.841 GFLOPS
MultiThread SP max: 1120.448 GFLOPS
MultiThread DP max: 603.461 GFLOPS

また Zen4 は AVX512 に対応しています。AVX512 は bit 幅だけでなくレジスタ本数も倍増しており、AVX(256bit) と比べるとレジスタだけで 4倍のデータ量を扱うことができます。

Zen4 は 256bit の積和と 256bit 加算パイプラインをそれぞれ 2本の合計 4本備えています。そのため FMA だけなら同時に 2命令実行可能なので、理論上のピーク性能値は

8(avx) x 2(fma) x 2(pipe) x 8(core) x 3.3(clock) = 844.8 GFLOPS

となります。
vfpbench の結果を見ても単コアで fma の IPC が 2 です。(A)

                                      TIME(s)   MFLOPS      MOPS     FOP   IPC
FMA vfmaddps (32bit x8) n12       :    0.459   103632.4     6477.0  ( 16.0 2.0) -- (A)

ただしこれだけでは 844.8 GFLOPS であり 1 TFLOPS に届きません。

Zen 4 は積和の他に加算パイプも 2本あるため、積和命令と並行して加算命令も実行させられる可能性があります。

実際に mul + add の組み合わせ (B) では 3.9、ほぼ 4命令同時に走っておりピーク FLOPS 値が fma x2 とほぼ同等になっています。

                                      TIME(s)   MFLOPS      MOPS     FOP   IPC
AVX vmul+addps (32bit x8) n8      :    0.152   104158.5    13019.8  (  8.0 3.9) -- (B)
FMA vfma+adps (32bit x8) n12      :    0.322   110800.7     9233.4  ( 12.0 2.8) -- (C)
FMA vfma+mlps (32bit x8) n12      :    0.458    77839.3     6486.6  ( 12.0 2.0) -- (D)

同じように fma + add の (C) も IPC が 2を超えるのですが、2.8 とおよそ 3命令、1.4 倍にしかなりませんでした。それでも FOP が 3/4 で IPC が 1.4 倍なので、FLOPS 値も fma x 2 の (A) より (C) の方が上がっています。これで 844.8 GFLOPS を超えられます。

なお乗算命令は積和と同じ実行パイプを使用するため、fma + mul の組み合わせ (D) では IPC が 2のまま変わりません。

まとめると、256bit の場合 乗算+加算の場合は最大 4、積和が含まれる場合は最大 3命令同時に実行できる可能性があります。

この結果は Zen2 とは異なっています。Zen2 でも 256bit 積和 + 加算 がそれぞれ 2本の合計 4本で構成は同じですが、mul + add のケースでも最大 3命令、fma + add では 2命令までしか実行できませんでした。

AVX512 の結果を見ると、やはり 512bit では fma (E) は同時に 1命令になっています。よって fma だけのピーク FLOPS は 256bit fma x2 と変わりません。

                                      TIME(s)   MFLOPS      MOPS     FOP   IPC
AVX512 vfmaddps (32bit x16) n12   :    0.916   103842.0     3245.1  ( 32.0 1.0) -- (E)
AVX512 vfma+aps (32bit x16) n12   :    0.518   137726.3     5738.6  ( 24.0 1.7) -- (F)

ですが、fma + add の場合 (F) は約 1.8命令 (0.916/0.518 = 1.768) あり、256bit AVX の 3命令時よりも並列度が上がっていることがわかります。仮に同時に発行できる命令数が 3 op に制限されていても、AVX512 ならその影響を受けづらいということでしょうか。

現在の vfpbench には 512bit の add + mul の計測値が含まれていないので実際は不明ですが、Zen4 の場合 AVX512 の 512bit 命令でも 乗算+加算 の組み合わせは同時に 2命令実行できる可能性があります。

今回の計測値で最も高い数値が出ていたのは AVX512 512bit の fma + add の場合です。24/32 * 1.768 * 844.8 GFLOPS = 1120 GFLOPS

まとめると、

  • Zen4 は Zen2 よりも同時に実行できる fp 演算命令数が多い
  • Zen4 では 256bit 命令よりも AVX512 512bit 命令の方がピークの演算能力が高い

もちろん実際のアプリケーションで理論上の性能が出るわけではありませんのでご了承ください。

なお Intel IceLake の場合は 256bit 積和 x 2 の実行パイプなので、256bit 未満で最大 2命令、AVX512 の 512bit では同時 1命令になります。
詳しくはこちら

Apple M1 とそれまでの Apple CPU の比較など

久しぶりに Intel Mac を使うと、コンパイルがなかなか終わらなくてあれ?と思うことがあります。以前比べたときは、同じ 2020年モデル同士の比較ながらビルド時間で 5倍ほどの差がありました。

M1 Mac が速い理由は色々あると思いますが、そもそもシンプルに CPU が速いです。これまで直接比較できるプラットフォームが無かっただけで、Apple の CPU はシングルスレッド性能が高くパフォーマンスが良好でした。

2018年に A12X を搭載した第3世代 iPad Pro が登場した時点ですでに「ほとんどのノートパソコンよりも優れたパフォーマンス」(ノートパソコンの92パーセントよりも高速)と謳っていることからもわかります。

先日 Apple Watch Series 6 の Apple S6 について性能を測定しました。合わせて手持ちの他のデバイスも一通りチェックしたのでその結果をまとめてみます。ログの全体はこちらにあります。

浮動小数点演算の同時に実行できる命令数 (IPC) に注目したのが下記の表です。単精度と一部の CPU のみ抜き出しています。あくまで浮動小数点演算命令しか見ていないので、必ずしも全体の性能を見ているわけではない点にご注意ください。

float 32bit Scalar
CPU/SoC SIMD Width add mul fma total
Apple S1 32bit fma 1 1 1 1
Apple S2 32bit fma 1 1 1 1
Apple S6 128bit add + 128bit fma 2 1 1 2
Apple A5 128bit mad 1 1 1 1
Apple A6 128bit fma 1 1 1 1
Apple A7 128bit add + 128bit fma x2 3 2 2 3
Apple A8 128bit add + 128bit fma x2 3 2 2 3
Apple A9 128bit fma x3 3 3 3 3
Apple A10 128bit fma x3 3 3 3 3
Apple A11 128bit fma x3 3 3 3 3
Apple M1 128bit add/mul + 128bit fma x3 4 4 3 4
Haswell 256bit fma/add + 256bit fma/mul 1 2 2 2
Skylake 256bit fma + 256bit fma 2 2 2 2
IceLake 256bit fma + 256bit fma 2 2 2 2
Zen 128bit add x2 + 128bit mul x2 2 2 2 3
Zen+ 128bit add x2 + 128bit mul x2 2 2 2 3
Zen2 256bit add x2 + 256bit mul x2 2 2 2 4

SIMD SIMD 2 SIMD 4 SIMD 8 SIMD 16
CPU/SoC add mul fma total add mul fma total add mul fma total add mul fma total
S1 0.5 0.5 0.5 0.5 0.25 0.25 0.25 0.25
S2 0.5 0.5 0.5 0.5 0.25 0.25 0.25 0.25
S6 2 1 1 2 2 1 1 2
A5 1 1 1 1 1 1 1 1
A6 1 1 1 1 1 1 1 1
A7 3 2 2 3 3 2 2 3
A8 3 2 2 3 3 2 2 3
A9 3 3 3 3 3 3 3 3
A10 3 3 3 3 3 3 3 3
A11 3 3 3 3 3 3 3 3
M1 4 4 3 4 4 4 3 4
Haswell 1 2 2 2 1 2 2 2
Skylake 2 2 2 2 2 2 2 2
IceLake 2 2 2 2 2 2 2 2 1 1 1 1
Zen 2 2 2 3 1 1 1 2
Zen+ 2 2 2 3 1 1 1 2
Zen2 2 2 2 4 2 2 2 4

Intel CPU は AVX512 で最大 512bit 幅まで選べるものの同時に実行できる命令はいずれも 2命令までとなっています。

AMD Zen2 は add+mul の組み合わせで最大 4ですが、同じ種類の場合 2命令までとなります。Zen1 では 3命令に制限されていたようです。ちなみに Zen2 は通常の CPU (MCM) と APU (Monolithic) を比べましたが同じ結果でした。キャッシュサイズに違いはあるものの、特に浮動小数点演算の実行ユニットが削られているようなことはありませんでした。

Apple は A7 で 64bit 化と同時に 128bit fma x3 に拡張しています。ARM の Cortex は 64bit x2 なので、同じ ARM CPU でも 3倍の演算能力を持っており、スカラーや 64bit でも最大 1.5倍のスループットが期待できます。

さらに A9 で乗算も拡張されており、A12 以降いずれかのタイミングで 4命令に増加したと思われます。Intel が SIMD でピーク性能に特化しているのに対して、Apple は効率がよく小回りがきく印象です。

他の CPU や倍精度含めた表はこちらにあります。

CPU の浮動小数点演算能力の詳細

ARM core 自体ここ数年で性能がかなり上がっています。以前 Pixel 3 (Snapdragon 845/Cortex-A75) を使い始めたときに、ハイエンドスマートフォンが十分開発に使えるくらい速いことに気が付きました。Core i7 (4 core / 8 thread) の普通の PC とコンパイル時間がほとんど変わらなかったためです。

ARM CPU 上の開発環境とコンパイル時間の比較 (2) Pixel 3/UserLAnd

下記は Compile Benchmark からの抜粋です。4C8T の PC と Pixel3 のみ載せています。十分速いことがわかります。

Device/OS CPU thread ビルド時間
Desktop PC Windows WSL2 Core i7-6700K 4/8 29 sec
Desktop PC Ubuntu 18.04 Core i7-4790K 4/8 31 sec
Pixel 3 Android + Termux Snapdragon 845 8/8 35 sec
Desktop PC Windows WSL1 Core i7-6700K 4/8 40 sec
MacBook Air Early 2020 Core i5-1030NG7 4/8 45 sec
Mac mini Late 2012 Core i7-3615QM 4/8 46 sec

もともとコンパイルは並列化が有効で、多コア CPU や I/O 性能の違いで速度が出やすくなります。スマートフォン向け ARM CPU はシングルスレッド性能よりも core 数を増やす方に進化していたので、特に並列コンパイルと相性が良かったのだと思われます。

core 数よりもシングルスレッド性能に力を入れいてた Apple が、同じくらい core 数を揃えたのが前述の Apple A12X です。さらに世代を重ねて、改良と同時に動作 Clock を上げたのが Apple M1 になります。以前のテストでも、コンパイル速度は Apple M1 では 16C/32T に匹敵する結果が出ていました。予想を大きく上回るもので、ARM への移行は早く進むのではないかと思います。

MacBook Air Late 2020 / Apple M1 のビルド速度と浮動小数点演算能力

Device/OS CPU thread ビルド時間
Desktop PC Windows WSL2 Ryzen 9 3950X 16/32 8 sec
MacBook Air Late 2020 Apple M1 8/8 9 sec
Desktop PC Windows WSL2 Ryzen 7 4750G 8/16 18 sec
Desktop PC Windows WSL2 Ryzen 7 1800X 8/16 21 sec
MacBook Air Early 2020 Core i5-1030NG7 4/8 45 sec

関連ページ
CPU の浮動小数点演算能力の詳細
Compile Benchmark
VFP Benchmark Log 計測結果まとめ

関連エントリ
Apple Watch Series 6 と CPU 性能の測定
MacBook Air Late 2020 / Apple M1 のビルド速度と浮動小数点演算能力
Ice Lake の vfpbench 結果と AVX512 命令
Windows 10 WSL2 のコンパイル速度比較
4倍速い Ryzen 9 3950X の UE4 コンパイル速度
Huawei P30 Lite/Fire HD 10(2019) のコンパイル速度と UserLAnd
Jetson Nano / Clang の Version とコンパイル速度の比較
Snapdragon 835 と 845 のコンパイル時間の比較&浮動小数点演算能力
ARM CPU 上の開発環境とコンパイル時間の比較 (2) Pixel 3/UserLAnd