「vfpbench」カテゴリーアーカイブ

vfpbench

Intel CPU Core i7-13700 (RaptorLake) の vfpbench 結果

Core i 12世代 (Alder Lake) 以降の Intel CPU は P-Core と E-Core、2種類の異なる CPU Core を搭載しています。ARM 系 CPU と同じように必要な負荷に応じてこれらのコアが使い分けられます。

vfpbench では種類によって計測するコアを区別する必要があるのですが、AlderLake 以降の Intel の非対称コアを今まで正しく認識できていませんでした。今回 Core i7-13700 を入手し、ようやく対応できたので結果を載せてみます。なお Linux では非対称コアを識別しますが、WSL1 上では区別できていないのでご注意ください。

以下は Linux で実行した Core i7-13700 の結果です。

Intel Core i7-13700 の vfpbench 結果

結果からわかるように P-Core のピーク値は AVX 256bit の fma x 2 になっています。ここまでは従来の Skylake/IceLake 系と同じですが、mul + add の組み合わせの場合に 3命令実行できていることがわかります。

Ryzen Zen3/4 のように fma + add の組み合わせにならないためピーク値には影響がありませんが、おそらく AlderLake 以降は最大で 256bit x 3 命令が実行できるように拡張されているものと思われます。

P-Core
AVX vmul+addps (32bit x8) n8      :    0.197   124487.7    15561.0  (  8.0 3.1)
FMA vfmaddps (32bit x8) n8        :    0.371   132011.8     8250.7  ( 16.0 1.6)
FMA vfmaddps (32bit x8) n12       :    0.442   165987.5    10374.2  ( 16.0 2.0)
FMA vfma+mlps (32bit x8) n12      :    0.442   124495.1    10374.6  ( 12.0 2.0)
FMA vfma+adps (32bit x8) n12      :    0.381   144625.0    12052.1  ( 12.0 2.4)

また AVX512 が使用できません。そのため本来は対応していたと思われる fp16 演算や bf16 命令などもなくなっています。VNNI はあります。

E-Core の場合はピークが AVX 256bit fma x1 となっており、サイクルあたりの演算能力は P-Core の半分となっています。128bit 以下の場合は 2命令走っているので、実行パイプラインそのものは 128bit が 2本になっていると思われます。

E-Core
SSE addps (32bit x4) n8           :    0.305    32258.5     8064.6  (  4.0 2.0)
FMA vfmaddss (32bit x1) n12       :    0.525    14067.6     7033.8  (  2.0 1.7)
FMA vfmaddps (32bit x4) n12       :    0.521    56609.3     7076.2  (  8.0 1.7)
FMA vfmaddps (32bit x8) n8        :    0.602    65431.3     4089.5  ( 16.0 1.0)
FMA vfmaddps (32bit x8) n12       :    0.902    65432.2     4089.5  ( 16.0 1.0)
FMA vfma+mlps (32bit x8) n12      :    0.914    48433.6     4036.1  ( 12.0 1.0)
FMA vfma+adps (32bit x8) n12      :    0.914    48434.4     4036.2  ( 12.0 1.0)

	128 add	128 mul	128 fma	256 最大	256 add	256 mul	256 fma	256 最大
P-Core	2	2	2	3	2	2	2	3
E-Core	2	2	2	2	1	1	1	1

Ryzen Zen3 の vfpbench 結果

Zen4 と順序が逆になりましたが Zen3 の結果も手に入れることができました。モバイル向け APU、Ryzen 5 5560U です。

AMD Ryzen 5 5560U with Radeon Graphics

実行ユニットは Zen2 同様 256bit の乗算(積和) x2 + 加算 x2 の構成です。そのため単純な fma 換算ではピーク値が Zen2 と変わらない fma x2 となるのですが、Zen3 の場合少々結果が異なります。

AVX vmulps (32bit x8) n8          :    0.172    64245.3     8030.7  (  8.0 3.5)
AVX vaddps (32bit x8) n8          :    0.172    64267.0     8033.4  (  8.0 3.5)
AVX vmul+addps (32bit x8) n8      :    0.086   128217.7    16027.2  (  8.0 7.0)
FMA vfmaddps (32bit x8) n8        :    0.214   103087.1     6442.9  ( 16.0 2.8)
FMA vfmaddps (32bit x8) n12       :    0.275   120290.1     7518.1  ( 16.0 3.3)
FMA vfma+mlps (32bit x8) n12      :    0.258    96422.6     8035.2  ( 12.0 3.5)
FMA vfma+adps (32bit x8) n12      :    0.172   144552.0    12046.0  ( 12.0 5.2)
AVX vml+ad+adps (32bit x8) n9     :    0.244    50965.1     6370.6  (  8.0 2.8)

fma x2 よりも fma + add の方が値が高くなっており、fma x 2 に加えて add も十分なスループットで回っているように見えます。ピーク値も追加の add 命令の分だけ上昇しています。パイプライン構成自体は大きく変わらないものの、Zen2 より命令発行数と実行効率が向上し、演算性能が上がっている事がわかります。

Zen4 の場合はこれに加えてさらに AVX512 にも対応します。fma だけ見ると違いがないように見えるかもしれませんが、世代毎に演算能力は上がっています。

Pixel 7a Google Tensor G2 の vfpbench の結果

Google の Pixel 7a は Pixel 7 や Fold と同じ Tensor G2 が搭載されています。Tensor G2 でも vfpbench を走らせてみました。

Google Tensor G2 Pixel 7a の結果詳細

Tensor G2 には 3種類の CPU Core が搭載されています。

Cortex-A55	x4	1.80 GHz
Cortex-A78	x2	2.35 GHz
Cortex-X1	x2	2.85 GHz

それぞれの結果を詳しく見ると、A55 はスカラーの add, mul, fma や 64bit 演算で 2命令走りますが 128bit 演算では 1命令です。よって 64bit 演算 x2 の構成であることがわかります。

A55
FPU fmul (32bit x1) n8            :    0.319     3389.7     3389.7  (  1.0 1.9)
FPU fadd (32bit x1) n8            :    0.334     3243.8     3243.8  (  1.0 1.8)
FPU fmadd (32bit x1) n8           :    0.319     6785.6     3392.8  (  2.0 1.9)
NEON fmul.4s (32bit x4) n12       :    0.924     7027.6     1756.9  (  4.0 1.0)
NEON fadd.4s (32bit x4) n12       :    0.928     6995.3     1748.8  (  4.0 1.0)
NEON fmla.4s (32bit x4) n12       :    0.924    14046.3     1755.8  (  8.0 1.0)

対して A78 はスカラーも 128bit 演算も変わらず 2命令で一定なので、128bit x2 になります。

A78
FPU fmul (32bit x1) n8            :    0.301     4676.9     4676.9  (  1.0 2.0)
FPU fadd (32bit x1) n8            :    0.301     4678.5     4678.5  (  1.0 2.0)
FPU fmadd (32bit x1) n8           :    0.301     9353.7     4676.9  (  2.0 2.0)
NEON fmul.4s (32bit x4) n12       :    0.452    18712.2     4678.1  (  4.0 2.0)
NEON fadd.4s (32bit x4) n12       :    0.452    18713.6     4678.4  (  4.0 2.0)
NEON fmla.4s (32bit x4) n12       :    0.452    37368.1     4671.0  (  8.0 2.0)

最上位の Cortex-X1 はスカラー・ベクター関係なく add/mul 演算で 4命令、fma で 2命令です。fma のピーク値だけ見るとあまり差がないように見えますが、128bit x4 と演算能力が大きく拡張されており高いスループットが期待できます。

X1
FPU fmul (32bit x1) n8            :    0.151    11337.4    11337.4  (  1.0 4.0)
FPU fadd (32bit x1) n8            :    0.150    11370.1    11370.1  (  1.0 4.0)
FPU fmadd (32bit x1) n8           :    0.301    11364.5     5682.3  (  2.0 2.0)
NEON fmul.4s (32bit x4) n12       :    0.226    45347.7    11336.9  (  4.0 4.0)
NEON fadd.4s (32bit x4) n12       :    0.226    45353.3    11338.3  (  4.0 4.0)
NEON fmla.4s (32bit x4) n12       :    0.448    45813.8     5726.7  (  8.0 2.0)

まとめると以下の通りです。

	s-add	s-mul	s-fma	v-add	v-mul	v-fma
Cortex-A55	2	2	2	1	1	1	64bit x2
Cortex-A78	2	2	2	2	2	2	128bit x2
Cortex-X1	4	4	2	4	4	2	128bit x4

Meta Quest3 の CPU (Snapdragon XR2 Gen2)

Meta Quest 3 は今年 (2023年) の 10月に発売されたばかりの最新の VR ヘッドセットです。Inside Out のセルフトラッキングのみで 6.6DoF を実現する Quest シリーズの 3世代目であり、カラーパススルーに対応したことで MR ゲームもプレイできるようになりました。

シースルー型の HoloLens と違い、ディスプレイ部が視界の一部のみに限られていることもありません。HoloLens に期待していた世界が Quest3 でようやく現実になったといえます。

MR 機能だけでなく、世代が上がりプロセッサもトラッキングも強化されています。特にコントローラーはトラッキング用の LED リングが無くだいぶ小さくなりました。VR というより Switch のような左右分離型のただのゲームコントローラーに見えます。

その Quest3 で以前 Termux が動くことを確認したので同時に vfpbench も走らせてみました。ただし実行中も画面の描画やトラッキングは行われていたため、結果の値には注意が必要です。プロセッサ自体のピーク性能ではなく、GPU やトラッキングにリソースが奪われている状態での結果と思ってください。

スペックによると Quest 3 のプロセッサは Qualcomm Snapdragon XR2 Gen2 が採用されていることがわかります。

・https://www.meta.com/jp/quest/quest-3/#specs

計測結果は以下の通り

・vfpench MetaQuest3

アプリケーションから見えるプロセッサは 6 Core で 2+4 の 2グループでした。

CPU Thread:  6
CPU Core  :  6
CPU Group :  2
  Group 0: Thread= 2  Clock=2.054400 GHz  (mask:3)
  Group 1: Thread= 4  Clock=2.361600 GHz  (mask:3c)

この両グループの結果を比べてみると、各命令の IPC には明確な差がなくクロック以外はほぼ同等となっています。そのため同じ CPU core が使われている可能性があります。なおこの情報だけではプロセッサの種類まで特定することはできませんでした。

NEON fmul.2d (64bit x2) n12       :    0.819     5189.4     2594.7  (  2.0 1.1)
NEON fadd.2d (64bit x2) n12       :    0.816     5209.8     2604.9  (  2.0 1.1)
NEON fmla.2d (64bit x2) n12       :    0.819    10376.6     2594.1  (  4.0 1.1)

64bit と 128bit に差がないのでリトルコアではなく、また fma と mul/add の差もないため、X1～X3 のようなハイエンドコアでも無さそうです。ただし計測結果はミドルコアのクロックにしてはあまり高くないので、バックグラウンドでパフォーマンスが奪われていたのかもしくは動作中に想定よりクロックが落ちていた可能性があります。この結果はあくまで参考程度でお願いします。

Total:
SingleThread HP max:   42.163 GFLOPS
SingleThread SP max:   21.240 GFLOPS
SingleThread DP max:   10.445 GFLOPS
MultiThread  HP max:  263.868 GFLOPS
MultiThread  SP max:  134.370 GFLOPS
MultiThread  DP max:   63.517 GFLOPS

SteamDeck CPU の浮動小数点演算能力を調べる vfpbench の結果

SteamDeck で vfpbench を走らせてみました。
SteamDeck はポータブルゲーム専用機で、PC 向けのゲームを走らせることができます。

https://www.steamdeck.com/ja/

CPU/GPU は Ryzen + RADEON という一般的な PC と同じものですが、Zen2 Core に RDNA2 という組み合わせの APU は PC 向けとして市販されていません。Zen2 + RDNA2 の組み合わせは PS5 / XboxSX|SS / SteamDeck のみ使われており、ゲーム機専用のカスタムだと思われます。

ただしゲーム機向けと言っても SteamDeck の場合はバッテリー駆動のポータブル機なので、消費電力重視のバランス取りが行われています。Zen2 世代の APU と比べると GPU やメモリは強化されていますが、RDNA2 世代として見た場合は決して突出した性能ではなくなっています。

今回の計測は LCD の旧型 SteamDeck で、かつ SteamOS (Linux) ではなく Windows 11 での値となっています。SteamOS (Linux) 上ではまた違った結果になる可能性があります。

SteamDeck AMD Custom APU 0405 の結果ログ詳細

SingleThread SP max:  107.328 GFLOPS
SingleThread DP max:   51.903 GFLOPS
MultiThread  SP max:  448.238 GFLOPS
MultiThread  DP max:  203.651 GFLOPS

結果を見る限り、専用のカスタム CPU と言っても通常の Zen2 とほぼ同等だと思われます。浮動小数点演算の実行パイプライン本数が減らされていることもなく、256bit で fma x2 命令が同時に走っていることがわかります。

AVX vmul+addps (32bit x8) n8      :    0.380   283223.9     4425.4  ( 64.0 1.6)
FMA vfmaddps (32bit x8) n8        :    0.534   402439.6     3144.1  (128.0 1.1)
FMA vfmaddps (32bit x8) n12       :    0.803   401825.8     3139.3  (128.0 1.1)
FMA vfma+mlps (32bit x8) n12      :    0.795   304483.4     3171.7  ( 96.0 1.1)
FMA vfma+adps (32bit x8) n12      :    0.540   448238.2     4669.1  ( 96.0 1.7)
AVX vml+ad+adps (32bit x8) n9     :    0.410   295300.2     4614.1  ( 64.0 1.6)

vfpbench 結果のベースクロックは 2.8GHz 計算になっていますが、fma の IPC が 1.1 なので 8 Thread 実行時におよそ 3.1GHz 前後で動作していたと考えられます。本来 IPC は 2 ですが、SMT (Hyper Threading) なのでマルチスレッド実行時は半分の計算です。

ホイール欲しいハンドル欲しい

Mobile系、Direct3D や Shader などについて書いています。

「vfpbench」カテゴリーアーカイブ

Intel CPU Core i7-13700 (RaptorLake) の vfpbench 結果

関連エントリ

Ryzen Zen3 の vfpbench 結果

関連エントリ

Pixel 7a Google Tensor G2 の vfpbench の結果

関連エントリ

Meta Quest3 の CPU (Snapdragon XR2 Gen2)

関連エントリ

SteamDeck CPU の浮動小数点演算能力を調べる vfpbench の結果

関連エントリ