Qualcomm の DragonBoard 410c を入手したので vfpbench を走らせてみました。
Snapdargon 410 Cortex-A53 1.2GHz quad core | |||||
---|---|---|---|---|---|
OS | arch | SP-ST | DP-ST | SP-MT | DP-MT |
Android 5.1 | AArch64 | 9.377 | 4.737 | 30.817 | 15.063 |
Android 5.1 | AArch32 | 9.442 | 2.558 | 29.290 | 7.753 |
・ 単位は GFLOPS, 値が大きい方が高速
・ SP=single fp, DP=double fp, ST=single thread, MT=multi thread
Cortex-A53 は big.LITTE の LITTLE に使われる core で Cortex-A7 同様 in-order の pipeline を持っています。ところが浮動小数点演算のピーク速度は予想以上に高い結果となっています。
上の結果が本当なら Cortex-A7 比で VFP で 2倍、NEON single だと最大 4倍速いことになります。また同一クロックかつピークのみに限定すれば big core にも並びます。ただし in-order かつ動作クロックも低いため、実際のコードでは big core とはかなり差が生じると思われます。倍精度演算の並列性も劣っているようです。
CPU core | arch | SP-ST | DP-ST | SP-MT | DP-MT | SoC | clock |
---|---|---|---|---|---|---|---|
Cortex-A7 | armv7a | 2.374 | 1.165 | 9.474 | 4.653 | MT8125 | 1.2GHz x4 |
Cortex-A53 | arm64 | 9.377 | 4.737 | 30.817 | 15.063 | APQ8016 | 1.2GHz x4 |
Cortex-A53 | armv7a | 9.442 | 2.558 | 29.290 | 7.753 | APQ8016 | 1.2GHz x4 |
Cortex-A72 | arm64 | 15.864 | 7.934 | 31.771 | 15.885 | MT8173C | 2.0GHz x2 |
Cortex-A72 | armv7a | 15.875 | 7.946 | 31.756 | 15.882 | MT8173C | 2.0GHz x2 |
Cyclone 2 | arm64 | 23.568 | 11.751 | 68.591 | 33.968 | AppleA8X | 1.5GHz x3 |
Denver | arm64 | 17.906 | 8.762 | 34.888 | 17.601 | TegraK1 | 2.3GHz x2 |
Linux 上でコンパイル速度も測定してみました。RAM が少ないとはいえ十分速度が出ています。クロック差を考えても Desktop CPU との違いが少なくなってきてることがよくわかります。
CPU | core | clock | C/T | Compiler | RAM | sec |
---|---|---|---|---|---|---|
Core i7-4790K | Haswell | 4.0GHz | 4C8T | Clang-3.6 | 16GB | 15 |
Celeron J1900 | Silvermont | 2.0GHz | 4C4T | Clang-3.4 | 8GB | 79 |
Athlon 5350 | Jaguar | 2.0GHz | 4C4T | Clang-3.6 | 8GB | 88 |
Celeron 2955U | Haswell | 1.4GHz | 2C2T | Clang-3.4 | 4GB | 93 |
Celeron N3150 | Airmont | 1.6GHz | 4C4T | Clang-3.6 | 16GB | 108 |
DragonBoard 410c | Cortex-A53 | 1.2GHz | 4C4T | Clang-3.5 | 1GB | 186 |
Raspberry Pi 2 | Cortex-A7 | 0.9GHz | 4C4T | Clang-3.5 | 1GB | 402 |
Atom Z540 | Bonnell | 1.8GHz | 1C2T | Clang-3.4 | 2GB | 426 |
Raspberry Pi | ARM1176 | 0.7GHz | 1C1T | Clang-3.5 | 0.5GB | 1893 |
Netwalker | Cortex-A8 | 0.8GHz | 1C1T | GCC-4.7 | 0.5GB | 1902 |
* sec = コンパイル時間(秒)、値が小さい方が速い
* Dragonboard 401c = Debian 8.0
RAM が少ないデバイスはストレージ速度の影響が大きい点に注意してください。特に Raspberry Pi 系は SD カードに依存するため参考程度にお願いします。
下記のページを更新しました
・VFP Benchmark Log 計測結果まとめ
・CPU の浮動小数点演算能力の詳細
関連エントリ
・2955U vs N3150/J1900/Athlon5350 (コンパイル時間の比較)
・Apple TV の浮動小数点演算速度。Fire TV/Android TV との比較など
・ARM Cortex-A72 の浮動小数点演算速度 (Amazon Fire TV)
・Raspberry Pi 2 で速くなったコンパイル時間の比較
・BayTrail vs Kabini (Celeron J1900 vs Athlon 5350)
・コンパイル時間の比較 BayTrail