最近の Windows Tablet 等に使われている Bay Trail は、
新しい世代の Atom CPU core (Silvermont) を搭載しています。
HT 無しの 2/4 core で Out-of-Order となり、
旧 Atom と比べて実行性能が大きく向上しています。
Bay Trail の浮動小数点演算能力を調べてみました。
テスト環境は Bay Trail-D (Celeron J1900) なので厳密には Celeron となります。
結果、単精度の浮動小数点演算能力は 旧 Atom と変わらず、
1 core あたり 6 fop (add 4 + mul 2) / clock であることがわかりました。
旧 Atom 同様 add, mul の非対称な interleave が良い結果となっています。
その代わり倍精度演算は強化されており、旧 Atom の 2倍に相当します。
VFP Benchmark の結果から求めた cycle あたりの演算 (1coreあたり)
Single FP Double FP --------------------------------------------------------- Atom Bonnell (旧Atom) 6 1.5 Atom Silvermont (新) 631.5 (Bay Trail) Core 2 Duo 8 4 Core i7 Sandy Bridge 16 8 Core i7 Ivy Bridge 16 8 Core i7 Haswell 32 16 (未計測,予想値) Cortex-A9 4 1 Cortex-A15 8 1.4 Krait 8 2 (Snapdragon 800) Swift 8 1 (iPhone 5) Cyclone ARM64 16 8 (iPhone 5s)
演算内容の内訳は次の通り
Single FP Double FP SIMD(Vector) mul add mad mul add mad ------------------------------------------------------- Atom Bonnell (旧Atom) 2 4 (6) 0.4 0.5 ? Atom Silvermont (新) 2 4 (6)1 2 (3)0.5 1.0 (1.5) Core 2 Duo 4 4 (8) 2 2 (3?) Core i7 Sandy Bridge 8 8 (16) 4 4 (8) Core i7 Ivy Bridge 8 8 (16) 4 4 (8) Cortex-A9 2 2 4 -- -- -- Cortex-A15 4 4 8 -- -- -- Krait 4 4 8 -- -- -- Swift 4 4 8 -- -- -- Cyclone ARM64 8 12 16 4 6 8
Scalar 時の結果など、より詳しくまとめた表を下記に載せています。
以下は実際の J1900 の VFP Benchmark の結果です。
演算命令単位など、より詳細な結果をご覧になりたい方は こちら よりどうぞ。
各種 CPU のログを載せています。
Bay Traild-D Celeron J1900 2.0GHz (TB:2.5GHz2.41GHz) ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 SingleT SP max: 14.477 GFLOPS SingleT DP max: 3.619 GFLOPS MultiT SP max: 57.902 GFLOPS MultiT DP max: 14.471 GFLOPS CPU core: 4 SSE: yes AVX: no FMA: no ~
理論値は 2GHz 4core で 48 GFLOPS なので、計測結果はより高い数値が出ています。
Turbo Boost が効いているためで、57.902 / 24 = 2.41 から
Multi Thread 時におよそ 2.4GHz で動作していることがわかります。
他の CPU との比較。
VFP Benchmark 実測値 clock core Single FP Double FP ------------------------------------------------------------------- Bay Trail-D J1900 2.0GHz x4 57.9 GFLOPS 14.5 GFLOPS Menlow Atom Z540 1.9GHz x1 10.9 GFLOPS 1.9 GFLOPS Core 2 Duo P7350 2.0GHz x2 31.7 GFLOPS 12.7 GFLOPS Ivy Birdge Core i5-3210M 2.5GHz x2 90.2 GFLOPS 45.2 GFLOPS Sandy Bridge Core i7-2720QM 2.2GHz x4 162.3 GFLOPS 74.0 GFLOPS Kindle HDX 7 Krait 400 2.2GHz x4 67.5 GFLOPS 16.9 GFLOPS Tegra Note 7 Cortex-A15 1.8GHz x4 51.3 GFLOPS 9.8 GFLOPS iPhone 5s Cyclone 1.3GHz x2 40.9 GFLOPS 20.5 GFLOPS ・ピーク値による比較、GFLOPS が大きい方が速い
↑ Multi Thread 時の比較なので、Core 数が多く Clock が高い方が良い結果になります。
Mobile 向け CPU の性能向上が著しく、旧 Atom (Bonnell/Saltwell) では
ハイエンドの Quad core ARM に太刀打ちできませんでした。
新しい Atom Silvermont は十分な性能を有しています。
ただ浮動小数点演算はそれほど得意ではないようです。
おそらく AVX にも対応している Jaguar の方が上でしょう。
なお Tablet 向け Bay Trail-T は動作クロックが下がるため、
上記の表よりも低い値になると考えられます。
また、あくまで浮動小数点演算に特化した数値なので、
実際のアプリケーションの動作速度とは異なる点にご注意ください。
当 blog が浮動小数点演算能力のデータを集めているのは、ゲーム開発時の最適化が目的となります。
2014/05/15 訂正:
・Celeron J1900 の TB Clock の間違いを訂正いたしました 2.5GHz → 2.41GHz
・倍精度演算で旧 Atom の 2倍は間違いでした。旧 Atom と同等の性能と思われます。
申し訳ありませんでした。
関連ページ
・VFP Benchmark
・VFP Benchmark の計測結果
・CPU FLOPS 理論値と、cycle ごとの演算数まとめ