ARMv8A NEON flop
Apple Cyclone 128bit mla 2 16
Apple Typhoon 128bit mla 2 16
Apple Twister 128bit mla 3 24
NVIDIA Denver 128bit mla 1 + add 1 12
ARM Cortex-A53 64bit mla 2 8
ARM Cortex-A57 64bit mla 2 8
ARM Cortex-A72 64bit mla 2 8
Qualcomm Kyro 64bit mla 1 + add 1 6
ARMv7A NEON flop
ARM Cortex-A8 64bit mla 1 4
ARM Cortex-A9 32bit mac 1 2
ARM Cortex-A9 NEON 64bit mla 1 4
ARM Cortex-A7 32bit fma 1 2
ARM Cortex-A15 64bit fma 2 8
Qualcomm Scorpion 128bit mla 1 8
Qualcomm Krait 128bit fma 1 8
Apple Swift 128bit fma 1 8

暫定のまとめ。上の表は単精度のみです。vfpbench の結果から推定した値になります。
倍精度 (ARMv8A のみ) は下記のとおりです。

ARMv8A NEON flop-dp
Apple Cyclone 128bit mla 2 8
Apple Typhoon 128bit mla 2 8
Apple Twister 128bit mla 2 8
NVIDIA Denver 128bit mla 1 + add 1 6?
ARM Cortex-A53 64bit mla 2 4
ARM Cortex-A57 64bit mla 2 4
ARM Cortex-A72 64bit mla 2 4
Qualcomm Kyro 64bit mla 1 + add 1 3


関連ページ
CPU の浮動小数点演算能力の詳細
64bit ARMv8A CPU Core
VFP Benchmark Log 計測結果まとめ