Apple TV の浮動小数点演算速度。Fire TV/Android TV との比較など

新しい Apple TV は Apple A8 搭載で Android TV や Fire TV 同様アプリケーション走らせることができるようになっています。vfpbench を試してみました。clock 数から計算すると Apple TV の CPU は 1.4GHz だと思われます。

ARCH: ARMv8A
FPU: AArch64 NEON
SingleT SP max: 22.197 GFLOPS
SingleT DP max: 11.105 GFLOPS
MultiT  SP max: 44.331 GFLOPS
MultiT  DP max: 22.084 GFLOPS
CPU core: 2

詳細は下記に追加しています。

・VFP Benchmark Log

同等の TV 用プレイヤーデバイスとの比較。

device	CPU			SP	DP	SP-MT	DP-MT
Apple TV	Cyclone	1.4GHz	2	22.2	11.1	44.3	22.1
Fire TV 2015	Cortex-A72/A53	2.0GHz	2+2	15.9	7.9	31.8	15.9
Nexus Player	ilvermont	1.8GHz	4	8.7	2.7	33.9	10.7

(SP/DP/SP-MT/DP-MT の単位は GFLOPS, 数値が大きい方が高速)

GPU は下記の通り

device	SoC	GPU	API	ASTC
Apple TV	Apple A8	PowerVR GX6450	ES3.0/Metal	Y
Fire TV 2015	MT8173C	PowerVR GX6250	ES3.1	Y
Nexus Player	Atom Z3560	PowerVR G6430	ES3.1	N

SoC/CPU core が異なるもののなぜか GPU はみな PowerVR です。動作クロックは不明ですが型番上は Apple TV の GPU が一番性能が高いことになります。

なお Android TV は Nexus Player 以外にも存在しているため性能にはばらつきがあります。例えば NVIDIA SHILED も Android TV です。

下記ページも更新しました。

・Video Game Console スペック一覧

いずれも GameController に対応しており Game Console のような使い方も可能となっています。

Nexus Player, Fire TV は純正の Wireless Game Contoller が用意されていますし、Android に対応した Game Pad を USB 接続することも可能です。特に Fire TV はフルサイズの USB コネクタなので変換アダプタも不要。Apple TV は iOS 仕様の Bluetooth ゲームパッドを使うことができます。

device	RAM	ROM	LAN	USB	SD	電源
Apple TV	2GB	32/64GB	Y	Type-C	—	内蔵
Fire TV 2015	2GB	8GB	Y	USB2.0	microSDXC	専用ACアダプタ
Nexus Player	1GB	8GB	N	microUSB	—	専用ACアダプタ

↑左上から AppleTV, Fire TV, Nexus Player

Apple TV は厚みがある代わりに AC アダプタが不要です。

↑付属リモコン左から Nexus Player, Fire TV, Apple TV

充電式で乾電池が不要な分だけ Apple TV のリモコンは薄型です。Nexus Player, Fire TV はどちらもリング状の方向キーでセンターが決定、左下に Back キー。Apple TV はカーソルの代わりにタッチパッドがついており押し込みで決定。MENU がバックキー相当です。

ARM Cortex-A72 の浮動小数点演算速度 (Amazon Fire TV)

Amazon Fire TV (2015) で vfpbench を走らせてみました。下記表の MT8173C (上 2つ) が Fire TV です。

SoC	CPU	clock	AArch	fop	SP	DP	SP-MT	DP-MT
MT8173C	Cortex-A72	2.0GHz x2	64	16	15.875	7.946	31.756	15.882
MT8173C	Cortex-A72	2.0GHz x2	32	16	15.864	7.934	31.771	15.885
Tegra4	Cortex-A15	1.8GHz x4	32	32	13.371	2.655	51.345	9.860
AppleA7	Cyclone	1.3GHz x2	64	32	20.621	10.313	40.871	20.480
AppleA7	Cyclone	1.3GHz x2	32	32	20.608	4.038	40.924	8.021
TegraK1	Denver	2.3GHz x2	64	24	17.906	8.762	34.888	17.601
TegraK1	Denver	2.3GHz x2	32	24	18.043	4.297	34.177	8.702

(SP/DP/SP-MT/DP-MT の単位は ~~MFLOPS~~ GFLOPS,数値が大きい方が高速)

詳細な結果は下記に追加しています。(big core のみ計測しています)

・VFP Benchmark Log

Cortex-A72 はピーク性能に突出したところはなく core あたり 8 fop (単精度 SIMD4 FMA) と標準的。SIMD2 の結果から Cortex-A15 同様 64bit 2pipe の構成であることもわかります。

ただしスカラー命令にはかなり違いがあるようです。Cortex-A72 では NEON だけでなくスカラー命令も 2 pipe 並列に実行できるらしく、加算で Cortex-A15 のおよそ 2倍。これは AArch32 mode でも有効なので、ARMv7A でビルドしたバイナリでも 64bit CPU の方が高速に演算できることになります。

倍精度でも少々面白い結果になっています。AArch64 には倍精度浮動小数点演算の NEON 命令があるものの SIMD でも 2並列です。Cortex-A72 は 64bit x 2pipe なので、ピーク性能において NEON とスカラーの差がなくなっています。

AArch32 でも同じなので、倍精度 NEON 命令が使えない ARMv7A もピーク速度が落ちておらず AArch64 の NEON 相当の速度を維持しています。

下記は倍精度のみの抜粋です。AppleA7/TegraK1 は AArch32 と AArch64 で差が開いていますが Cortex-A72 はスコア差がありません。A7/K1 比でピーク速度で負けているものの AArch32 では逆転していることがわかります。

SoC	CPU	clock	AArch	DP	DP-MT
MT8173C	Cortex-A72	2.0GHz x2	AArch64	7.946	15.882
MT8173C	Cortex-A72	2.0GHz x2	AArch32	7.934	15.885
SoC	CPU	clock	AArch	DP	DP-MT
AppleA7	Cyclone	1.3GHz x2	AArch64	10.313	20.480
AppleA7	Cyclone	1.3GHz x2	AArch32	4.038	8.021
SoC	CPU	clock	AArch	DP	DP-MT
TegraK1	Denver	2.3GHz x2	AArch64	8.762	17.601
TegraK1	Denver	2.3GHz x2	AArch32	4.297	8.702

・CPU の浮動小数点演算能力の詳細

Amazon Fire TV と OpenGL ES 3.1, TV Stick の OS

Amazon Fire TV (2015) と Fire TV Stick (2015) が発売されました。

Fire TV は MT8173C を搭載しており Fire (Kindle) 初の 64bit 機となっています。CPU core は Cortex-A72 で ARM のハイエンド系 64bit Core の 2世代目です。ただし 2+2 の big.LITTLE なのでハイパフォーマンス Core の担当は実質 Dual core になります。

GPU も PowerVR GX6250 と、Fire HD 6/7 に使われている Rogue G6200 (Series6) よりも一つ新しい Series6XT になりました。Apple でいえば A8/A8X と同じ世代ですが、Shader core 数は A8/A8X の 1/2～1/4 と少なくなっています。

どちらも世代は新しいものの Core の数は決して多くなく、コストとのバランスを保っている印象です。

Device	SoC	RAM	CPU		64	GPU	API
Fire TV 2014	APQ8064T	2GB	Krait 300	4	N	Adreno 320	ES3.0
Fire TV 2015	MT8173C	2GB	Cortex-A72/A53	2+2	Y	PowerVR GX6250	ES3.1
Fire TV Stick	Broadcom 28155	1GB	Cortex-A9	2	N	VideoCore IV	ES2.0
Apple TV	Apple A8	2GB	Cyclone	2	Y	PowerVR GX6450	Metal
Nexus Player	Atom Z3560	1GB	Silvermont	4	N	PowerVR G6430	ES3.1

Fire TV (2015) で気になっていたのは Developer サイトの公式の Spec 表で OpenGL ES 3.1 AEP に対応しているかのように書かれていたことです。AEP に対応しているのは Series7 以降のはずなので、実機で確認してみました。

下記の通り AEP には非対応でした。

// Amazon Fire TV 2015

GL_VERSION: OpenGL ES 3.1 build 1.4@3443629
GL_RENDERER: PowerVR Rogue GX6250
GL_VENDOR: Imagination Technologies
GL_SHADING_LANGUAGE_VERSION: OpenGL ES GLSL ES 3.10 build 1.4@3443629

Extension:
GL_EXT_blend_minmax
GL_EXT_color_buffer_float
GL_EXT_discard_framebuffer
GL_EXT_draw_buffers
GL_EXT_multi_draw_arrays
GL_EXT_multisampled_render_to_texture
GL_EXT_occlusion_query_boolean
GL_EXT_read_format_bgra
GL_EXT_robustness
GL_EXT_separate_shader_objects
GL_EXT_shader_framebuffer_fetch
GL_EXT_shader_texture_lod
GL_EXT_texture_filter_anisotropic
GL_EXT_texture_format_BGRA8888
GL_EXT_texture_rg
GL_EXT_texture_sRGB_decode
GL_IMG_multisampled_render_to_texture
GL_IMG_program_binary
GL_IMG_read_format
GL_IMG_shader_binary
GL_IMG_texture_compression_pvrtc
GL_IMG_texture_compression_pvrtc2
GL_IMG_texture_format_BGRA8888
GL_IMG_texture_npot
GL_KHR_blend_equation_advanced
GL_KHR_blend_equation_advanced_coherent
GL_KHR_debug
GL_KHR_texture_compression_astc_ldr
GL_OES_compressed_ETC1_RGB8_texture
GL_OES_depth24
GL_OES_depth_texture
GL_OES_EGL_image
GL_OES_EGL_image_external
GL_OES_EGL_sync
GL_OES_element_index_uint
GL_OES_fragment_precision_high
GL_OES_get_program_binary
GL_OES_mapbuffer
GL_OES_packed_depth_stencil
GL_OES_required_internalformat
GL_OES_rgb8_rgba8
GL_OES_shader_image_atomic
GL_OES_standard_derivatives
GL_OES_surfaceless_context
GL_OES_texture_float
GL_OES_texture_half_float
GL_OES_texture_npot
GL_OES_texture_stencil8
GL_OES_texture_storage_multisample_2d_array
GL_OES_vertex_array_object
GL_OES_vertex_half_float

より詳細なデータは下記に掲載しました。

・CPU/GPU OpenGL ES Extension (Mobile GPU)

Fire TV Stick (2015) はスティック状のストリームプレイヤーで Chromecast に似ています。ただし Chromecast と違い普通に Fire OS (Android) が動作しており Native なアプリがローカルで走ります。

ハードウエアの仕様自体は最初に発表された Fire TV Stick 2014 から特に変わっていないようです。Developer サイトの Spec 表でも 2014 モデル時のまま Fire OS 3.0 (API Level 17) と記載されています。

ところが実際に実機を調べたところ、低スペックながら Fire TV 同様 Fire OS 5.0 が動作しており API Level 22 (Android 5.1 相当) であることがわかりました。

GL_VERSION: OpenGL ES 2.0
GL_RENDERER: VideoCore IV HW
GL_VENDOR: Broadcom
GL_SHADING_LANGUAGE_VERSION: OpenGL ES GLSL ES 1.00

Extension:
GL_OES_compressed_ETC1_RGB8_texture
GL_OES_compressed_paletted_texture
GL_OES_texture_npot
GL_OES_depth24
GL_OES_vertex_half_float
GL_OES_EGL_image
GL_OES_EGL_image_external
GL_EXT_discard_framebuffer
GL_OES_rgb8_rgba8
GL_OES_depth32
GL_OES_packed_depth_stencil
GL_EXT_texture_format_BGRA8888
GL_EXT_debug_marker

GPU は Raspberry Pi と同じ VideoCore IV です。
こちらも詳細は下記のページに追加しました。

・CPU/GPU OpenGL ES Extension (Mobile GPU)

Apple Watch と Android Wear を繋げてみた

装着時のバランスが悪く長さ調整が難しいのが難点。

さらに 3つ

Direct3D 12 GPU 毎の Descriptor Size, 問題点等

Direct3D 12 ではリソースバインドの方法が大きく変わっています。Shader の種類も渡すリソースの数も増えており、Bind のコストが無視できなくなっているからです。リソースは Descriptor Heap 上に確保した一連の Descriptor に登録します。この Heap 上の先頭アドレスを指定するだけで描画時のバインドが完了する仕組みです。

Descriptor は GPU がアクセスする領域なので、ハードウエアによってサイズが異なっています。実際にどれくらい違いがあるのか調べてみました。数値の単位は byte です。

GPU	FeatureLevel	CBV_SRV_UAV	SAMPLER	RTV	DSV
RADEON GCN 1.0	11_1	32	16	32	144
RADEON GCN 1.1	12_0	32	16	32	144
GeForce Kepler	11_0	32	32	32	8
GeForce Maxwell GM1	11_0	32	32	32	8
GeForce Maxwell GM2	12_1	32	32	32	8
Intel HD Graphics Gen7.5	11_1	32	16	32	96
Intel HD Graphcis Gen8	11_1	64	16	32	128

このように GPU によってサイズが異なるため、Descriptor のアドレス計算を行う場合は必ず GetDescriptorHandleIncrementSize() を参照しなければなりません。Descriptor とはいわば Resource を参照するためのポインターですが、View に相当するアクセスに必要な情報も含まれます。サイズ的に単純なアドレスだけではないことがわかります。

全体的に DSV が大きいのは、Depth の他に Stencil Surface が必要なこと、高速化のための (PreZ 等) の追加 Resource が含まれているためと考えられます。そういう意味では DSV が 8byte しかない GeForce はまさにアドレスだけ。更に他の情報構造体を間接的に参照しているのではないでしょうか。

Intel HD Graphics の場合は世代間でも差が生じています。外部からはあまり違いがわかりませんが、ハードウエアの差は思ったよりも大きいようです。

この表は下記ページにも掲載しています。

・RootSignature と Descriptor

●気がついた問題点など

DirectX12 は現在も頻繁にドライバの更新が行われています。まだ安定していない機能があるようです。以下使っていて気がついたもの。(2015/09/22現在)

GeForce Maxwell/Kepler (355.82)
　・Indirect Draw の CommandSignature で RootDescriptor が反映されない問題が生じていたが Driver 355.82 で修正された。

RADEON GCN 1.0/1.1 (15.8Beta)
　・CommandSignature で Rooto 32bit Consnta/Root Descriptor が反映されない
　・Bundle で RootSignature のパラメータが継承されない

Intel HD Graphcis Gen7.5/8 (10.18.15.4256)
　・RootSignature に Root 32bitConstant が複数存在する場合、CommandSignature で最初の 32bit Constant しか更新できない。

下記ページも更新しています。

・Direct3D 12 (DirectX 12) Windows 詳細

他にも問題ではありませんが API の挙動で GPU による細かい違いは結構あります。

ホイール欲しいハンドル欲しい

Mobile系、Direct3D や Shader などについて書いています。

Apple TV の浮動小数点演算速度。Fire TV/Android TV との比較など

ARM Cortex-A72 の浮動小数点演算速度 (Amazon Fire TV)

Amazon Fire TV と OpenGL ES 3.1, TV Stick の OS

Apple Watch と Android Wear を繋げてみた

Direct3D 12 GPU 毎の Descriptor Size, 問題点等