(メモリ増設した) 普通の PC で 100b 以上の LLM を使用する

普通の自分の PC 上でも (メモリさえ増設できれば) 100b (1000億) 以上のパラメータを持った巨大な言語モデルを走らせることができます。

最近立て続けに 120b 前後のモデルが 3つほどリリースされたので、昨年の gpt-oss-120 を含めて実際に走らせてみました。以下その結果です。token/s の数値が大きい方が高速です。(ctx 4096, Q4)

Model	パラメータ数 (active数)	R7 9700X 128GB RTX5060Ti 16GB	i7-13700 96GB RTX4060Ti 16GB	R7 5700X 96GB RX9060XT 16GB	EVO-X2 128GB AI Max+ 395
gpt-oss-120b	120b (5b)	23.8 token/s	24.5 token/s	15.5 token/s	47.5 token/s
Qwen3.5 122B-A12B	122b (10b)	16.7 token/s	18.4 token/s	11.7 token/s	27.6 token/s
Nemotron 3 Super	120b (12b)	11.4 token/s	12.4 token/s	7.0 token/s	15.7 token/s
Mistral Small 4 2603	119b (6b)	13.8 token/s	15.4 token/s	11.3 token/s	33.8 token/s

AI 用の EVO-X2 は別格として、普通の PC (700 番台の CPU + 60 番台の GPU) でも RAM 96GB 以上 + VRAM 16GB あれば 10～20 token/s くらいで動いているのがわかるかと思います。

ちょうど 1年前は普通の PC で 70b のモデルを動かすためにビデオカードを 5枚繋いだりしていたのですが、それでもわずか 4 token/s でした。今ではもっとパラメータ数が多い 120b で 3～6 倍速くなっています。MoE が当たり前になって最適化が進んだおかげです。ありがとうございます。

なお速度は使用するソフトウエアのバージョンや設定によって変わります。非常に更新が激しいので、2026/03/20 現在での参考値としてみてください。

エージェントとして使う場合はコンテキストウィンドウサイズを増やす必要がありますが、その分 VRAM 割当も減って遅くなります。それでも KV キャッシュの再利用ができれば、生成速度が 10～15 token/s くらいでも割と直ぐにレスポンスが来ます。逆に再利用できないケースでは入力プロンプトの Prefill でだいぶ待たされます。

Ollama の場合は MoE でもパラメータが VRAM に乗らないと速度が出ません。LMStudio の方が速いのですが、モデル毎に CPU/GPU のバランス調整が必要です。llama.cpp が最も簡単で、CPU のスレッド数を最大にするだけであとはほぼデフォルトで大丈夫です。

Windows 11 の Ryzen 7 9700X 128GB + RTX 5060Ti で Qwen3.5 122B-A10B を動かす場合の例

gguf の Q4_K_M モデルをダウンロード
- もし LMStudio ですでにダウンロードしたファイル ( C:\Users\ユーザー名\.lmstudio\models\ 以下 ) があればそのまま利用可能です
llama.cpp の「Windows x64 (CUDA 12)」と「CUDA 12.4 DLSs」をダウンロード
- https://github.com/ggml-org/llama.cpp/releases
- DLLs の zip を展開して、中のファイルを llama-bXXXX-bin-win-cuda-12.4-x64 のフォルダにコピー
llama-server.exe を以下のようにして起動したら、ブラウザで「 http://127.0.0.1:8080 」を開きます
- 必要に応じてモデル名やパスの部分は変更してください

llama-server.exe --model Qweun3.5-122B-A10B-Q4_K_M-00001-of-00003.gguf -t 16 --ctx-size 4096 --host 127.0.0.1 --port 8080 --temp 1.0 --top-p 0.95 --top-k 20

llama-server.exe --model Qweun3.5-122B-A10B-Q4_K_M-00001-of-00003.gguf -t 16 --ctx-size 4096 --host 127.0.0.1 --port 8080 --temp 1.0 --top-p 0.95 --top-k 20

EVO-X2 の場合は VRAM 割当を 96GB にしたあと、上記のコマンドラインに「 –no-mmap 」を加えます。

実際にどのような設定を使ったかなど、より詳しいデータは以下のページ以下にまとめています。適宜更新しています。

Local LLM : メモリを増設した普通の PC 上で 100b 以上の LLM を使用する

使用したモデル

リリース	開発	モデル	パラメータ数	active
2025/08/05	OpenAI	gpt-oss-120b	120b	5b
2026/02/24	Alibaba	Qwen 3.5 122B-A10B	122b	10b
2026/03/11	NVIDIA	Nemotron 3 Super	120b	12b
2026/03/17	Mistral	Mistral Small 4 119B-2603	119b	6b

使用した PC スペック

OS	CPU	Arch	core/thread	RAM	GPU
Win11	Ryzen 7 9700X	Zen5	8/16	DDR5-5600 128GB	GeForce RTX 5060Ti 16GB
Linux	Core i7-13700	RaptorLake	16/24	DDR5-5600 96GB	GeForce RTX 4060Ti 16GB
Win11	Ryzen 7 5700X	Zen3	8/16	DDR4-3200 96GB	Radeon RX 9060 XT 16GB
Win11	Ryzen AI Max+ 395	Zen5	16/32	LPDDR5-8000 128GB	Radeon 8060S

ホイール欲しいハンドル欲しい

Mobile系、Direct3D や Shader などについて書いています。

(メモリ増設した) 普通の PC で 100b 以上の LLM を使用する

使用したモデル

使用した PC スペック

関連ページ

コメントを残すコメントをキャンセル

使用したモデル

使用した PC スペック

関連ページ

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル