普通の自分の PC 上でも (メモリさえ増設できれば) 100b (1000億) 以上のパラメータを持った巨大な言語モデルを走らせることができます。
最近立て続けに 120b 前後のモデルが 3つほどリリースされたので、昨年の gpt-oss-120 を含めて実際に走らせてみました。以下その結果です。token/s の数値が大きい方が高速です。(ctx 4096, Q4)
| Model | パラメータ数 (active数) | R7 9700X 128GB RTX5060Ti 16GB | i7-13700 96GB RTX4060Ti 16GB | R7 5700X 96GB RX9060XT 16GB | EVO-X2 128GB AI Max+ 395 |
|---|---|---|---|---|---|
| gpt-oss-120b | 120b (5b) | 23.8 token/s | 24.5 token/s | 15.5 token/s | 47.5 token/s |
| Qwen3.5 122B-A12B | 122b (10b) | 16.7 token/s | 18.4 token/s | 11.7 token/s | 27.6 token/s |
| Nemotron 3 Super | 120b (12b) | 11.4 token/s | 12.4 token/s | 7.0 token/s | 15.7 token/s |
| Mistral Small 4 2603 | 119b (6b) | 13.8 token/s | 15.4 token/s | 11.3 token/s | 33.8 token/s |
AI 用の EVO-X2 は別格として、普通の PC (700 番台の CPU + 60 番台の GPU) でも RAM 96GB 以上 + VRAM 16GB あれば 10~20 token/s くらいで動いているのがわかるかと思います。
ちょうど 1年前は普通の PC で 70b のモデルを動かすためにビデオカードを 5枚繋いだりしていたのですが、それでもわずか 4 token/s でした。今ではもっとパラメータ数が多い 120b で 3~6 倍速くなっています。MoE が当たり前になって最適化が進んだおかげです。ありがとうございます。
なお速度は使用するソフトウエアのバージョンや設定によって変わります。非常に更新が激しいので、2026/03/20 現在での参考値としてみてください。
エージェントとして使う場合はコンテキストウィンドウサイズを増やす必要がありますが、その分 VRAM 割当も減って遅くなります。それでも KV キャッシュの再利用ができれば、生成速度が 10~15 token/s くらいでも割と直ぐにレスポンスが来ます。逆に再利用できないケースでは入力プロンプトの Prefill でだいぶ待たされます。
Ollama の場合は MoE でもパラメータが VRAM に乗らないと速度が出ません。LMStudio の方が速いのですが、モデル毎に CPU/GPU のバランス調整が必要です。llama.cpp が最も簡単で、CPU のスレッド数を最大にするだけであとはほぼデフォルトで大丈夫です。
Windows 11 の Ryzen 7 9700X 128GB + RTX 5060Ti で Qwen3.5 122B-A10B を動かす場合の例
- gguf の Q4_K_M モデルをダウンロード
- もし LMStudio ですでにダウンロードしたファイル ( C:\Users\ユーザー名\.lmstudio\models\ 以下 ) があればそのまま利用可能です
- llama.cpp の 「Windows x64 (CUDA 12)」と「CUDA 12.4 DLSs」 をダウンロード
- https://github.com/ggml-org/llama.cpp/releases
- DLLs の zip を展開して、中のファイルを llama-bXXXX-bin-win-cuda-12.4-x64 のフォルダにコピー
- llama-server.exe を以下のようにして起動したら、ブラウザで「 http://127.0.0.1:8080 」を開きます
- 必要に応じてモデル名やパスの部分は変更してください
llama-server.exe --model Qweun3.5-122B-A10B-Q4_K_M-00001-of-00003.gguf -t 16 --ctx-size 4096 --host 127.0.0.1 --port 8080 --temp 1.0 --top-p 0.95 --top-k 20EVO-X2 の場合は VRAM 割当を 96GB にしたあと、上記のコマンドラインに「 –no-mmap 」を加えます。
実際にどのような設定を使ったかなど、より詳しいデータは以下のページ以下にまとめています。適宜更新しています。
使用したモデル
| リリース | 開発 | モデル | パラメータ数 | active |
|---|---|---|---|---|
| 2025/08/05 | OpenAI | gpt-oss-120b | 120b | 5b |
| 2026/02/24 | Alibaba | Qwen 3.5 122B-A10B | 122b | 10b |
| 2026/03/11 | NVIDIA | Nemotron 3 Super | 120b | 12b |
| 2026/03/17 | Mistral | Mistral Small 4 119B-2603 | 119b | 6b |
- https://openai.com/ja-JP/index/introducing-gpt-oss
- https://qwen.ai/blog?id=qwen3.5
- https://huggingface.co/Qwen/Qwen3.5-122B-A10B
- https://blogs.nvidia.co.jp/blog/nemotron-3-super-agentic-ai/
- https://mistral.ai/news/mistral-small-4
使用した PC スペック
| OS | CPU | Arch | core/thread | RAM | GPU |
|---|---|---|---|---|---|
| Win11 | Ryzen 7 9700X | Zen5 | 8/16 | DDR5-5600 128GB | GeForce RTX 5060Ti 16GB |
| Linux | Core i7-13700 | RaptorLake | 16/24 | DDR5-5600 96GB | GeForce RTX 4060Ti 16GB |
| Win11 | Ryzen 7 5700X | Zen3 | 8/16 | DDR4-3200 96GB | Radeon RX 9060 XT 16GB |
| Win11 | Ryzen AI Max+ 395 | Zen5 | 16/32 | LPDDR5-8000 128GB | Radeon 8060S |














