ベンチマーク (更新:2026-05-07)

ローカル LLM ベンチマーク|Llama 3.1 8B/13B/70B Tokens/sec 2026年版

ローカル LLM(Llama 3.1・Qwen 2.5・DeepSeek R1)の GPU 別 Tokens/sec を集約。LM Studio / Ollama / llama.cpp の量子化別速度を主要 GPU で比較。

ローカル LLM ベンチマーク|Llama 3.1 8B/13B/70B Tokens/sec 2026年版 のサムネイル画像

※ 本記事はアフィリエイト広告(Amazon アソシエイト等)を含みます

ローカル LLM(Llama 3.1 / Qwen 2.5 / DeepSeek R1 等)の GPU 別生成速度を集約。Tokens/sec(1 秒あたり生成トークン数)が体感速度の主要指標です。

モデルサイズ別の VRAM 消費

ローカル LLM 量子化別 VRAM
評価項目
モデル
Q4 量子化
Q8 量子化
FP16
Llama 3.1 8B 6 GB 10 GB 16 GB
Llama 3.1 13B 10 GB 16 GB 26 GB
Qwen 2.5 14B 10 GB 16 GB 28 GB
DeepSeek R1 32B 20 GB 32 GB 64 GB
Llama 3.3 70B 40 GB 70 GB 140 GB
VRAM 16GB で 13B Q4 余裕、24GB で 32B Q4 + 70B Q4 ギリ。

GPU 別 Tokens/sec(Llama 3.1 13B Q4)

Llama 3.1 13B Q4 生成速度(中央値)
評価項目
GPU
VRAM
tokens/sec
RTX 4090 24GB 余裕 85
RTX 4080 SUPER 16GB 余裕 70
RTX 4070 Ti SUPER 16GB 余裕 60
RTX 4070 SUPER 12GB ギリ 50
RTX 4060 Ti 16GB 余裕 45
RTX 4060 8GB **OOM**
VRAM 16GB が 13B Q4 の境界線。VRAM 容量ファースト、CUDA コア数セカンド。

ツール選択

ツール特徴推奨層
Ollama(CLI)シンプル・モデル切替容易エンジニア
LM Studio(GUI)直感的 UI非エンジニア
llama.cpp軽量・カスタマイズ上級者
text-generation-webuiA1111 的 UIカスタマイズ重視

まとめ

ローカル LLM は VRAM 容量で運用できるモデルが決まる。13B Q4 まで → RTX 4060 Ti 16GB。32B Q4 まで → RTX 4090。70B Q4 → 24GB 必須。詳しくは 生成 AI 用自作 PC も参照。

出典・参考情報