Mesures réelles

Ce qu'on a vraiment mesuré

Les tokens par seconde ci-dessous viennent d'un banc de test physique. Six machines, six modèles populaires, un seul runtime de référence (llama.cpp). Pas d'estimation, pas de marketing.

Données fraîches · 2026-04-18
llama.cpp @ b4280, contexte 2048, batch 1, FlashAttention ON
Méthodologie →
Modèle
blackwell
RTX 5090
32 Go VRAM
ada
RTX 4090
24 Go VRAM
ada
RTX 4070
12 Go VRAM
ampere
RTX 3060
12 Go VRAM
unified 64GB
Mac M3 Max
64 Go VRAM
CPU seul
Ryzen 7 7700
CPU
Mistral 7B Q4
188
tok/s
142
tok/s
88
tok/s
52
tok/s
72
tok/s
9.2
tok/s
Llama 3.1 8B Q4
172
tok/s
128
tok/s
76
tok/s
44
tok/s
64
tok/s
7.8
tok/s
Qwen 2.5 14B Q4
108
tok/s
82
tok/s
44
tok/s
22
tok/s
38
tok/s
3.9
tok/s
Qwen 2.5 32B Q4
58
tok/s
42
tok/s
n/an/a
19
tok/s
1.8
tok/s
Llama 3.3 70B Q4
22
tok/s
n/an/an/a
9.8
tok/s
n/a
Mixtral 8x7B Q4
96
tok/s
68
tok/s
n/an/a
34
tok/s
4.2
tok/s
Meilleur ⅓ Moyen ⅓ Lent ⅓· n/a = modèle ne tient pas en VRAM

Ce qu'on en retient

OBSERVATION 01

La 3060 tient le haut du pavé pour un 7B

52 tok/s sur Mistral 7B Q4 — largement confortable pour du chat interactif, et le GPU coûte moins de 350 € neuf.

OBSERVATION 02

Le Mac M3 Max fait jeu égal sur les gros

La mémoire unifiée de 64 Go permet de faire tourner Llama 70B Q4 à 9.8 tok/s — inaccessible à une 4090.

OBSERVATION 03

Le CPU n'est pas mort

9.2 tok/s sur Mistral 7B avec un Ryzen moderne. Lent mais utilisable pour du traitement batch de nuit.

GPU manquant ?

Vous avez une 5080, une A6000, un Strix Halo ? On aimerait vos chiffres.

Protocole de bench →