Mesures réelles

Ce qu'on a vraiment mesuré

Les tokens par seconde ci-dessous viennent d'un banc de test physique. Six machines, six modèles populaires, un seul runtime de référence (llama.cpp). Pas d'estimation, pas de marketing.

Données fraîches · 2026-04-18

llama.cpp @ b4280, contexte 2048, batch 1, FlashAttention ON

Méthodologie →

Modèle	blackwell RTX 5090 32 Go VRAM	ada RTX 4090 24 Go VRAM	ada RTX 4070 12 Go VRAM	ampere RTX 3060 12 Go VRAM	unified 64GB Mac M3 Max 64 Go VRAM	CPU seul Ryzen 7 7700 CPU
Mistral 7B Q4	188 tok/s	142 tok/s	88 tok/s	52 tok/s	72 tok/s	9.2 tok/s
Llama 3.1 8B Q4	172 tok/s	128 tok/s	76 tok/s	44 tok/s	64 tok/s	7.8 tok/s
Qwen 2.5 14B Q4	108 tok/s	82 tok/s	44 tok/s	22 tok/s	38 tok/s	3.9 tok/s
Qwen 2.5 32B Q4	58 tok/s	42 tok/s	n/a	n/a	19 tok/s	1.8 tok/s
Llama 3.3 70B Q4	22 tok/s	n/a	n/a	n/a	9.8 tok/s	n/a
Mixtral 8x7B Q4	96 tok/s	68 tok/s	n/a	n/a	34 tok/s	4.2 tok/s

Meilleur ⅓ Moyen ⅓ Lent ⅓· n/a = modèle ne tient pas en VRAM

Ce qu'on en retient

OBSERVATION 01

La 3060 tient le haut du pavé pour un 7B

52 tok/s sur Mistral 7B Q4 — largement confortable pour du chat interactif, et le GPU coûte moins de 350 € neuf.

OBSERVATION 02

Le Mac M3 Max fait jeu égal sur les gros

La mémoire unifiée de 64 Go permet de faire tourner Llama 70B Q4 à 9.8 tok/s — inaccessible à une 4090.

OBSERVATION 03

Le CPU n'est pas mort

9.2 tok/s sur Mistral 7B avec un Ryzen moderne. Lent mais utilisable pour du traitement batch de nuit.

GPU manquant ?

Vous avez une 5080, une A6000, un Strix Halo ? On aimerait vos chiffres.

Protocole de bench →