Mesures réelles
Ce qu'on a vraiment mesuré
Les tokens par seconde ci-dessous viennent d'un banc de test physique. Six machines, six modèles populaires, un seul runtime de référence (llama.cpp). Pas d'estimation, pas de marketing.
| Modèle | blackwell RTX 5090 32 Go VRAM | ada RTX 4090 24 Go VRAM | ada RTX 4070 12 Go VRAM | ampere RTX 3060 12 Go VRAM | unified 64GB Mac M3 Max 64 Go VRAM | CPU seul Ryzen 7 7700 CPU |
|---|---|---|---|---|---|---|
| Mistral 7B Q4 | 188 tok/s | 142 tok/s | 88 tok/s | 52 tok/s | 72 tok/s | 9.2 tok/s |
| Llama 3.1 8B Q4 | 172 tok/s | 128 tok/s | 76 tok/s | 44 tok/s | 64 tok/s | 7.8 tok/s |
| Qwen 2.5 14B Q4 | 108 tok/s | 82 tok/s | 44 tok/s | 22 tok/s | 38 tok/s | 3.9 tok/s |
| Qwen 2.5 32B Q4 | 58 tok/s | 42 tok/s | n/a | n/a | 19 tok/s | 1.8 tok/s |
| Llama 3.3 70B Q4 | 22 tok/s | n/a | n/a | n/a | 9.8 tok/s | n/a |
| Mixtral 8x7B Q4 | 96 tok/s | 68 tok/s | n/a | n/a | 34 tok/s | 4.2 tok/s |
Meilleur ⅓ Moyen ⅓ Lent ⅓· n/a = modèle ne tient pas en VRAM
Ce qu'on en retient
OBSERVATION 01
La 3060 tient le haut du pavé pour un 7B
52 tok/s sur Mistral 7B Q4 — largement confortable pour du chat interactif, et le GPU coûte moins de 350 € neuf.
OBSERVATION 02
Le Mac M3 Max fait jeu égal sur les gros
La mémoire unifiée de 64 Go permet de faire tourner Llama 70B Q4 à 9.8 tok/s — inaccessible à une 4090.
OBSERVATION 03
Le CPU n'est pas mort
9.2 tok/s sur Mistral 7B avec un Ryzen moderne. Lent mais utilisable pour du traitement batch de nuit.
GPU manquant ?