Comment on mesure

Des chiffres vérifiables

Ce site affiche des chiffres. Les estimations du configurateur, les verdicts du catalogue, les benchmarks mesurés. Voici exactement d'où ils viennent et comment on les calcule.

Trois principes

01
On distingue estimé et mesuré
Le configurateur donne des tokens/sec estimés par formule. La page Benchmarks affiche des tokens/sec mesurés. Les deux sont étiquetés différemment pour qu'on ne les confonde pas.
02
On affiche la marge d'erreur
Une estimation tokens/sec a ±30% d'incertitude. On l'affiche, on ne le cache pas. Un chiffre rond sans contexte, c'est de la fiction.
03
On date tout
Chaque guide, chaque fiche modèle porte une date de dernière vérification. Ce qui était vrai il y a 6 mois sur Ollama ne l'est souvent plus aujourd'hui.

Les formules utilisées

Simplifiées mais honnêtes. Le code source du moteur est consultable sur le repo — le moteur peut être lancé indépendamment du site.

VRAM requise

VRAM ≈ (P × b / 8) × overhead + KV

P = paramètres (milliards), b = bits de quantization, overhead ≈ 1.15, KV = cache contexte

Tokens/seconde estimés

tok/s ≈ (bande_passante_VRAM / (P × b / 8)) × η

η ≈ 0.75 pour un GPU récent, 0.55 pour un Mac Apple Silicon, 0.15 sur CPU pur

Verdict tenable

VRAM_GPU > VRAM_requise × 1.1

Marge de 10% pour l'OS, les drivers et un peu de contexte en plus

D'où viennent les données

Tout est sourcé. Rien ne sort d'un chapeau. Si une info est fausse ou périmée, signalez-la.

Hugging Face

Fiches modèles, tailles, architectures

huggingface.co

Ollama library

Quantizations disponibles et poids

ollama.com/library

llama.cpp

Benchmarks PPL, architectures supportées

github.com/ggerganov/llama.cpp

TechPowerUp

Specs GPU (VRAM, bande passante)

techpowerup.com/gpu-specs

Notre banc de test

Mesures tokens/s sur 6 machines de référence

voir Benchmarks

Biais connus

Ce qu'il faut savoir avant de lire nos chiffres

Les tokens/s estimés supposent une machine au repos, sans Chrome avec 40 onglets.
Les benchmarks sont mesurés avec llama.cpp build de référence, pas vLLM ou TGI.
Le configurateur ne modélise pas précisément les Mac — Apple Silicon a des comportements non linéaires sur les très gros modèles.
On privilégie les quantizations Q4 et Q5 dans le verdict. Q8 et FP16 sont couverts mais moins détaillés.

Trois principes

On distingue estimé et mesuré

On affiche la marge d'erreur

On date tout

Les formules utilisées

D'où viennent les données

Biais connus