Comment on mesure

Des chiffres vérifiables

Ce site affiche des chiffres. Les estimations du configurateur, les verdicts du catalogue, les benchmarks mesurés. Voici exactement d'où ils viennent et comment on les calcule.

Trois principes

  1. 01

    On distingue estimé et mesuré

    Le configurateur donne des tokens/sec estimés par formule. La page Benchmarks affiche des tokens/sec mesurés. Les deux sont étiquetés différemment pour qu'on ne les confonde pas.

  2. 02

    On affiche la marge d'erreur

    Une estimation tokens/sec a ±30% d'incertitude. On l'affiche, on ne le cache pas. Un chiffre rond sans contexte, c'est de la fiction.

  3. 03

    On date tout

    Chaque guide, chaque fiche modèle porte une date de dernière vérification. Ce qui était vrai il y a 6 mois sur Ollama ne l'est souvent plus aujourd'hui.

Les formules utilisées

Simplifiées mais honnêtes. Le code source du moteur est consultable sur le repo — le moteur peut être lancé indépendamment du site.

01
VRAM requise
VRAM ≈ (P × b / 8) × overhead + KV

P = paramètres (milliards), b = bits de quantization, overhead ≈ 1.15, KV = cache contexte

02
Tokens/seconde estimés
tok/s ≈ (bande_passante_VRAM / (P × b / 8)) × η

η ≈ 0.75 pour un GPU récent, 0.55 pour un Mac Apple Silicon, 0.15 sur CPU pur

03
Verdict tenable
VRAM_GPU > VRAM_requise × 1.1

Marge de 10% pour l'OS, les drivers et un peu de contexte en plus

D'où viennent les données

Tout est sourcé. Rien ne sort d'un chapeau. Si une info est fausse ou périmée, signalez-la.

Hugging Face
Fiches modèles, tailles, architectures
huggingface.co
Ollama library
Quantizations disponibles et poids
ollama.com/library
llama.cpp
Benchmarks PPL, architectures supportées
github.com/ggerganov/llama.cpp
TechPowerUp
Specs GPU (VRAM, bande passante)
techpowerup.com/gpu-specs
Notre banc de test
Mesures tokens/s sur 6 machines de référence
voir Benchmarks

Biais connus

!
Ce qu'il faut savoir avant de lire nos chiffres
  • Les tokens/s estimés supposent une machine au repos, sans Chrome avec 40 onglets.
  • Les benchmarks sont mesurés avec llama.cpp build de référence, pas vLLM ou TGI.
  • Le configurateur ne modélise pas précisément les Mac — Apple Silicon a des comportements non linéaires sur les très gros modèles.
  • On privilégie les quantizations Q4 et Q5 dans le verdict. Q8 et FP16 sont couverts mais moins détaillés.