Des chiffres vérifiables
Ce site affiche des chiffres. Les estimations du configurateur, les verdicts du catalogue, les benchmarks mesurés. Voici exactement d'où ils viennent et comment on les calcule.
Trois principes
- 01
On distingue estimé et mesuré
Le configurateur donne des tokens/sec estimés par formule. La page Benchmarks affiche des tokens/sec mesurés. Les deux sont étiquetés différemment pour qu'on ne les confonde pas.
- 02
On affiche la marge d'erreur
Une estimation tokens/sec a ±30% d'incertitude. On l'affiche, on ne le cache pas. Un chiffre rond sans contexte, c'est de la fiction.
- 03
On date tout
Chaque guide, chaque fiche modèle porte une date de dernière vérification. Ce qui était vrai il y a 6 mois sur Ollama ne l'est souvent plus aujourd'hui.
Les formules utilisées
Simplifiées mais honnêtes. Le code source du moteur est consultable sur le repo — le moteur peut être lancé indépendamment du site.
P = paramètres (milliards), b = bits de quantization, overhead ≈ 1.15, KV = cache contexte
η ≈ 0.75 pour un GPU récent, 0.55 pour un Mac Apple Silicon, 0.15 sur CPU pur
Marge de 10% pour l'OS, les drivers et un peu de contexte en plus
D'où viennent les données
Tout est sourcé. Rien ne sort d'un chapeau. Si une info est fausse ou périmée, signalez-la.
Biais connus
- Les tokens/s estimés supposent une machine au repos, sans Chrome avec 40 onglets.
- Les benchmarks sont mesurés avec llama.cpp build de référence, pas vLLM ou TGI.
- Le configurateur ne modélise pas précisément les Mac — Apple Silicon a des comportements non linéaires sur les très gros modèles.
- On privilégie les quantizations Q4 et Q5 dans le verdict. Q8 et FP16 sont couverts mais moins détaillés.