🇫🇷 Mistral Small 3
Le meilleur rapport qualité/taille en 2025. Rivalise avec les 70B.
ollama run mistral-small:24b
16 GB de VRAM est le palier idéal pour les LLM 13-24B quantifiés. Cartes cibles : RTX 4080/4080 Super, RTX 5080, 4070 Ti Super, 4060 Ti 16 GB, RX 7800 XT. Voici les meilleurs modèles pour cette tranche.
Le meilleur rapport qualité/taille en 2025. Rivalise avec les 70B.
ollama run mistral-small:24b
Small 3 enrichi de la vision. 128k ctx, Apache 2.0. Small 3.2 (Juin 2025) disponible en update.
ollama run mistral-small3.1:24b
Spécialiste coding 24B Apache 2.0. 72.2% SWE-Bench. 256k ctx, FR lab.
ollama run devstral-small2:24b
Update Juin 2025 de Small 3.1. Moitié moins de générations infinies, function calling amélioré.
ollama run mistral-small3.2:24b
Premier raisonneur open Mistral. AIME24 70.7%. Base Small 3.1 + entraînement CoT.
ollama run magistral:24b
Base Mistral Small 3.1, hybrid think/non-think. +86% sur GSM-8K Indic romanisé. 11 langues indiennes + EN.
# HuggingFace : sarvamai/sarvam-m
Version 22B d'EuroLLM (Févr 2026). 35 langues UE. 32k ctx. Supplante EuroLLM 9B pour tâches lourdes.
# HuggingFace : utter-project/EuroLLM-22B-Instruct-2512
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur RTX 4080 |
|---|---|---|---|---|---|---|
| #1 | Mistral Small 3 | 24B | 14 GB | 32 768 | Apache 2.0 | 15 tok/s · Q4_K_M |
| #2 | Mistral Small 3.1 24B | 24B | 14 GB | 128 000 | Apache 2.0 | 15 tok/s · Q4_K_M |
| #3 | Devstral Small 2 24B | 24B | 14 GB | 256 000 | Apache 2.0 | 15 tok/s · Q4_K_M |
| #4 | Mistral Small 3.2 24B | 24B | 14 GB | 128 000 | Apache 2.0 | 15 tok/s · Q4_K_M |
| #5 | Magistral Small 24B | 24B | 14 GB | 128 000 | Apache 2.0 | 15 tok/s · Q4_K_M |
| #6 | Sarvam-M 24B | 24B | 14 GB | 32 768 | Apache 2.0 | 15 tok/s · Q4_K_M |
| #7 | EuroLLM 22B Instruct 2512 | 22.6B | 13 GB | 32 768 | Apache 2.0 | 16 tok/s · Q5_K_M |
On garde les modèles qui tiennent en Q4_K_M dans 16 GB, en favorisant ceux qui remplissent bien la VRAM (50-95%) — signe qu'on exploite le matériel.
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
Quel LLM sur RTX 4080 16 GB ?
Notre top choix : Mistral Small 3. Pour un bon compromis qualité/débit, restez sur des 13-24B quantifiés en Q4_K_M ou Q5.
Peut-on passer en Q5 ou Q8 sur 16 GB ?
Oui pour un 8-14B (Q5 d'un 14B = ~10 GB, Q8 d'un 8B = ~10 GB). Pas pour un 24B (Q5 ≈ 17 GB, hors budget). Q4 reste l'option pour les 24B.
Gemma 2 27B tient-il en 16 GB ?
En Q4_K_M seulement (≈ 16 GB) — limite de la limite. En Q5 il déborde (20 GB). Préférez Mistral Small 3.1 24B en Q4 (14 GB) pour garder de la marge.
RTX 4080 vs RTX 4070 Ti Super pour LLM ?
Les deux ont 16 GB mais la 4080 est 30-40% plus rapide (tier 4 vs 3 dans notre scoring). Si le budget le permet, la 4080 Super ou 5080 est clairement mieux.
Approfondissez avec nos duels détaillés des finalistes :