🇺🇸 gpt-oss 20B
Petit frère de gpt-oss 120B. 21B/3.6B actifs. Égale o3-mini sur laptop.
ollama run openai/gpt-oss:20b
16 GB de VRAM est le palier idéal pour les LLM 13-24B quantifiés. Cartes cibles : RTX 4080/4080 Super, RTX 5080, 4070 Ti Super, 4060 Ti 16 GB, RX 7800 XT. Voici les meilleurs modèles pour cette tranche.
Petit frère de gpt-oss 120B. 21B/3.6B actifs. Égale o3-mini sur laptop.
ollama run openai/gpt-oss:20b
Raisonneur compact MoE 21B/3B actifs. Apache 2.0. Rapide grâce aux 3B actifs.
ollama pull hf.co/baidu/ernie-4.5-21b-GGUF
MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.
ollama pull hf.co/arcee-ai/Trinity-Mini-26B-GGUF
Le meilleur rapport qualité/taille en 2025. Rivalise avec les 70B.
ollama run mistral-small:24b
Small 3 enrichi de la vision. 128k ctx, Apache 2.0. Small 3.2 (Juin 2025) disponible en update.
ollama run mistral-small3.1:24b
Spécialiste coding 24B Apache 2.0. 72.2% SWE-Bench. 256k ctx, FR lab.
ollama run devstral-small2:24b
Update Juin 2025 de Small 3.1. Moitié moins de générations infinies, function calling amélioré.
ollama run mistral-small3.2:24b
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur RTX 4080 |
|---|---|---|---|---|---|---|
| #1 | gpt-oss 20B | 21B | 13 GB | 128 000 | Apache 2.0 | 55 tok/s · Q5_K_M |
| #2 | ERNIE 4.5 21B-A3B Thinking | 21B | 13 GB | 131 072 | Apache 2.0 | 40 tok/s · Q5_K_M |
| #3 | Trinity Mini 26B-A3B | 26B | 15 GB | 131 072 | Apache 2.0 | 40 tok/s · Q4_K_M |
| #4 | Mistral Small 3 | 24B | 14 GB | 32 768 | Apache 2.0 | 15 tok/s · Q4_K_M |
| #5 | Mistral Small 3.1 24B | 24B | 14 GB | 128 000 | Apache 2.0 | 15 tok/s · Q4_K_M |
| #6 | Devstral Small 2 24B | 24B | 14 GB | 256 000 | Apache 2.0 | 15 tok/s · Q4_K_M |
| #7 | Mistral Small 3.2 24B | 24B | 14 GB | 128 000 | Apache 2.0 | 15 tok/s · Q4_K_M |
On garde les modèles qui tiennent en Q4_K_M dans 16 GB, en favorisant ceux qui remplissent bien la VRAM (50-95%) — signe qu'on exploite le matériel.
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
Quel LLM sur RTX 4080 16 GB ?
Notre top choix : gpt-oss 20B. Pour un bon compromis qualité/débit, restez sur des 13-24B quantifiés en Q4_K_M ou Q5.
Peut-on passer en Q5 ou Q8 sur 16 GB ?
Oui pour un 8-14B (Q5 d'un 14B = ~10 GB, Q8 d'un 8B = ~10 GB). Pas pour un 24B (Q5 ≈ 17 GB, hors budget). Q4 reste l'option pour les 24B.
Gemma 2 27B tient-il en 16 GB ?
En Q4_K_M seulement (≈ 16 GB) — limite de la limite. En Q5 il déborde (20 GB). Préférez Mistral Small 3.1 24B en Q4 (14 GB) pour garder de la marge.
RTX 4080 vs RTX 4070 Ti Super pour LLM ?
Les deux ont 16 GB mais la 4080 est 30-40% plus rapide (tier 4 vs 3 dans notre scoring). Si le budget le permet, la 4080 Super ou 5080 est clairement mieux.
Approfondissez avec nos duels détaillés des finalistes :