🇺🇸 gpt-oss 20B
Petit frère de gpt-oss 120B. 21B/3.6B actifs. Égale o3-mini sur laptop.
ollama run openai/gpt-oss:20b
La Radeon RX 7900 XT (20 GB GDDR6, 800 Go/s) est la sœur cadette de la 7900 XTX. 20 Go inhabituels permettent les 24-32B en Q4 confortable. ~650 € neuve, excellent rapport.
Petit frère de gpt-oss 120B. 21B/3.6B actifs. Égale o3-mini sur laptop.
ollama run openai/gpt-oss:20b
Raisonneur compact MoE 21B/3B actifs. Apache 2.0. Rapide grâce aux 3B actifs.
ollama pull hf.co/baidu/ernie-4.5-21b-GGUF
Premier dLLM open Apache 2.0 : MoE 16B/1B + décodeur diffusion 6.2B. Texte+vision unifié. Sortie 22 avril 2026.
# HuggingFace : inclusionAI/LLaDA2.0-Uni (Flash Attn 2 + CUDA 12.4 requis)
Le meilleur rapport qualité/taille en 2025. Rivalise avec les 70B.
ollama run mistral-small:24b
Small 3 enrichi de la vision. 128k ctx, Apache 2.0. Small 3.2 (Juin 2025) disponible en update.
ollama run mistral-small3.1:24b
Spécialiste coding 24B Apache 2.0. 72.2% SWE-Bench. 256k ctx, FR lab.
ollama run devstral-small2:24b
Update Juin 2025 de Small 3.1. Moitié moins de générations infinies, function calling amélioré.
ollama run mistral-small3.2:24b
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur Radeon RX 7900 XT |
|---|---|---|---|---|---|---|
| #1 | gpt-oss 20B | 21B | 13 GB | 128 000 | Apache 2.0 | 55 tok/s · Q5_K_M |
| #2 | ERNIE 4.5 21B-A3B Thinking | 21B | 13 GB | 131 072 | Apache 2.0 | 40 tok/s · Q5_K_M |
| #3 | LLaDA 2.0 Uni 16B | 16B | 18 GB | 8 192 | Apache 2.0 | 60 tok/s · Q4_K_M |
| #4 | Mistral Small 3 | 24B | 14 GB | 32 768 | Apache 2.0 | 15 tok/s · Q5_K_M |
| #5 | Mistral Small 3.1 24B | 24B | 14 GB | 128 000 | Apache 2.0 | 15 tok/s · Q5_K_M |
| #6 | Devstral Small 2 24B | 24B | 14 GB | 256 000 | Apache 2.0 | 15 tok/s · Q5_K_M |
| #7 | Mistral Small 3.2 24B | 24B | 14 GB | 128 000 | Apache 2.0 | 15 tok/s · Q5_K_M |
Filtre : Q4_K_M ≤ 18 Go. Bonus 13-32B (peak 20 Go). 800 Go/s + ROCm 6.
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
RX 7900 XT vs 7900 XTX ?
XT = 20 Go + 800 Go/s. XTX = 24 Go + 960 Go/s. Pour 24-32B Q4, les deux conviennent. XTX préférable pour fine-tuning ou 32B Q5. Voir RX 7900 XTX.
Pourquoi 20 Go et pas 16 ou 24 ?
Choix marketing AMD pour positionner entre 7900 XTX et le tier précédent. Pour LLM, c'est sweet spot : Mistral Small 24B Q4 (~13 Go) + contexte 32k + cache = ~18 Go.
ROCm sur 7900 XT : easy ?
Oui depuis ROCm 6 (2024). Ollama supporte natif via -gpu rocm. llama.cpp aussi. Plus simple qu'il y a 2 ans. Voir guide.
Sweet spot LLM 7900 XT ?
Mistral Small 24B Q5 (~17 Go) à 25 tok/s, Qwen 3 32B Q4 (~17 Go) à 22 tok/s. Excellent pour code + chat.
Approfondissez avec nos duels détaillés des finalistes :