QuelLLMFR Analyser ma config →
Accueil Catalogue Meilleur LLM sur RTX 4090 (24 GB) en 2026

Meilleur LLM sur RTX 4090 (24 GB) en 2026

La RTX 4090 (24 GB VRAM, architecture Ada Lovelace) est la référence grand public pour l'inférence LLM en 2026. Voici les modèles qui en tirent le meilleur : top qualité en Q4/Q5 tenant dans 24 GB, débit confortable (30+ tokens/sec).

Classement

1

🇨🇳 Qwen 3 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.

Pourquoi ce rang Tient en Q5_K_M (~23 GB sur 24 GB dispo). 30B paramètres, contexte 131 072 tokens.
ollama run qwen3:30b-a3b
Sur RTX 4090
Q5_K_M
23 GB · 100 tok/s
2

🇺🇸 Granite 4.0 H-Small 32B-A9B

IBM · 32B paramètres · Apache 2.0 · 128 000 tokens ctx

Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.

Pourquoi ce rang Tient en Q5_K_M (~23 GB sur 24 GB dispo). 32B paramètres, contexte 128 000 tokens.
ollama run granite4:small-h
Sur RTX 4090
Q5_K_M
23 GB · 75 tok/s
3

🇨🇳 DeepSeek R1 Distill 32B

DeepSeek · 32B paramètres · MIT · 32 768 tokens ctx

Le meilleur raisonneur open-weight accessible.

Pourquoi ce rang Tient en Q5_K_M (~23 GB sur 24 GB dispo). 32B paramètres, contexte 32 768 tokens.
ollama run deepseek-r1:32b
Sur RTX 4090
Q5_K_M
23 GB · 30 tok/s
4

🇨🇳 Qwen 3 32B

Alibaba · 32B paramètres · Apache 2.0 · 131 072 tokens ctx

Dense 32B avec thinking mode. MMLU-Pro 65.5, SuperGPQA 39.8.

Pourquoi ce rang Tient en Q5_K_M (~23 GB sur 24 GB dispo). 32B paramètres, contexte 131 072 tokens.
ollama run qwen3:32b
Sur RTX 4090
Q5_K_M
23 GB · 30 tok/s
5

🇨🇳 QwQ 32B

Alibaba · 32B paramètres · Apache 2.0 · 131 072 tokens ctx

Raisonneur RL Apache 2.0. AIME24 79.5, MATH-500 90.6. Concurrent direct de DeepSeek R1.

Pourquoi ce rang Tient en Q5_K_M (~23 GB sur 24 GB dispo). 32B paramètres, contexte 131 072 tokens.
ollama run qwq:32b
Sur RTX 4090
Q5_K_M
23 GB · 30 tok/s
6

🇨🇳 DeepSeek R2 32B

DeepSeek · 32B paramètres · MIT · 128 000 tokens ctx

Raisonneur dense 32B MIT. AIME 92.7%. Tient sur RTX 4090 en Q4.

Pourquoi ce rang Tient en Q5_K_M (~23 GB sur 24 GB dispo). 32B paramètres, contexte 128 000 tokens.
# HuggingFace : deepseek-ai/DeepSeek-R2 (pas encore de tag Ollama officiel)
Sur RTX 4090
Q5_K_M
23 GB · 30 tok/s
7

🇺🇸 OLMo 3 32B

Allen AI · 32B paramètres · Apache 2.0 · 65 536 tokens ctx

Dense 32B 100% ouvert. Variantes Think et Instruct. Le modèle souveraineté des chercheurs.

Pourquoi ce rang Tient en Q5_K_M (~23 GB sur 24 GB dispo). 32B paramètres, contexte 65 536 tokens.
ollama run olmo-3:32b
Sur RTX 4090
Q5_K_M
23 GB · 30 tok/s

Tableau comparatif

Rang Modèle Params VRAM Q4 Contexte Licence Sur RTX 4090
#1 Qwen 3 30B-A3B 30B 19 GB 131 072 Apache 2.0 100 tok/s · Q5_K_M
#2 Granite 4.0 H-Small 32B-A9B 32B 19 GB 128 000 Apache 2.0 75 tok/s · Q5_K_M
#3 DeepSeek R1 Distill 32B 32B 19 GB 32 768 MIT 30 tok/s · Q5_K_M
#4 Qwen 3 32B 32B 19 GB 131 072 Apache 2.0 30 tok/s · Q5_K_M
#5 QwQ 32B 32B 19 GB 131 072 Apache 2.0 30 tok/s · Q5_K_M
#6 DeepSeek R2 32B 32B 19 GB 128 000 MIT 30 tok/s · Q5_K_M
#7 OLMo 3 32B 32B 19 GB 65 536 Apache 2.0 30 tok/s · Q5_K_M

Méthodologie du classement

On garde les modèles qui tiennent dans 24 GB en Q4_K_M et qui exploitent au moins 40% de la VRAM (sinon un 7B suffit). Score bonus pour les modèles dont le fit VRAM est entre 60% et 95% — sweet spot qualité/débit.

Critères pris en compte :

  • Tient en 24 GB en Q4_K_M
  • Tire parti de la VRAM (> 60%)
  • Débit ≥ 30 tokens/sec
  • Qualité > 7B

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

Peut-on faire tourner un 70B sur RTX 4090 ?

En Q4_K_M, un 70B réclame ~40 GB de VRAM — trop pour une seule 4090. Il faut soit descendre en Q2/Q3 (perte de qualité), soit décharger sur RAM CPU (très lent), soit ajouter une 2ᵉ carte. Pour un vrai 70B, visez 2× RTX 4090 ou une 5090 + DDR5.

Quelle quantif choisir sur RTX 4090 ?

Q5_K_M est le sweet spot (moins de 1% de perte vs FP16 selon les benchmarks). Q8 est nettement meilleur que Q5 mais consomme 50% de VRAM en plus. Q4 uniquement si vous voulez un gros modèle qui ne rentre pas en Q5.

Mistral Small 3.1 24B ou Qwen 2.5 32B sur 4090 ?

Voir le comparatif. Mistral Small 3.1 est plus rapide (24B < 32B) et meilleur en français. Qwen 2.5 32B est plus capable sur tâches générales et code.

Quel moteur d'inférence sur RTX 4090 ?

Pour du chat interactif : Ollama (simple) ou llama.cpp (max contrôle). Pour du throughput serveur : vLLM ou ExLlamaV2. Le gain peut atteindre 2-3× sur vLLM en batch.

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Pour aller plus loin