Accueil Catalogue Meilleur LLM sur RTX 4090 (24 GB) en 2026

Meilleur LLM sur RTX 4090 (24 GB) en 2026

La RTX 4090 (24 GB VRAM, architecture Ada Lovelace) est la référence grand public pour l'inférence LLM en 2026. Voici les modèles qui en tirent le meilleur : top qualité en Q4/Q5 tenant dans 24 GB, débit confortable (30+ tokens/sec).

Classement

1

🇨🇳 Qwen 3 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.

Pourquoi ce rang Tient en Q5_K_M (~23 GB sur 24 GB dispo). 30B paramètres, contexte 131 072 tokens.
ollama run qwen3:30b-a3b
Sur RTX 4090
Q5_K_M
23 GB · 100 tok/s
2

🇺🇸 Granite 4.0 H-Small 32B-A9B

IBM · 32B paramètres · Apache 2.0 · 128 000 tokens ctx

Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.

Pourquoi ce rang Tient en Q5_K_M (~23 GB sur 24 GB dispo). 32B paramètres, contexte 128 000 tokens.
ollama run granite4:small-h
Sur RTX 4090
Q5_K_M
23 GB · 75 tok/s
3

🇨🇳 Qwen 3 VL 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 262 144 tokens ctx

Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.

Pourquoi ce rang Tient en Q5_K_M (~23 GB sur 24 GB dispo). 30B paramètres, contexte 262 144 tokens.
ollama run qwen3-vl:30b
Sur RTX 4090
Q5_K_M
23 GB · 100 tok/s
4

🇺🇸 Trinity Mini 26B-A3B

Arcee AI · 26B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.

Pourquoi ce rang Tient en Q5_K_M (~18 GB sur 24 GB dispo). 26B paramètres, contexte 131 072 tokens.
ollama pull hf.co/arcee-ai/Trinity-Mini-26B-GGUF
Sur RTX 4090
Q5_K_M
18 GB · 100 tok/s
5

Kanana 2 30B-A3B Thinking

Kakao · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.

Pourquoi ce rang Tient en Q5_K_M (~22 GB sur 24 GB dispo). 30B paramètres, contexte 131 072 tokens.
ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF
Sur RTX 4090
Q5_K_M
22 GB · 100 tok/s
6

🇨🇳 Qwen 3 Omni 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.

Pourquoi ce rang Tient en Q5_K_M (~23 GB sur 24 GB dispo). 30B paramètres, contexte 131 072 tokens.
ollama run qwen3-omni:30b
Sur RTX 4090
Q5_K_M
23 GB · 100 tok/s
7

🇨🇳 LLaDA 2.0 Uni 16B

Ant Group / inclusionAI · 16B paramètres · Apache 2.0 · 8 192 tokens ctx

Premier dLLM open Apache 2.0 : MoE 16B/1B + décodeur diffusion 6.2B. Texte+vision unifié. Sortie 22 avril 2026.

Pourquoi ce rang Tient en Q5_K_M (~22 GB sur 24 GB dispo). 16B paramètres, contexte 8 192 tokens.
# HuggingFace : inclusionAI/LLaDA2.0-Uni (Flash Attn 2 + CUDA 12.4 requis)
Sur RTX 4090
Q5_K_M
22 GB · 130 tok/s

Tableau comparatif

Rang Modèle Params VRAM Q4 Contexte Licence Sur RTX 4090
#1 Qwen 3 30B-A3B 30B 19 GB 131 072 Apache 2.0 100 tok/s · Q5_K_M
#2 Granite 4.0 H-Small 32B-A9B 32B 19 GB 128 000 Apache 2.0 75 tok/s · Q5_K_M
#3 Qwen 3 VL 30B-A3B 30B 19 GB 262 144 Apache 2.0 100 tok/s · Q5_K_M
#4 Trinity Mini 26B-A3B 26B 15 GB 131 072 Apache 2.0 100 tok/s · Q5_K_M
#5 Kanana 2 30B-A3B Thinking 30B 18 GB 131 072 Apache 2.0 100 tok/s · Q5_K_M
#6 Qwen 3 Omni 30B-A3B 30B 19 GB 131 072 Apache 2.0 100 tok/s · Q5_K_M
#7 LLaDA 2.0 Uni 16B 16B 18 GB 8 192 Apache 2.0 130 tok/s · Q5_K_M

Méthodologie du classement

On garde les modèles qui tiennent dans 24 GB en Q4_K_M et qui exploitent au moins 40% de la VRAM (sinon un 7B suffit). Score bonus pour les modèles dont le fit VRAM est entre 60% et 95% — sweet spot qualité/débit.

Critères pris en compte :

  • Tient en 24 GB en Q4_K_M
  • Tire parti de la VRAM (> 60%)
  • Débit ≥ 30 tokens/sec
  • Qualité > 7B

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

Peut-on faire tourner un 70B sur RTX 4090 ?

En Q4_K_M, un 70B réclame ~40 GB de VRAM — trop pour une seule 4090. Il faut soit descendre en Q2/Q3 (perte de qualité), soit décharger sur RAM CPU (très lent), soit ajouter une 2ᵉ carte. Pour un vrai 70B, visez 2× RTX 4090 ou une 5090 + DDR5.

Quelle quantif choisir sur RTX 4090 ?

Q5_K_M est le sweet spot (moins de 1% de perte vs FP16 selon les benchmarks). Q8 est nettement meilleur que Q5 mais consomme 50% de VRAM en plus. Q4 uniquement si vous voulez un gros modèle qui ne rentre pas en Q5.

Mistral Small 3.1 24B ou Qwen 2.5 32B sur 4090 ?

Voir le comparatif. Mistral Small 3.1 est plus rapide (24B < 32B) et meilleur en français. Qwen 2.5 32B est plus capable sur tâches générales et code.

Quel moteur d'inférence sur RTX 4090 ?

Pour du chat interactif : Ollama (simple) ou llama.cpp (max contrôle). Pour du throughput serveur : vLLM ou ExLlamaV2. Le gain peut atteindre 2-3× sur vLLM en batch.

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Pour aller plus loin