Accueil › Catalogue › Meilleur LLM sur RTX 4090 (24 GB) en 2026

Meilleur LLM sur RTX 4090 (24 GB) en 2026

Q: Quel moteur d'inférence sur RTX 4090 ?

Pour du chat interactif : Ollama (simple) ou llama.cpp (max contrôle). Pour du throughput serveur : vLLM ou ExLlamaV2. Le gain peut atteindre 2-3× sur vLLM en batch.

La RTX 4090 (24 GB VRAM, architecture Ada Lovelace) est la référence grand public pour l'inférence LLM en 2026. Voici les modèles qui en tirent le meilleur : top qualité en Q4/Q5 tenant dans 24 GB, débit confortable (30+ tokens/sec).

Classement

🇨🇳 Qwen 3 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.

Pourquoi ce rang Tient en Q5_K_M (~23 GB sur 24 GB dispo). 30B paramètres, contexte 131 072 tokens.

ollama run qwen3:30b-a3b

Sur RTX 4090

Q5_K_M

23 GB · 100 tok/s

🇺🇸 Granite 4.0 H-Small 32B-A9B

IBM · 32B paramètres · Apache 2.0 · 128 000 tokens ctx

Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.

Pourquoi ce rang Tient en Q5_K_M (~23 GB sur 24 GB dispo). 32B paramètres, contexte 128 000 tokens.

ollama run granite4:small-h

Sur RTX 4090

Q5_K_M

23 GB · 75 tok/s

🇨🇳 Qwen 3 VL 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 262 144 tokens ctx

Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.

Pourquoi ce rang Tient en Q5_K_M (~23 GB sur 24 GB dispo). 30B paramètres, contexte 262 144 tokens.

ollama run qwen3-vl:30b

Sur RTX 4090

Q5_K_M

23 GB · 100 tok/s

🇺🇸 Trinity Mini 26B-A3B

Arcee AI · 26B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.

Pourquoi ce rang Tient en Q5_K_M (~18 GB sur 24 GB dispo). 26B paramètres, contexte 131 072 tokens.

ollama pull hf.co/arcee-ai/Trinity-Mini-26B-GGUF

Sur RTX 4090

Q5_K_M

18 GB · 100 tok/s

Kanana 2 30B-A3B Thinking

Kakao · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.

Pourquoi ce rang Tient en Q5_K_M (~22 GB sur 24 GB dispo). 30B paramètres, contexte 131 072 tokens.

ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF

Sur RTX 4090

Q5_K_M

22 GB · 100 tok/s

🇨🇳 Qwen 3 Omni 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.

Pourquoi ce rang Tient en Q5_K_M (~23 GB sur 24 GB dispo). 30B paramètres, contexte 131 072 tokens.

ollama run qwen3-omni:30b

Sur RTX 4090

Q5_K_M

23 GB · 100 tok/s

🇨🇳 LLaDA 2.0 Uni 16B

Ant Group / inclusionAI · 16B paramètres · Apache 2.0 · 8 192 tokens ctx

Premier dLLM open Apache 2.0 : MoE 16B/1B + décodeur diffusion 6.2B. Texte+vision unifié. Sortie 22 avril 2026.

Pourquoi ce rang Tient en Q5_K_M (~22 GB sur 24 GB dispo). 16B paramètres, contexte 8 192 tokens.

# HuggingFace : inclusionAI/LLaDA2.0-Uni (Flash Attn 2 + CUDA 12.4 requis)

Sur RTX 4090

Q5_K_M

22 GB · 130 tok/s

Tableau comparatif

Rang	Modèle	Params	VRAM Q4	Contexte	Licence	Sur RTX 4090
#1	Qwen 3 30B-A3B	30B	19 GB	131 072	Apache 2.0	100 tok/s · Q5_K_M
#2	Granite 4.0 H-Small 32B-A9B	32B	19 GB	128 000	Apache 2.0	75 tok/s · Q5_K_M
#3	Qwen 3 VL 30B-A3B	30B	19 GB	262 144	Apache 2.0	100 tok/s · Q5_K_M
#4	Trinity Mini 26B-A3B	26B	15 GB	131 072	Apache 2.0	100 tok/s · Q5_K_M
#5	Kanana 2 30B-A3B Thinking	30B	18 GB	131 072	Apache 2.0	100 tok/s · Q5_K_M
#6	Qwen 3 Omni 30B-A3B	30B	19 GB	131 072	Apache 2.0	100 tok/s · Q5_K_M
#7	LLaDA 2.0 Uni 16B	16B	18 GB	8 192	Apache 2.0	130 tok/s · Q5_K_M

Méthodologie du classement

On garde les modèles qui tiennent dans 24 GB en Q4_K_M et qui exploitent au moins 40% de la VRAM (sinon un 7B suffit). Score bonus pour les modèles dont le fit VRAM est entre 60% et 95% — sweet spot qualité/débit.

Critères pris en compte :

Tient en 24 GB en Q4_K_M
Tire parti de la VRAM (> 60%)
Débit ≥ 30 tokens/sec
Qualité > 7B

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

Peut-on faire tourner un 70B sur RTX 4090 ?

En Q4_K_M, un 70B réclame ~40 GB de VRAM — trop pour une seule 4090. Il faut soit descendre en Q2/Q3 (perte de qualité), soit décharger sur RAM CPU (très lent), soit ajouter une 2ᵉ carte. Pour un vrai 70B, visez 2× RTX 4090 ou une 5090 + DDR5.

Quelle quantif choisir sur RTX 4090 ?

Q5_K_M est le sweet spot (moins de 1% de perte vs FP16 selon les benchmarks). Q8 est nettement meilleur que Q5 mais consomme 50% de VRAM en plus. Q4 uniquement si vous voulez un gros modèle qui ne rentre pas en Q5.

Mistral Small 3.1 24B ou Qwen 2.5 32B sur 4090 ?

Voir le comparatif. Mistral Small 3.1 est plus rapide (24B < 32B) et meilleur en français. Qwen 2.5 32B est plus capable sur tâches générales et code.

Quel moteur d'inférence sur RTX 4090 ?

Pour du chat interactif : Ollama (simple) ou llama.cpp (max contrôle). Pour du throughput serveur : vLLM ou ExLlamaV2. Le gain peut atteindre 2-3× sur vLLM en batch.

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Meilleur LLM sur RTX 4090 (24 GB) en 2026

Classement

🇨🇳 Qwen 3 30B-A3B

🇺🇸 Granite 4.0 H-Small 32B-A9B

🇨🇳 Qwen 3 VL 30B-A3B

🇺🇸 Trinity Mini 26B-A3B

Kanana 2 30B-A3B Thinking

🇨🇳 Qwen 3 Omni 30B-A3B

🇨🇳 LLaDA 2.0 Uni 16B

Tableau comparatif

Méthodologie du classement

Questions fréquentes

Comparatifs en tête-à-tête

Pour aller plus loin