🇨🇳 Qwen 3 30B-A3B
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
La RTX 4090 (24 GB VRAM, architecture Ada Lovelace) est la référence grand public pour l'inférence LLM en 2026. Voici les modèles qui en tirent le meilleur : top qualité en Q4/Q5 tenant dans 24 GB, débit confortable (30+ tokens/sec).
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.
ollama run granite4:small-h
Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.
ollama run qwen3-vl:30b
MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.
ollama pull hf.co/arcee-ai/Trinity-Mini-26B-GGUF
Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.
ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF
Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.
ollama run qwen3-omni:30b
Premier dLLM open Apache 2.0 : MoE 16B/1B + décodeur diffusion 6.2B. Texte+vision unifié. Sortie 22 avril 2026.
# HuggingFace : inclusionAI/LLaDA2.0-Uni (Flash Attn 2 + CUDA 12.4 requis)
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur RTX 4090 |
|---|---|---|---|---|---|---|
| #1 | Qwen 3 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 100 tok/s · Q5_K_M |
| #2 | Granite 4.0 H-Small 32B-A9B | 32B | 19 GB | 128 000 | Apache 2.0 | 75 tok/s · Q5_K_M |
| #3 | Qwen 3 VL 30B-A3B | 30B | 19 GB | 262 144 | Apache 2.0 | 100 tok/s · Q5_K_M |
| #4 | Trinity Mini 26B-A3B | 26B | 15 GB | 131 072 | Apache 2.0 | 100 tok/s · Q5_K_M |
| #5 | Kanana 2 30B-A3B Thinking | 30B | 18 GB | 131 072 | Apache 2.0 | 100 tok/s · Q5_K_M |
| #6 | Qwen 3 Omni 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 100 tok/s · Q5_K_M |
| #7 | LLaDA 2.0 Uni 16B | 16B | 18 GB | 8 192 | Apache 2.0 | 130 tok/s · Q5_K_M |
On garde les modèles qui tiennent dans 24 GB en Q4_K_M et qui exploitent au moins 40% de la VRAM (sinon un 7B suffit). Score bonus pour les modèles dont le fit VRAM est entre 60% et 95% — sweet spot qualité/débit.
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
Peut-on faire tourner un 70B sur RTX 4090 ?
En Q4_K_M, un 70B réclame ~40 GB de VRAM — trop pour une seule 4090. Il faut soit descendre en Q2/Q3 (perte de qualité), soit décharger sur RAM CPU (très lent), soit ajouter une 2ᵉ carte. Pour un vrai 70B, visez 2× RTX 4090 ou une 5090 + DDR5.
Quelle quantif choisir sur RTX 4090 ?
Q5_K_M est le sweet spot (moins de 1% de perte vs FP16 selon les benchmarks). Q8 est nettement meilleur que Q5 mais consomme 50% de VRAM en plus. Q4 uniquement si vous voulez un gros modèle qui ne rentre pas en Q5.
Mistral Small 3.1 24B ou Qwen 2.5 32B sur 4090 ?
Voir le comparatif. Mistral Small 3.1 est plus rapide (24B < 32B) et meilleur en français. Qwen 2.5 32B est plus capable sur tâches générales et code.
Quel moteur d'inférence sur RTX 4090 ?
Pour du chat interactif : Ollama (simple) ou llama.cpp (max contrôle). Pour du throughput serveur : vLLM ou ExLlamaV2. Le gain peut atteindre 2-3× sur vLLM en batch.
Approfondissez avec nos duels détaillés des finalistes :