🇨🇳 Qwen 3 30B-A3B
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
La RTX 5090 (Blackwell, 32 GB GDDR7, 1792 Go/s) est le premier GPU consumer à dépasser les 24 Go. Llama 70B Q4_K_M tient avec 12 Go de marge pour le contexte. Référence absolue local 2026.
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.
ollama run granite4:small-h
Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.
ollama run qwen3-vl:30b
Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.
ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF
Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.
ollama run qwen3-omni:30b
Hybride Mamba-2 + Transformer MoE 30B/3B actifs. 1M ctx. 4× throughput vs Nemotron 2.
ollama run nemotron3:30b
Omnimodal MoE 30B/3B actifs : texte+image+audio+vidéo, 256k ctx, hybrid Mamba2-MoE, 9× throughput vs concurrents. Sortie 28 avril 2026.
# HuggingFace : nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
MoE 30B/3B actifs : thinking mode + instruct. Médaille d'or IMO 2025 et IOI 2025. Inférence rapide grâce aux 3B actifs, capacités raisonnement de niveau 30B. Sortie avril 2026.
ollama run nemotron-cascade-2
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur RTX 5090 |
|---|---|---|---|---|---|---|
| #1 | Qwen 3 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 100 tok/s · Q5_K_M |
| #2 | Granite 4.0 H-Small 32B-A9B | 32B | 19 GB | 128 000 | Apache 2.0 | 75 tok/s · Q5_K_M |
| #3 | Qwen 3 VL 30B-A3B | 30B | 19 GB | 262 144 | Apache 2.0 | 100 tok/s · Q5_K_M |
| #4 | Kanana 2 30B-A3B Thinking | 30B | 18 GB | 131 072 | Apache 2.0 | 100 tok/s · Q5_K_M |
| #5 | Qwen 3 Omni 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 100 tok/s · Q5_K_M |
| #6 | Nemotron Nano 3 30B-A3B | 30B | 19 GB | 1 000 000 | NVIDIA Open Model License | 100 tok/s · Q5_K_M |
| #7 | Nemotron 3 Nano Omni 30B-A3B | 30B | 21 GB | 256 000 | NVIDIA Open Model License | 100 tok/s · Q5_K_M |
| #8 | Nemotron Cascade 2 30B-A3B | 30B | 17 GB | 128 000 | NVIDIA Open Model License | 80 tok/s · Q8 |
Filtre : modèles dont Q4_K_M tient sous 30 Go (laisse 2 Go contexte). Bonus 30-70B (peak 5090) et MoE 100B (32 Go débloque DBRX, Mixtral 8x22B). 1792 Go/s = throughput record consumer.
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
RTX 5090 32 Go : Llama 70B fluide ?
Oui — Llama 3.3 70B Q4_K_M (~40 Go) NE TIENT PAS seul ; Q3_K_M (~30 Go) tient à 35-45 tok/s. Q5_K_M (~48 Go) nécessite offload partiel CPU. Pour 70B Q4 sans compromis, viser 2× RTX 4090/5090 ou Mac Studio 96+ Go.
RTX 5090 vs 2× RTX 4090 ?
5090 = 32 Go monolithique + 1792 Go/s. 2× 4090 = 48 Go (split) + 1008 Go/s par carte. Pour 70B Q4 (~40 Go), 2× 4090 gagne. Pour 30-32B Q5 + contexte long, 5090 plus simple (pas de split overhead). Voir RTX 4090.
Quelle quantif optimale sur 5090 ?
Q5_K_M pour 30B (~22 Go) ou Q4 pour 70B (~40 Go offload partiel). Q8 pour 13-14B (Qwen 3 14B ~15 Go) en qualité max. Q6_K excellent compromis 32B (~25 Go).
MoE sur RTX 5090 ?
Excellent : Mixtral 8x22B Q4 (~80 Go) ne tient pas mais 8x7B Q4 (~28 Go) tourne à 80+ tok/s. Qwen 3 30B-A3B Q8 (~32 Go) fluide aussi. Voir classement agents/MoE.
Approfondissez avec nos duels détaillés des finalistes :