🇨🇳 Qwen 3 30B-A3B
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
96 Go de mémoire unifiée (M2/M3/M4 Max max, Studio M2 entry) offre une marge sérieuse : Llama 70B en Q5/Q6, modèles 100B en Q4, contexte 100k+ pour du RAG long-form.
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.
ollama run granite4:small-h
Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.
ollama run qwen3-vl:30b
Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.
ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF
Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.
ollama run qwen3-omni:30b
Hybride Mamba-2 + Transformer MoE 30B/3B actifs. 1M ctx. 4× throughput vs Nemotron 2.
ollama run nemotron3:30b
Omnimodal MoE 30B/3B actifs : texte+image+audio+vidéo, 256k ctx, hybrid Mamba2-MoE, 9× throughput vs concurrents. Sortie 28 avril 2026.
# HuggingFace : nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
MoE 30B/3B actifs : thinking mode + instruct. Médaille d'or IMO 2025 et IOI 2025. Inférence rapide grâce aux 3B actifs, capacités raisonnement de niveau 30B. Sortie avril 2026.
ollama run nemotron-cascade-2
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur Apple M3 Max (64 GB) |
|---|---|---|---|---|---|---|
| #1 | Qwen 3 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #2 | Granite 4.0 H-Small 32B-A9B | 32B | 19 GB | 128 000 | Apache 2.0 | 30 tok/s · Q8 |
| #3 | Qwen 3 VL 30B-A3B | 30B | 19 GB | 262 144 | Apache 2.0 | 40 tok/s · Q8 |
| #4 | Kanana 2 30B-A3B Thinking | 30B | 18 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #5 | Qwen 3 Omni 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #6 | Nemotron Nano 3 30B-A3B | 30B | 19 GB | 1 000 000 | NVIDIA Open Model License | 40 tok/s · Q8 |
| #7 | Nemotron 3 Nano Omni 30B-A3B | 30B | 21 GB | 256 000 | NVIDIA Open Model License | 40 tok/s · Q8 |
| #8 | Nemotron Cascade 2 30B-A3B | 30B | 17 GB | 128 000 | NVIDIA Open Model License | 30 tok/s · Q8 |
Filtre : modèles 13-150B dont Q4_K_M tient sous 72 Go (laisse 24 Go à macOS + contexte long). Bonus 30-100B (peak 96 Go) et MoE (jusqu'à 150B accessible).
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
Mac 96 Go : Llama 70B Q5 ou Mistral Large 123B Q4 ?
Llama 70B Q5_K_M (~48 Go) + contexte 32k = ~58 Go consommés, 38 Go libres. Mistral Large 123B Q4_K_M (~68 Go) tient juste, 28 Go libres. Llama 70B Q5 plus confortable, Mistral Large plus capable. Selon usage.
MacBook Pro M3 Max 96 Go en 2026 : encore pertinent ?
Oui — c'est le sweet spot prix/perf workstation portable. ~3500 € en occasion, bande passante 400 Go/s, Llama 70B fluide. Le M4 Max 128 Go est ~25 % plus rapide mais 2× plus cher. Voir MBP M3.
Contexte 100k+ sur Mac 96 Go ?
Oui : Qwen 3 32B Q5 (~22 Go) + KV cache 100k (~25 Go) = ~47 Go, large marge. Pour Llama 70B + 100k ctx (~16 Go KV), Q4_K_M (~40 Go) seul tient — au total ~56 Go, encore confortable.
96 Go vs 128 Go : quel saut ?
128 Go débloque MoE 130-150B (Granite 4 Mamba) en Q6 et Llama 70B Q8 (~75 Go). 96 Go reste limité aux Q5/Q6 sur 70B. Pour la workstation absolue, 128 Go ou Studio Ultra. Voir Mac 128 Go.
Approfondissez avec nos duels détaillés des finalistes :