🇨🇳 Qwen 3 30B-A3B
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
128 Go de mémoire unifiée (M3/M4 Max top, Mac Studio M2 mid) est le palier workstation IA premium. Llama 70B en Q8 (~75 Go), MoE 150B en Q4, contexte 200k pour du RAG entreprise.
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.
ollama run granite4:small-h
Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.
ollama run qwen3-vl:30b
Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.
ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF
Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.
ollama run qwen3-omni:30b
EPFL + ETH + CSCS. 15T tokens, 1000+ langues dont suisse-allemand et romanche. Apache 2.0.
ollama pull hf.co/swissai/Apertus-70B-GGUF
Hybride Mamba-2 + Transformer MoE 30B/3B actifs. 1M ctx. 4× throughput vs Nemotron 2.
ollama run nemotron3:30b
Omnimodal MoE 30B/3B actifs : texte+image+audio+vidéo, 256k ctx, hybrid Mamba2-MoE, 9× throughput vs concurrents. Sortie 28 avril 2026.
# HuggingFace : nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur Apple M4 Max (64 GB) |
|---|---|---|---|---|---|---|
| #1 | Qwen 3 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #2 | Granite 4.0 H-Small 32B-A9B | 32B | 19 GB | 128 000 | Apache 2.0 | 30 tok/s · Q8 |
| #3 | Qwen 3 VL 30B-A3B | 30B | 19 GB | 262 144 | Apache 2.0 | 40 tok/s · Q8 |
| #4 | Kanana 2 30B-A3B Thinking | 30B | 18 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #5 | Qwen 3 Omni 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #6 | Apertus 70B | 70B | 40 GB | 65 536 | Apache 2.0 | 6 tok/s · Q5_K_M |
| #7 | Nemotron Nano 3 30B-A3B | 30B | 19 GB | 1 000 000 | NVIDIA Open Model License | 40 tok/s · Q8 |
| #8 | Nemotron 3 Nano Omni 30B-A3B | 30B | 21 GB | 256 000 | NVIDIA Open Model License | 40 tok/s · Q8 |
Filtre : modèles 30-250B dont Q4_K_M tient sous 96 Go (laisse 32 Go à macOS + contexte massif). Bonus 70-150B (peak 128 Go) et MoE jusqu'à 250B.
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
Mac 128 Go : Llama 70B Q8 ou 123B Q5 ?
Llama 70B Q8 (~75 Go) à 10-14 tokens/sec sur M4 Max. Mistral Large 123B Q5 (~85 Go) à 8-12 tokens/sec. Q8 sur 70B est généralement plus utile (presque-FP16, marginalement mieux que Q6 ailleurs). 123B reste plus capable au global.
Frontier MoE sur 128 Go : faisable ?
DeepSeek V4 Flash 284B (13B actifs MoE) Q3_K_M (~140 Go) ne tient pas — il faut Mac Studio 192+ Go. Granite 4 Mamba 150B Q4 (~80 Go) tient. Pour du frontier 200B+, passez à Mac Studio Ultra.
MacBook Pro M4 Max 128 Go pour entreprise ?
Oui — laptop le plus capable du marché pour l'IA locale en 2026. Llama 70B Q8 + contexte 128k = workflow équivalent à GPT-4 sans cloud. Voir MBP M4 Max.
Mac 128 Go vs serveur 2× H100 80 Go ?
2× H100 = ~10× plus rapide sur 70B (1700 Go/s par carte vs 546 Go/s unifié). Mais ~80 000 € + 1 kW vs Mac 128 Go ~5 000 € + 100 W. Pour usage perso ou petite équipe, Mac écrase en €/Go.
Approfondissez avec nos duels détaillés des finalistes :