🇨🇳 Qwen 3 30B-A3B
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
Le MacBook Pro M4 Pro / Max (24-128 Go, 273-546 Go/s) est le meilleur laptop pour l'IA locale en 2026. Ventilateur actif + grosse bande passante = on peut viser 30B-70B en Q4/Q5.
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.
ollama run granite4:small-h
Petit frère de gpt-oss 120B. 21B/3.6B actifs. Égale o3-mini sur laptop.
ollama run openai/gpt-oss:20b
Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.
ollama run qwen3-vl:30b
Raisonneur compact MoE 21B/3B actifs. Apache 2.0. Rapide grâce aux 3B actifs.
ollama pull hf.co/baidu/ernie-4.5-21b-GGUF
MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.
ollama pull hf.co/arcee-ai/Trinity-Mini-26B-GGUF
Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.
ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF
Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.
ollama run qwen3-omni:30b
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur Apple M4 Max (64 GB) |
|---|---|---|---|---|---|---|
| #1 | Qwen 3 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #2 | Granite 4.0 H-Small 32B-A9B | 32B | 19 GB | 128 000 | Apache 2.0 | 30 tok/s · Q8 |
| #3 | gpt-oss 20B | 21B | 13 GB | 128 000 | Apache 2.0 | 55 tok/s · FP16 |
| #4 | Qwen 3 VL 30B-A3B | 30B | 19 GB | 262 144 | Apache 2.0 | 40 tok/s · Q8 |
| #5 | ERNIE 4.5 21B-A3B Thinking | 21B | 13 GB | 131 072 | Apache 2.0 | 40 tok/s · FP16 |
| #6 | Trinity Mini 26B-A3B | 26B | 15 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #7 | Kanana 2 30B-A3B Thinking | 30B | 18 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #8 | Qwen 3 Omni 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
Filtre : 3-100B dont Q4_K_M tient sous 80 Go (laisse 16 Go à macOS sur M4 Max 96 Go). Bonus 13-70B (Max) et 7-32B (Pro). MoE bien notés (Qwen 3 30B-A3B excelle sur M4).
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
MBP M4 Pro 24 Go : quel modèle ?
Qwen 3 14B Q4 (~8 Go) à 35-45 tok/s, ou Qwen 3 30B-A3B (MoE, ~17 Go) à 28-32 tok/s. Le M4 Pro 24 Go est le meilleur rapport perf/prix laptop en 2026. Voir le guide MBP M4.
MBP M4 Max 64 / 128 Go : peut-on faire tourner Llama 70B ?
Oui — Llama 3.3 70B Q4_K_M (~40 Go) tourne à 12-18 tok/s sur M4 Max 128 Go. Q5_K_M (~48 Go) tient sur 64 Go. Pour 200B+, voir Mac Studio Ultra.
MBP M4 vs RTX 4090 ?
RTX 4090 (24 Go VRAM, 1008 Go/s) est ~2-3× plus rapide sur les modèles qui tiennent en 24 Go. M4 Max gagne dès qu'on dépasse 24 Go (70B impossible sur 4090 seule). Voir RTX 4090.
MLX vs Ollama sur M4 Max ?
MLX donne 20-30 % de tok/s en plus sur M4 Max (mémoire unifiée native, fused kernels). Pour de la production, ça vaut la conversion. Ollama reste plus simple pour du chat ponctuel.
Approfondissez avec nos duels détaillés des finalistes :