🇨🇳 Qwen 3 30B-A3B
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
Le MacBook Pro M3 Pro / Max (18-128 Go, 300-400 Go/s) reste un excellent laptop pour l'IA locale en 2026. Modèles 30B en Q4 / 70B en Q3 confortables.
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.
ollama run granite4:small-h
Petit frère de gpt-oss 120B. 21B/3.6B actifs. Égale o3-mini sur laptop.
ollama run openai/gpt-oss:20b
Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.
ollama run qwen3-vl:30b
Raisonneur compact MoE 21B/3B actifs. Apache 2.0. Rapide grâce aux 3B actifs.
ollama pull hf.co/baidu/ernie-4.5-21b-GGUF
MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.
ollama pull hf.co/arcee-ai/Trinity-Mini-26B-GGUF
Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.
ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF
Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.
ollama run qwen3-omni:30b
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur Apple M3 Max (64 GB) |
|---|---|---|---|---|---|---|
| #1 | Qwen 3 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #2 | Granite 4.0 H-Small 32B-A9B | 32B | 19 GB | 128 000 | Apache 2.0 | 30 tok/s · Q8 |
| #3 | gpt-oss 20B | 21B | 13 GB | 128 000 | Apache 2.0 | 55 tok/s · FP16 |
| #4 | Qwen 3 VL 30B-A3B | 30B | 19 GB | 262 144 | Apache 2.0 | 40 tok/s · Q8 |
| #5 | ERNIE 4.5 21B-A3B Thinking | 21B | 13 GB | 131 072 | Apache 2.0 | 40 tok/s · FP16 |
| #6 | Trinity Mini 26B-A3B | 26B | 15 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #7 | Kanana 2 30B-A3B Thinking | 30B | 18 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #8 | Qwen 3 Omni 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
Filtre : 3-100B dont Q4_K_M tient sous 70 Go. Bonus 13-70B (peak M3 Max) et 7-32B (M3 Pro). MoE bien notés.
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
MBP M3 Pro 18 Go : assez pour 13B ?
Oui — Mistral Nemo 12B Q4 (~7 Go) à 28-35 tok/s. Mistral Small 24B Q4 (~13 Go) tient juste à 22-26 tok/s. Voir le guide MBP M3.
MBP M3 Max 128 Go peut-il faire tourner Llama 70B ?
Oui — Llama 3.3 70B Q4_K_M (~40 Go) tourne à 10-14 tok/s sur M3 Max. Q5_K_M (~48 Go) reste fluide. C'était le premier laptop capable en pratique.
M3 Max vs M4 Max ?
M4 Max est ~15-20 % plus rapide à RAM équivalente (Neural Engine renforcé, mémoire 546 Go/s sur 16 c). M3 Max reste excellent : Llama 70B Q4 = 12 tok/s vs 15 tok/s sur M4 Max. Pas un upgrade nécessaire.
Quel modèle code sur MBP M3 ?
Qwen 2.5 Coder 32B Q4 (~17 Go) sur M3 Pro 36 Go ou M3 Max — excellent pour du code Python/JS/Go. DeepSeek Coder V2 16B Q4 (~9 Go) plus rapide. Voir classement code.
Approfondissez avec nos duels détaillés des finalistes :