🇨🇳 Qwen 3 30B-A3B
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
L'architecture Apple Silicon (M1 à M4) partage la mémoire entre CPU et GPU — excellent pour les LLM. Les modèles 7-32B tournent remarquablement bien sur Mac, surtout les Pro/Max avec 32-128 GB de mémoire unifiée.
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.
ollama run granite4:small-h
Petit frère de gpt-oss 120B. 21B/3.6B actifs. Égale o3-mini sur laptop.
ollama run openai/gpt-oss:20b
Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.
ollama run qwen3-vl:30b
Raisonneur compact MoE 21B/3B actifs. Apache 2.0. Rapide grâce aux 3B actifs.
ollama pull hf.co/baidu/ernie-4.5-21b-GGUF
MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.
ollama pull hf.co/arcee-ai/Trinity-Mini-26B-GGUF
Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.
ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF
Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.
ollama run qwen3-omni:30b
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur Apple M4 Pro (48 GB) |
|---|---|---|---|---|---|---|
| #1 | Qwen 3 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #2 | Granite 4.0 H-Small 32B-A9B | 32B | 19 GB | 128 000 | Apache 2.0 | 30 tok/s · Q8 |
| #3 | gpt-oss 20B | 21B | 13 GB | 128 000 | Apache 2.0 | 55 tok/s · Q8 |
| #4 | Qwen 3 VL 30B-A3B | 30B | 19 GB | 262 144 | Apache 2.0 | 40 tok/s · Q8 |
| #5 | ERNIE 4.5 21B-A3B Thinking | 21B | 13 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #6 | Trinity Mini 26B-A3B | 26B | 15 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #7 | Kanana 2 30B-A3B Thinking | 30B | 18 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #8 | Qwen 3 Omni 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
On écarte les modèles < 3B (sous-exploitent) et > 72B (ne tiennent pas sur les Mac grand public). Bonus pour les tailles 7-32B — sweet spot des MacBook Pro / Mac Studio — et les licences libres (MLX nécessite souvent de convertir les poids).
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
Ollama ou MLX sur Mac ?
Ollama est le plus simple (1 commande). MLX est 20-30% plus rapide mais demande de la conversion de poids et un peu de terminal. LM Studio combine les deux (choix Ollama ou MLX en UI).
Quel Mac pour faire tourner un 70B ?
Mac Studio M2 Ultra (192 GB), M3 Max 128 GB, ou M4 Max 128 GB. Un 70B en Q4 = 40 GB + contexte, donc 64 GB minimum recommandé. M4 Pro 48 GB peut le faire en Q3 avec compromis.
MacBook Air M2 16 GB peut-il faire tourner un LLM ?
Oui — Mistral 7B Q4 (4-5 GB) ou Gemma 2 9B Q4 (6 GB) tournent sur M2 16 GB. Comptez 10-15 tokens/sec. Voir le guide dédié.
MLX plus rapide que llama.cpp sur Mac ?
Oui, généralement 15-30% plus rapide car MLX est natif Apple Silicon. Mais llama.cpp supporte plus de modèles et de quantifs. Pour du quotidien : Ollama (llama.cpp). Pour de la perf max : MLX.
Approfondissez avec nos duels détaillés des finalistes :