🇨🇳 Qwen 3 30B-A3B
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
32 Go de mémoire unifiée est le palier mainstream qualitatif. Vous y faites tourner Mistral Small 24B Q4, Qwen 3 30B Q4, ou Qwen 3 30B-A3B MoE en Q8 confortablement.
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
Petit frère de gpt-oss 120B. 21B/3.6B actifs. Égale o3-mini sur laptop.
ollama run openai/gpt-oss:20b
Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.
ollama run qwen3-vl:30b
Raisonneur compact MoE 21B/3B actifs. Apache 2.0. Rapide grâce aux 3B actifs.
ollama pull hf.co/baidu/ernie-4.5-21b-GGUF
MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.
ollama pull hf.co/arcee-ai/Trinity-Mini-26B-GGUF
Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.
ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF
Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.
ollama run qwen3-omni:30b
Premier dLLM open Apache 2.0 : MoE 16B/1B + décodeur diffusion 6.2B. Texte+vision unifié. Sortie 22 avril 2026.
# HuggingFace : inclusionAI/LLaDA2.0-Uni (Flash Attn 2 + CUDA 12.4 requis)
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur Apple M4 Pro (48 GB) |
|---|---|---|---|---|---|---|
| #1 | Qwen 3 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #2 | gpt-oss 20B | 21B | 13 GB | 128 000 | Apache 2.0 | 55 tok/s · Q8 |
| #3 | Qwen 3 VL 30B-A3B | 30B | 19 GB | 262 144 | Apache 2.0 | 40 tok/s · Q8 |
| #4 | ERNIE 4.5 21B-A3B Thinking | 21B | 13 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #5 | Trinity Mini 26B-A3B | 26B | 15 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #6 | Kanana 2 30B-A3B Thinking | 30B | 18 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #7 | Qwen 3 Omni 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #8 | LLaDA 2.0 Uni 16B | 16B | 18 GB | 8 192 | Apache 2.0 | 60 tok/s · Q8 |
Filtre : modèles 3-35B dont Q4_K_M tient sous 22 Go (laisse 10 Go à macOS + contexte long). Bonus 13-30B (peak 32 Go) et MoE (Qwen 3 30B-A3B en Q8 ici).
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
Mac 32 Go : peut-on faire tourner Mistral Small 24B en Q5 ?
Oui : Q5_K_M ~17 Go. À 18-25 tokens/sec selon la puce (M1 Max le plus rapide, M4 base le plus efficient). Excellent pour FR + tâches généralistes.
Qwen 3 30B-A3B (MoE) en Q4 ou Q8 sur 32 Go ?
Q8 (~32 Go) tient juste — utilise tout. Q4 (~17 Go) plus confortable et libère 15 Go pour contexte + autres apps. Différence qualité Q4 vs Q8 sur MoE : marginale (<2% benchs). Préférez Q4.
32 Go vs 48 Go : quel saut qualitatif ?
48 Go débloque les 32B dense en Q5 et les 70B en Q3. 32 Go reste limité aux 30B en Q4 ou MoE 30B-A3B Q8. Si vous achetez neuf, 48 Go est mieux. Voir Mac 48 Go.
Quel modèle français sur Mac 32 Go ?
Mistral Small 3.1 24B Q4 (~13 Go) ou Mistral Small 3.2 24B Q4 — les meilleurs choix FR. Magistral Small 24B pour le raisonnement. Voir classement FR.
Approfondissez avec nos duels détaillés des finalistes :