🇨🇳 Qwen 3 30B-A3B
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
48 Go de mémoire unifiée (M4 Pro top, M2 Max base, M3 Pro top) débloque les 30B en Q5/Q6 et permet d'expérimenter des 70B en Q2/Q3. Palier sérieux mainstream pour l'IA locale.
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.
ollama run granite4:small-h
Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.
ollama run qwen3-vl:30b
Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.
ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF
Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.
ollama run qwen3-omni:30b
Petit frère de gpt-oss 120B. 21B/3.6B actifs. Égale o3-mini sur laptop.
ollama run openai/gpt-oss:20b
Raisonneur compact MoE 21B/3B actifs. Apache 2.0. Rapide grâce aux 3B actifs.
ollama pull hf.co/baidu/ernie-4.5-21b-GGUF
MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.
ollama pull hf.co/arcee-ai/Trinity-Mini-26B-GGUF
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur Apple M4 Pro (48 GB) |
|---|---|---|---|---|---|---|
| #1 | Qwen 3 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #2 | Granite 4.0 H-Small 32B-A9B | 32B | 19 GB | 128 000 | Apache 2.0 | 30 tok/s · Q8 |
| #3 | Qwen 3 VL 30B-A3B | 30B | 19 GB | 262 144 | Apache 2.0 | 40 tok/s · Q8 |
| #4 | Kanana 2 30B-A3B Thinking | 30B | 18 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #5 | Qwen 3 Omni 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #6 | gpt-oss 20B | 21B | 13 GB | 128 000 | Apache 2.0 | 55 tok/s · Q8 |
| #7 | ERNIE 4.5 21B-A3B Thinking | 21B | 13 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #8 | Trinity Mini 26B-A3B | 26B | 15 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
Filtre : modèles 7-75B dont Q4_K_M tient sous 36 Go (laisse 12 Go à macOS + contexte). Bonus 13-32B (peak dense Q5/Q6) et MoE 30B-A3B (peak en Q8).
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
Mac 48 Go : peut-on faire tourner Llama 70B ?
En Q3_K_M (~32 Go) oui à 6-10 tokens/sec — utilisable pour du long-form, lent pour du chat. Préférez les MoE 30B-A3B Q8 (~32 Go aussi) qui tournent 3× plus vite à qualité comparable.
M4 Pro 48 Go vs M2 Max 48 Go ?
M4 Pro 273 Go/s vs M2 Max 400 Go/s. M2 Max ~40% plus rapide sur 30B Q5 (~22 vs 16 tok/s) mais conso supérieure + ventilation plus active. M4 Pro plus efficient en perf/Watt. Voir MBP M4.
48 Go suffit pour fine-tuner un 7B en local ?
QLoRA avec Unsloth oui : 7B + adapter LoRA + optimizer + gradient = ~20-30 Go. Confortable. Pour 13B QLoRA, prévoyez 64 Go+. Voir Mac 64 Go.
Qwen 3 30B-A3B (MoE) ou Qwen 3 32B (dense) sur 48 Go ?
MoE 30B-A3B est 2-3× plus rapide (~30-45 tok/s vs 12-18 tok/s) car seulement 3B actifs par token. Dense 32B légèrement plus capable en raisonnement complexe. MoE = défaut pratique.
Approfondissez avec nos duels détaillés des finalistes :