🇺🇸 Granite 4.0 H-Tiny 7B-A1B
Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
24 Go de mémoire unifiée (MacBook Air M2/M3/M4 haut, M4 Pro base, iMac M4 haut) débloquent les modèles 13-14B en Q4 et les MoE 30B-A3B. Sweet spot pour l'inférence locale qualitative.
Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
Dense 14B avec hybrid thinking. Égale Qwen 2.5 32B Base sur STEM/code.
ollama run qwen3:14b
Raisonneur MIT 14B. Bat R1-Distill-Llama-70B sur AIME/GPQA avec 50× moins de paramètres.
ollama run phi4-reasoning:14b
R1 distillé Qwen 14B. AIME24 69.7, MATH-500 93.9. Dépasse o1-mini sur beaucoup de benchmarks.
ollama run deepseek-r1:14b
Petit frère de gpt-oss 120B. 21B/3.6B actifs. Égale o3-mini sur laptop.
ollama run openai/gpt-oss:20b
Raisonneur compact MoE 21B/3B actifs. Apache 2.0. Rapide grâce aux 3B actifs.
ollama pull hf.co/baidu/ernie-4.5-21b-GGUF
MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.
ollama pull hf.co/arcee-ai/Trinity-Mini-26B-GGUF
Seul MoE 100% ouvert (poids+données+code). 7B/1.3B actifs. Compétitif Llama2-13B-Chat.
ollama run olmoe
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur Apple M4 Pro (48 GB) |
|---|---|---|---|---|---|---|
| #1 | Granite 4.0 H-Tiny 7B-A1B | 7B | 4 GB | 128 000 | Apache 2.0 | 180 tok/s · FP16 |
| #2 | Qwen 3 14B | 14B | 9 GB | 131 072 | Apache 2.0 | 20 tok/s · FP16 |
| #3 | Phi-4 Reasoning 14B | 14B | 9 GB | 32 768 | MIT | 20 tok/s · FP16 |
| #4 | DeepSeek R1 Distill Qwen 14B | 14B | 9 GB | 131 072 | MIT | 20 tok/s · FP16 |
| #5 | gpt-oss 20B | 21B | 13 GB | 128 000 | Apache 2.0 | 55 tok/s · Q8 |
| #6 | ERNIE 4.5 21B-A3B Thinking | 21B | 13 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #7 | Trinity Mini 26B-A3B | 26B | 15 GB | 131 072 | Apache 2.0 | 40 tok/s · Q8 |
| #8 | OLMoE 1B-7B Instruct | 7B | 4 GB | 4 096 | Apache 2.0 | 150 tok/s · FP16 |
Filtre : modèles 3-32B dont Q4_K_M tient sous 16 Go (laisse 8 Go à macOS + contexte). Bonus 7-14B (peak dense 24 Go) et MoE 30B-A3B (sweet spot Apple).
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
Mac 24 Go : le sweet spot LLM 2026 ?
Oui pour les modèles à 1 utilisateur. Qwen 3 14B Q4 (~8 Go), Mistral Nemo 12B Q4 (~7 Go), Qwen 3 30B-A3B (MoE, ~17 Go) — tous tournent à 25-40 tokens/sec. Pour 13B+ dense soutenu, 32 Go ou plus.
MacBook Air M4 24 Go vs Mac mini M4 24 Go ?
Strictement même puce M4 + 120 Go/s. Différence : Air = sans ventilateur (throttle après ~10 min de génération soutenue), mini = ventilé donc stable 24/7. Voir MBA M4 ou mini M4.
Quel modèle code sur Mac 24 Go ?
Qwen 2.5 Coder 14B Q4 (~8 Go) ou DeepSeek Coder V2 16B Q4 (~9 Go) — excellents pour Python/JS/Go. Qwen 3 14B en généraliste. Voir classement code.
24 Go permet-il un assistant + RAG ?
Oui : Mistral Nemo 12B Q4 (~7 Go) + ChromaDB (1-2 Go) + contexte 32k (~3 Go) = ~12 Go consommés. Marge confortable. Voir le guide RAG.
Approfondissez avec nos duels détaillés des finalistes :