🇺🇸 Granite 4.0 H-Tiny 7B-A1B
Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
Le MacBook Air M4 (16 / 24 / 32 Go de mémoire unifiée, 120 Go/s) tourne très bien les LLM 3-9B en Q4_K_M via Ollama ou MLX. Le ventilateur absent limite les sessions longues : on privilégie les modèles efficients (MoE actifs faibles) et les quantifs serrées.
Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
Seul MoE 100% ouvert (poids+données+code). 7B/1.3B actifs. Compétitif Llama2-13B-Chat.
ollama run olmoe
LLM souverain francophone, entraîné sur corpus FR.
ollama run lucie:7b
Raisonnement chain-of-thought distillé. Bluffant en maths.
ollama run deepseek-r1:7b
Mode hybride thinking/fast. 119 langues, 32k natif (131k via YaRN).
ollama run qwen3:8b
Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.
ollama run qwen2.5vl:7b
Premier omni open : texte+image+audio+vidéo en entrée, texte+parole en sortie. Pas de tag Ollama officiel.
# GGUF : ggml-org/Qwen2.5-Omni-7B-GGUF (pas d'Ollama officiel)
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur Apple M4 (24 GB) |
|---|---|---|---|---|---|---|
| #1 | Granite 4.0 H-Tiny 7B-A1B | 7B | 4 GB | 128 000 | Apache 2.0 | 60 tok/s · FP16 |
| #2 | OLMoE 1B-7B Instruct | 7B | 4 GB | 4 096 | Apache 2.0 | 50 tok/s · FP16 |
| #3 | Lucie 7B | 7B | 5 GB | 4 096 | Apache 2.0 | 12 tok/s · FP16 |
| #4 | DeepSeek R1 Distill 7B | 7B | 5 GB | 32 768 | MIT | 12 tok/s · FP16 |
| #5 | Qwen 3 8B | 8B | 5 GB | 131 072 | Apache 2.0 | 12 tok/s · FP16 |
| #6 | Qwen 2.5 VL 7B | 7B | 6 GB | 128 000 | Apache 2.0 | 8 tok/s · Q8 |
| #7 | Qwen 2.5 Omni 7B | 7B | 6 GB | 32 768 | Apache 2.0 | 8 tok/s · Q8 |
Filtre : modèles 1-15B dont la version Q4_K_M tient sous 14 Go (laisse 10+ Go à macOS). Bonus 3-9B (idéal sans throttling thermique) et MoE petits actifs (Qwen 3 30B-A3B fonctionne sur Air 32 Go).
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
MacBook Air M4 16 Go : quel LLM choisir ?
Mistral 7B Q4 (~4,5 Go) ou Qwen 3 8B Q4 (~5 Go) sont le sweet spot — 25-35 tokens/sec, fluide pour du chat. Évitez Gemma 4 27B même en Q3 : trop juste sans ventilo. Voir le guide MacBook Air M4.
Air M4 24 / 32 Go : peut-on monter à 13B ?
Oui : Mistral Nemo 12B Q4 (~7 Go) ou Qwen 3 14B Q4 (~8 Go) tournent à 15-22 tokens/sec. À 32 Go vous pouvez tester Qwen 3 30B A3B (MoE, 3 Go actifs en VRAM) — étonnamment bon sur Air.
MLX ou Ollama sur MacBook Air M4 ?
Ollama démarre en 30 secondes. MLX donne 15-25 % de tok/s en plus mais demande de convertir les poids. Pour un Air (autonomie + simplicité), Ollama reste le choix par défaut. LM Studio combine les deux en UI.
L'Air M4 chauffe-t-il sur un LLM 7B ?
Oui après 5-10 min de génération continue : il throttle de ~10-15 %. Pour du chat ponctuel c'est invisible. Pour du batch RAG, basculez sur MacBook Pro (ventilé) ou Mac mini. Voir aussi MBP M4.
Approfondissez avec nos duels détaillés des finalistes :