🇺🇸 Granite 4.0 H-Tiny 7B-A1B
Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
Le MacBook Air M2 (8 / 16 / 24 Go, 100 Go/s) reste largement utilisable en 2026 pour l'IA locale grâce aux quantifs Q4 modernes. On vise 3-8B sans ventilateur.
Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
LLM souverain francophone, entraîné sur corpus FR.
ollama run lucie:7b
Raisonnement chain-of-thought distillé. Bluffant en maths.
ollama run deepseek-r1:7b
Mode hybride thinking/fast. 119 langues, 32k natif (131k via YaRN).
ollama run qwen3:8b
Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.
ollama run qwen2.5vl:7b
Premier omni open : texte+image+audio+vidéo en entrée, texte+parole en sortie. Pas de tag Ollama officiel.
# GGUF : ggml-org/Qwen2.5-Omni-7B-GGUF (pas d'Ollama officiel)
Texte+image+audio → texte. Mixture-of-LoRAs, jusqu'à ~2.8h d'audio. Pas de tag Ollama officiel.
# Via HuggingFace : microsoft/Phi-4-multimodal-instruct (pas d'Ollama officiel)
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur Apple M2 (16 GB) |
|---|---|---|---|---|---|---|
| #1 | Granite 4.0 H-Tiny 7B-A1B | 7B | 4 GB | 128 000 | Apache 2.0 | 60 tok/s · Q8 |
| #2 | Lucie 7B | 7B | 5 GB | 4 096 | Apache 2.0 | 12 tok/s · Q8 |
| #3 | DeepSeek R1 Distill 7B | 7B | 5 GB | 32 768 | MIT | 12 tok/s · Q8 |
| #4 | Qwen 3 8B | 8B | 5 GB | 131 072 | Apache 2.0 | 12 tok/s · Q8 |
| #5 | Qwen 2.5 VL 7B | 7B | 6 GB | 128 000 | Apache 2.0 | 8 tok/s · Q8 |
| #6 | Qwen 2.5 Omni 7B | 7B | 6 GB | 32 768 | Apache 2.0 | 8 tok/s · Q8 |
| #7 | Phi-4 Multimodal 5.6B | 5.6B | 4 GB | 128 000 | MIT | 15 tok/s · Q8 |
Filtre : 1-13B dont Q4_K_M tient sous 11 Go. Bonus 3-8B (peak Air M2) et bonus supplémentaire pour les ≤ 3B (rapides même sans Neural Engine M4).
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
MacBook Air M2 16 Go reste-t-il viable en 2026 ?
Oui — Mistral 7B Q4, Qwen 3 8B Q4 et Phi-4 Mini tournent à 18-25 tokens/sec. Suffisant pour chat / RAG personnel / code complétion légère. Voir le guide MacBook Air M2.
M2 vs M3 vs M4 sur le même modèle 7B ?
M2 ≈ 22 tok/s, M3 ≈ 26 tok/s, M4 ≈ 30 tok/s sur Mistral 7B Q4_K_M. La différence est sensible mais aucun n'est lent. Sur batterie, M2 décharge légèrement plus vite (efficacité GPU).
Air M2 24 Go : quels gros modèles ?
Mistral Nemo 12B Q4 (~7 Go) ou Qwen 3 14B Q4 (~8 Go) tournent à 12-18 tokens/sec. Évitez 30B+ même MoE : trop juste sur la bande passante mémoire.
Air M2 8 Go : sérieusement faisable ?
Uniquement avec Phi-4 Mini 3,8B Q4 ou Llama 3.2 3B Q4. Contexte 2k-4k max. C'est du dépannage : 16 Go reste le minimum pratique pour des LLM sérieux.
Approfondissez avec nos duels détaillés des finalistes :