🇺🇸 Granite 4.0 H-Tiny 7B-A1B
Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
Le MacBook Air M3 (8 / 16 / 24 Go, 100 Go/s) reste un excellent laptop pour l'IA locale. Sans ventilateur, on privilégie les 3-9B en Q4_K_M et les MoE petits actifs.
Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
Seul MoE 100% ouvert (poids+données+code). 7B/1.3B actifs. Compétitif Llama2-13B-Chat.
ollama run olmoe
LLM souverain francophone, entraîné sur corpus FR.
ollama run lucie:7b
Raisonnement chain-of-thought distillé. Bluffant en maths.
ollama run deepseek-r1:7b
Mode hybride thinking/fast. 119 langues, 32k natif (131k via YaRN).
ollama run qwen3:8b
Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.
ollama run qwen2.5vl:7b
Premier omni open : texte+image+audio+vidéo en entrée, texte+parole en sortie. Pas de tag Ollama officiel.
# GGUF : ggml-org/Qwen2.5-Omni-7B-GGUF (pas d'Ollama officiel)
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur Apple M2 (16 GB) |
|---|---|---|---|---|---|---|
| #1 | Granite 4.0 H-Tiny 7B-A1B | 7B | 4 GB | 128 000 | Apache 2.0 | 60 tok/s · Q8 |
| #2 | OLMoE 1B-7B Instruct | 7B | 4 GB | 4 096 | Apache 2.0 | 50 tok/s · Q8 |
| #3 | Lucie 7B | 7B | 5 GB | 4 096 | Apache 2.0 | 12 tok/s · Q8 |
| #4 | DeepSeek R1 Distill 7B | 7B | 5 GB | 32 768 | MIT | 12 tok/s · Q8 |
| #5 | Qwen 3 8B | 8B | 5 GB | 131 072 | Apache 2.0 | 12 tok/s · Q8 |
| #6 | Qwen 2.5 VL 7B | 7B | 6 GB | 128 000 | Apache 2.0 | 8 tok/s · Q8 |
| #7 | Qwen 2.5 Omni 7B | 7B | 6 GB | 32 768 | Apache 2.0 | 8 tok/s · Q8 |
Filtre : 1-13B dont Q4_K_M tient sous 12 Go. Bonus 3-8B (peak Air M3) et MoE petits actifs. Bonus licences libres pour MLX (conversion plus simple).
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
MacBook Air M3 8 Go : c'est jouable ?
Tout juste : Llama 3.2 3B Q4 (~2 Go) ou Phi-4 Mini 3,8B Q4 (~2,3 Go) — 30-40 tokens/sec. macOS prend déjà 4 Go : on a peu de marge contexte. Vraiment minimaliste, préférez 16 Go.
MacBook Air M3 16 Go : quels modèles ?
Mistral 7B Q4 (~4,5 Go), Qwen 3 8B Q4 (~5 Go), Gemma 4 9B Q4 (~5,5 Go) — 20-28 tokens/sec. Idéal pour chat, codage léger, RAG personnel. Voir le guide MacBook Air M3.
Air M3 vs Air M4 : différence pour les LLM ?
M4 est ~15-20 % plus rapide à bande passante mémoire équivalente (Neural Engine renforcé). Pour du LLM, la différence reste minime : Mistral 7B Q4 = 25 tok/s sur M3 vs 30 tok/s sur M4. Pas un upgrade nécessaire.
Quel modèle français sur MacBook Air M3 ?
Mistral 7B Instruct ou Mistral Nemo 12B Q4 (sur 24 Go) sont les meilleurs en FR. Lucie 7B (CNRS) est l'option 100 % souveraine mais limitée à 4k de contexte. Voir classement FR.
Approfondissez avec nos duels détaillés des finalistes :