🇺🇸 Granite 4.0 H-Tiny 7B-A1B
Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
16 Go de mémoire unifiée est le minimum pratique pour l'IA locale Mac. macOS prend 4 Go, on dispose de ~10-11 Go pour un LLM en Q4_K_M. Les 7-9B (Mistral, Qwen 3, Gemma 4) sont le sweet spot.
Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
Seul MoE 100% ouvert (poids+données+code). 7B/1.3B actifs. Compétitif Llama2-13B-Chat.
ollama run olmoe
LLM souverain francophone, entraîné sur corpus FR.
ollama run lucie:7b
Raisonnement chain-of-thought distillé. Bluffant en maths.
ollama run deepseek-r1:7b
Mode hybride thinking/fast. 119 langues, 32k natif (131k via YaRN).
ollama run qwen3:8b
Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.
ollama run qwen2.5vl:7b
Premier omni open : texte+image+audio+vidéo en entrée, texte+parole en sortie. Pas de tag Ollama officiel.
# GGUF : ggml-org/Qwen2.5-Omni-7B-GGUF (pas d'Ollama officiel)
Texte+image+audio → texte. Mixture-of-LoRAs, jusqu'à ~2.8h d'audio. Pas de tag Ollama officiel.
# Via HuggingFace : microsoft/Phi-4-multimodal-instruct (pas d'Ollama officiel)
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur Apple M2 (16 GB) |
|---|---|---|---|---|---|---|
| #1 | Granite 4.0 H-Tiny 7B-A1B | 7B | 4 GB | 128 000 | Apache 2.0 | 60 tok/s · Q8 |
| #2 | OLMoE 1B-7B Instruct | 7B | 4 GB | 4 096 | Apache 2.0 | 50 tok/s · Q8 |
| #3 | Lucie 7B | 7B | 5 GB | 4 096 | Apache 2.0 | 12 tok/s · Q8 |
| #4 | DeepSeek R1 Distill 7B | 7B | 5 GB | 32 768 | MIT | 12 tok/s · Q8 |
| #5 | Qwen 3 8B | 8B | 5 GB | 131 072 | Apache 2.0 | 12 tok/s · Q8 |
| #6 | Qwen 2.5 VL 7B | 7B | 6 GB | 128 000 | Apache 2.0 | 8 tok/s · Q8 |
| #7 | Qwen 2.5 Omni 7B | 7B | 6 GB | 32 768 | Apache 2.0 | 8 tok/s · Q8 |
| #8 | Phi-4 Multimodal 5.6B | 5.6B | 4 GB | 128 000 | MIT | 15 tok/s · Q8 |
Filtre : modèles 1-13B dont Q4_K_M tient sous 10 Go (laisse 6 Go à macOS + contexte large). Bonus 3-9B (peak 16 Go). MoE petits actifs (Qwen 3 30B-A3B) bonus en limite supérieure.
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
Mac 16 Go : Mistral 7B ou Qwen 3 8B ?
Qwen 3 8B est légèrement plus capable (raisonnement, code) et tient en Q4 (~5 Go). Mistral 7B est plus rapide (~25-30 tok/s vs 22-28). Pour le français, Mistral garde l'avantage. Les deux excellents en 16 Go.
Mac mini M4 16 Go en serveur LLM 24/7 ?
Oui, excellent. Ollama + Open WebUI, port 11434 derrière reverse proxy. Mistral 7B Q4 ou Qwen 3 8B Q4 à 30+ tok/s. Conso idle 10W, charge 35W. Voir Mac mini M4.
Peut-on faire tourner Qwen 3 30B-A3B sur 16 Go ?
Tout juste : Q4_K_M demande ~17 Go pour le modèle entier, mais MoE ne charge que ~3 Go d'actifs. Avec mmap + swap léger, c'est jouable mais ralentit (15-20 tok/s). 24 Go ou 32 Go bien plus confortables. Voir Mac 32 Go.
Mac 16 Go vs PC RTX 4060 16 Go pour LLM ?
La RTX 4060 16 Go est ~2× plus rapide sur les 7-9B (vraie VRAM GDDR6 vs mémoire unifiée 100-120 Go/s). Le Mac gagne en silence, autonomie et facilité d'install. Voir comparatif GPU.
Approfondissez avec nos duels détaillés des finalistes :