🇺🇸 Granite 4.0 H-Tiny 7B-A1B
Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
Le Mac mini M2 / M2 Pro (8-32 Go, 100-200 Go/s) reste un excellent serveur d'inférence silencieux pour 7-13B en Q4_K_M. Ventilé, compact, prêt 24/7.
Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
LLM souverain francophone, entraîné sur corpus FR.
ollama run lucie:7b
Raisonnement chain-of-thought distillé. Bluffant en maths.
ollama run deepseek-r1:7b
Mode hybride thinking/fast. 119 langues, 32k natif (131k via YaRN).
ollama run qwen3:8b
Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.
ollama run qwen2.5vl:7b
Premier omni open : texte+image+audio+vidéo en entrée, texte+parole en sortie. Pas de tag Ollama officiel.
# GGUF : ggml-org/Qwen2.5-Omni-7B-GGUF (pas d'Ollama officiel)
Dense 9B nouvelle génération. 262k ctx, hybrid thinking amélioré.
ollama run qwen3.5:9b
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur Apple M2 (16 GB) |
|---|---|---|---|---|---|---|
| #1 | Granite 4.0 H-Tiny 7B-A1B | 7B | 4 GB | 128 000 | Apache 2.0 | 60 tok/s · Q8 |
| #2 | Lucie 7B | 7B | 5 GB | 4 096 | Apache 2.0 | 12 tok/s · Q8 |
| #3 | DeepSeek R1 Distill 7B | 7B | 5 GB | 32 768 | MIT | 12 tok/s · Q8 |
| #4 | Qwen 3 8B | 8B | 5 GB | 131 072 | Apache 2.0 | 12 tok/s · Q8 |
| #5 | Qwen 2.5 VL 7B | 7B | 6 GB | 128 000 | Apache 2.0 | 8 tok/s · Q8 |
| #6 | Qwen 2.5 Omni 7B | 7B | 6 GB | 32 768 | Apache 2.0 | 8 tok/s · Q8 |
| #7 | Qwen 3.5 9B | 9B | 6 GB | 262 000 | Apache 2.0 | 9 tok/s · Q8 |
Filtre : 1-32B dont Q4_K_M tient sous 22 Go (M2 Pro 32 Go max). Bonus 7-13B (peak M2 Pro) et licences libres pour serveur partagé.
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
Mac mini M2 8 Go : pertinent en 2026 ?
Phi-4 Mini 3,8B Q4 ou Llama 3.2 3B Q4 tournent — mais c'est étriqué. Préférez 16 Go minimum. Voir le guide Mac mini M2.
Mac mini M2 Pro 32 Go : quel sweet spot ?
Mistral Nemo 12B Q4 (~7 Go) ou Qwen 3 14B Q4 (~8 Go) — 22-28 tok/s. Excellent serveur LLM domestique pour 1-3 utilisateurs simultanés via Ollama API.
M2 Pro vs M4 Pro pour un serveur LLM ?
M4 Pro (273 Go/s) est ~35-40 % plus rapide que M2 Pro (200 Go/s) sur les mêmes modèles. Si on l'achète neuf en 2026, autant prendre le M4 Pro. Voir Mac mini M4.
Configuration serveur silencieux Mac mini M2 ?
Ollama + Open WebUI sur le LAN, port 11434 derrière un reverse proxy nginx. Auto-démarrage via launchd. Idle ~10W, sous charge ~35W. Plus silencieux qu'un PC ITX.
Approfondissez avec nos duels détaillés des finalistes :