QuelLLMFR Analyser ma config →
Accueil Catalogue Meilleur LLM sur Mac mini M2 / M2 Pro en 2026

Meilleur LLM sur Mac mini M2 / M2 Pro en 2026

Le Mac mini M2 / M2 Pro (8-32 Go, 100-200 Go/s) reste un excellent serveur d'inférence silencieux pour 7-13B en Q4_K_M. Ventilé, compact, prêt 24/7.

Classement

1

🇺🇸 Granite 4.0 H-Tiny 7B-A1B

IBM · 7B paramètres · Apache 2.0 · 128 000 tokens ctx

Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.

Pourquoi ce rang Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
Sur Apple M2 (16 GB)
Q8
7 GB · 60 tok/s
2

🇫🇷 Lucie 7B

OpenLLM-France · 7B paramètres · Apache 2.0 · 4 096 tokens ctx

LLM souverain francophone, entraîné sur corpus FR.

Pourquoi ce rang LLM souverain francophone, entraîné sur corpus FR.
ollama run lucie:7b
Sur Apple M2 (16 GB)
Q8
9 GB · 12 tok/s
3

🇨🇳 DeepSeek R1 Distill 7B

DeepSeek · 7B paramètres · MIT · 32 768 tokens ctx

Raisonnement chain-of-thought distillé. Bluffant en maths.

Pourquoi ce rang Raisonnement chain-of-thought distillé. Bluffant en maths.
ollama run deepseek-r1:7b
Sur Apple M2 (16 GB)
Q8
9 GB · 12 tok/s
4

🇨🇳 Qwen 3 8B

Alibaba · 8B paramètres · Apache 2.0 · 131 072 tokens ctx

Mode hybride thinking/fast. 119 langues, 32k natif (131k via YaRN).

Pourquoi ce rang Mode hybride thinking/fast. 119 langues, 32k natif (131k via YaRN).
ollama run qwen3:8b
Sur Apple M2 (16 GB)
Q8
9 GB · 12 tok/s
5

🇨🇳 Qwen 2.5 VL 7B

Alibaba · 7B paramètres · Apache 2.0 · 128 000 tokens ctx

Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.

Pourquoi ce rang Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.
ollama run qwen2.5vl:7b
Sur Apple M2 (16 GB)
Q8
10 GB · 8 tok/s
6

🇨🇳 Qwen 2.5 Omni 7B

Alibaba · 7B paramètres · Apache 2.0 · 32 768 tokens ctx

Premier omni open : texte+image+audio+vidéo en entrée, texte+parole en sortie. Pas de tag Ollama officiel.

Pourquoi ce rang Premier omni open : texte+image+audio+vidéo en entrée, texte+parole en sortie. Pas de tag Ollama officiel.
# GGUF : ggml-org/Qwen2.5-Omni-7B-GGUF (pas d'Ollama officiel)
Sur Apple M2 (16 GB)
Q8
10 GB · 8 tok/s
7

🇨🇳 Qwen 3.5 9B

Alibaba · 9B paramètres · Apache 2.0 · 262 000 tokens ctx

Dense 9B nouvelle génération. 262k ctx, hybrid thinking amélioré.

Pourquoi ce rang Dense 9B nouvelle génération. 262k ctx, hybrid thinking amélioré.
ollama run qwen3.5:9b
Sur Apple M2 (16 GB)
Q8
10 GB · 9 tok/s

Tableau comparatif

Rang Modèle Params VRAM Q4 Contexte Licence Sur Apple M2 (16 GB)
#1 Granite 4.0 H-Tiny 7B-A1B 7B 4 GB 128 000 Apache 2.0 60 tok/s · Q8
#2 Lucie 7B 7B 5 GB 4 096 Apache 2.0 12 tok/s · Q8
#3 DeepSeek R1 Distill 7B 7B 5 GB 32 768 MIT 12 tok/s · Q8
#4 Qwen 3 8B 8B 5 GB 131 072 Apache 2.0 12 tok/s · Q8
#5 Qwen 2.5 VL 7B 7B 6 GB 128 000 Apache 2.0 8 tok/s · Q8
#6 Qwen 2.5 Omni 7B 7B 6 GB 32 768 Apache 2.0 8 tok/s · Q8
#7 Qwen 3.5 9B 9B 6 GB 262 000 Apache 2.0 9 tok/s · Q8

Méthodologie du classement

Filtre : 1-32B dont Q4_K_M tient sous 22 Go (M2 Pro 32 Go max). Bonus 7-13B (peak M2 Pro) et licences libres pour serveur partagé.

Critères pris en compte :

  • Q4_K_M ≤ 22 Go
  • Serveur silencieux 24/7
  • Conso < 50 W idle
  • Compatible Ollama / Open WebUI

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

Mac mini M2 8 Go : pertinent en 2026 ?

Phi-4 Mini 3,8B Q4 ou Llama 3.2 3B Q4 tournent — mais c'est étriqué. Préférez 16 Go minimum. Voir le guide Mac mini M2.

Mac mini M2 Pro 32 Go : quel sweet spot ?

Mistral Nemo 12B Q4 (~7 Go) ou Qwen 3 14B Q4 (~8 Go) — 22-28 tok/s. Excellent serveur LLM domestique pour 1-3 utilisateurs simultanés via Ollama API.

M2 Pro vs M4 Pro pour un serveur LLM ?

M4 Pro (273 Go/s) est ~35-40 % plus rapide que M2 Pro (200 Go/s) sur les mêmes modèles. Si on l'achète neuf en 2026, autant prendre le M4 Pro. Voir Mac mini M4.

Configuration serveur silencieux Mac mini M2 ?

Ollama + Open WebUI sur le LAN, port 11434 derrière un reverse proxy nginx. Auto-démarrage via launchd. Idle ~10W, sous charge ~35W. Plus silencieux qu'un PC ITX.

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Pour aller plus loin