QuelLLMFR Analyser ma config →
Accueil Catalogue Meilleur LLM sur MacBook Pro M2 Pro / Max en 2026

Meilleur LLM sur MacBook Pro M2 Pro / Max en 2026

Le MacBook Pro M2 Pro / Max (16-96 Go, 200-400 Go/s) reste très capable pour l'IA locale. 30B en Q4 confortable, 70B accessible sur Max 64+ Go.

Classement

1

🇨🇳 Qwen 3 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.

Pourquoi ce rang MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
Sur Apple M3 Pro (36 GB)
Q5_K_M
23 GB · 15 tok/s
2

🇺🇸 Granite 4.0 H-Small 32B-A9B

IBM · 32B paramètres · Apache 2.0 · 128 000 tokens ctx

Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.

Pourquoi ce rang Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.
ollama run granite4:small-h
Sur Apple M3 Pro (36 GB)
Q5_K_M
23 GB · 10 tok/s
3

🇺🇸 gpt-oss 20B

OpenAI · 21B paramètres · Apache 2.0 · 128 000 tokens ctx

Petit frère de gpt-oss 120B. 21B/3.6B actifs. Égale o3-mini sur laptop.

Pourquoi ce rang Petit frère de gpt-oss 120B. 21B/3.6B actifs. Égale o3-mini sur laptop.
ollama run openai/gpt-oss:20b
Sur Apple M3 Pro (36 GB)
Q8
23 GB · 20 tok/s
4

🇨🇳 Qwen 3 VL 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 262 144 tokens ctx

Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.

Pourquoi ce rang Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.
ollama run qwen3-vl:30b
Sur Apple M3 Pro (36 GB)
Q5_K_M
23 GB · 15 tok/s
5

🇨🇳 ERNIE 4.5 21B-A3B Thinking

Baidu · 21B paramètres · Apache 2.0 · 131 072 tokens ctx

Raisonneur compact MoE 21B/3B actifs. Apache 2.0. Rapide grâce aux 3B actifs.

Pourquoi ce rang Raisonneur compact MoE 21B/3B actifs. Apache 2.0. Rapide grâce aux 3B actifs.
ollama pull hf.co/baidu/ernie-4.5-21b-GGUF
Sur Apple M3 Pro (36 GB)
Q8
23 GB · 15 tok/s
6

🇺🇸 Trinity Mini 26B-A3B

Arcee AI · 26B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.

Pourquoi ce rang MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.
ollama pull hf.co/arcee-ai/Trinity-Mini-26B-GGUF
Sur Apple M3 Pro (36 GB)
Q5_K_M
18 GB · 15 tok/s
7

Kanana 2 30B-A3B Thinking

Kakao · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.

Pourquoi ce rang Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.
ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF
Sur Apple M3 Pro (36 GB)
Q5_K_M
22 GB · 15 tok/s

Tableau comparatif

Rang Modèle Params VRAM Q4 Contexte Licence Sur Apple M3 Pro (36 GB)
#1 Qwen 3 30B-A3B 30B 19 GB 131 072 Apache 2.0 15 tok/s · Q5_K_M
#2 Granite 4.0 H-Small 32B-A9B 32B 19 GB 128 000 Apache 2.0 10 tok/s · Q5_K_M
#3 gpt-oss 20B 21B 13 GB 128 000 Apache 2.0 20 tok/s · Q8
#4 Qwen 3 VL 30B-A3B 30B 19 GB 262 144 Apache 2.0 15 tok/s · Q5_K_M
#5 ERNIE 4.5 21B-A3B Thinking 21B 13 GB 131 072 Apache 2.0 15 tok/s · Q8
#6 Trinity Mini 26B-A3B 26B 15 GB 131 072 Apache 2.0 15 tok/s · Q5_K_M
#7 Kanana 2 30B-A3B Thinking 30B 18 GB 131 072 Apache 2.0 15 tok/s · Q5_K_M

Méthodologie du classement

Filtre : 3-80B dont Q4_K_M tient sous 55 Go. Bonus 13-32B (peak M2 Max). MoE bien notés.

Critères pris en compte :

  • Q4_K_M ≤ 55 Go
  • Stable sessions longues
  • Bande passante 200-400 Go/s
  • Tokens/sec ≥ 15 sur 30B

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

MBP M2 Pro 16 Go : quel modèle ?

Mistral 7B Q4 (~4,5 Go) ou Qwen 3 8B Q4 (~5 Go) — 25-32 tok/s. Pour 13B, montez à M2 Pro 32 Go. Voir le guide MBP M2.

MBP M2 Max 96 Go : Llama 70B faisable ?

Oui — Llama 3.3 70B Q4_K_M (~40 Go) tourne à 8-12 tok/s. Plus lent que M3 Max (200 Go/s vs 400 Go/s sur la mémoire) mais utilisable pour du long-form.

M2 Max vs RTX 4090 ?

Sur 7-32B qui tiennent en 24 Go VRAM, la 4090 est 2-3× plus rapide. Le M2 Max gagne dès qu'on monte au-dessus de 24 Go (70B). Voir RTX 4090.

M2 vs M3 vs M4 Pro/Max ?

Sur Mistral Small 24B Q4 : M2 Max ≈ 18 tok/s, M3 Max ≈ 24 tok/s, M4 Max ≈ 28 tok/s. M2 Max reste compétitif si vous ne voulez pas changer.

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Pour aller plus loin