QuelLLMFR Analyser ma config →
Accueil Catalogue Meilleur LLM sur Mac avec 8 Go de mémoire unifiée en 2026

Meilleur LLM sur Mac avec 8 Go de mémoire unifiée en 2026

Sur un Mac 8 Go (M1/M2/M3 Air, MacBook Air M4 base, Mac mini M2 base), macOS prend ~4 Go. Il reste ~3-4 Go utilisables pour un LLM. On se limite aux modèles 1-3B en Q4_K_M pour rester fluide.

Classement

1

🇫🇷 Pleias-RAG 1B

PleIAs · 1.2B paramètres · Apache 2.0 · 2 048 tokens ctx

Spécialisé RAG 1.2B. Citation et grounding intégrés. Bat la plupart des SLM ≤4B sur HotPotQA.

Pourquoi ce rang Spécialisé RAG 1.2B. Citation et grounding intégrés. Bat la plupart des SLM ≤4B sur HotPotQA.
# HuggingFace : PleIAs/Pleias-RAG-1B (GGUF : PleIAs/Pleias-RAG-1B-gguf)
Sur Apple M2 (16 GB)
FP16
2.5 GB · 50 tok/s
2

🇨🇳 DeepSeek R1 Distill Qwen 1.5B

DeepSeek · 1.5B paramètres · MIT · 131 072 tokens ctx

Raisonnement R1 distillé dans 1.5B. MATH-500 83.9. MIT. Tourne sur n'importe quel laptop.

Pourquoi ce rang Raisonnement R1 distillé dans 1.5B. MATH-500 83.9. MIT. Tourne sur n'importe quel laptop.
ollama run deepseek-r1:1.5b
Sur Apple M2 (16 GB)
FP16
3 GB · 50 tok/s
3

🇫🇷 CroissantLLM 1.3B

CroissantLLM · 1.3B paramètres · MIT · 2 048 tokens ctx

Petit modèle bilingue FR/EN. Tourne partout, même sur CPU.

Pourquoi ce rang Petit modèle bilingue FR/EN. Tourne partout, même sur CPU.
ollama pull hf.co/manu/croissant-llm-chat-v0.1-GGUF
Sur Apple M2 (16 GB)
FP16
3 GB · 40 tok/s
4

🇫🇷 SmolLM2 1.7B Instruct

HuggingFace · 1.7B paramètres · Apache 2.0 · 8 192 tokens ctx

1.7B Apache 2.0 très téléchargé. Bat Qwen2.5-1.5B de ~6 pts MMLU-Pro. BFCL function calling 27%.

Pourquoi ce rang 1.7B Apache 2.0 très téléchargé. Bat Qwen2.5-1.5B de ~6 pts MMLU-Pro. BFCL function calling 27%.
ollama run smollm2:1.7b
Sur Apple M2 (16 GB)
FP16
3.5 GB · 40 tok/s
5

🇨🇳 Qwen 2.5 Coder 1.5B Instruct

Alibaba · 1.5B paramètres · Apache 2.0 · 32 768 tokens ctx

Plus petit coder Qwen 2.5. HumanEval 70.7. Idéal pour completion on-device.

Pourquoi ce rang Plus petit coder Qwen 2.5. HumanEval 70.7. Idéal pour completion on-device.
ollama run qwen2.5-coder:1.5b
Sur Apple M2 (16 GB)
FP16
3 GB · 50 tok/s
6

🇫🇷 SmolVLM2 2.2B Instruct

HuggingFace · 2.2B paramètres · Apache 2.0 · 8 192 tokens ctx

VLM 2.2B : image+vidéo+texte. 5.2 GB VRAM pour l'inférence vidéo. Base SmolLM2-1.7B.

Pourquoi ce rang VLM 2.2B : image+vidéo+texte. 5.2 GB VRAM pour l'inférence vidéo. Base SmolLM2-1.7B.
# HuggingFace : HuggingFaceTB/SmolVLM2-2.2B-Instruct
Sur Apple M2 (16 GB)
FP16
4.5 GB · 30 tok/s
7

🇺🇸 Granite 4.0 3B Vision

IBM · 3B paramètres · Apache 2.0 · 16 384 tokens ctx

VLM 3B spécialisé extraction documents entreprise. OCR, tables, formulaires.

Pourquoi ce rang VLM 3B spécialisé extraction documents entreprise. OCR, tables, formulaires.
# HuggingFace : ibm-granite/granite-4.0-3b-vision
Sur Apple M2 (16 GB)
FP16
6.5 GB · 25 tok/s

Tableau comparatif

Rang Modèle Params VRAM Q4 Contexte Licence Sur Apple M2 (16 GB)
#1 Pleias-RAG 1B 1.2B 0.8 GB 2 048 Apache 2.0 50 tok/s · FP16
#2 DeepSeek R1 Distill Qwen 1.5B 1.5B 1 GB 131 072 MIT 50 tok/s · FP16
#3 CroissantLLM 1.3B 1.3B 1 GB 2 048 MIT 40 tok/s · FP16
#4 SmolLM2 1.7B Instruct 1.7B 1.2 GB 8 192 Apache 2.0 40 tok/s · FP16
#5 Qwen 2.5 Coder 1.5B Instruct 1.5B 1 GB 32 768 Apache 2.0 50 tok/s · FP16
#6 SmolVLM2 2.2B Instruct 2.2B 1.6 GB 8 192 Apache 2.0 30 tok/s · FP16
#7 Granite 4.0 3B Vision 3B 2.2 GB 16 384 Apache 2.0 25 tok/s · FP16

Méthodologie du classement

Filtre : modèles 1-4B dont Q4_K_M tient sous 4 Go (laisse 4 Go à macOS + contexte). Bonus 1-3B (peak 8 Go) et ≤ 2B (zero swap). Phi-4 Mini, Llama 3.2 3B, Gemma 4 3B dominent.

Critères pris en compte :

  • Q4_K_M ≤ 4 Go
  • Zero swap macOS
  • Tokens/sec ≥ 20
  • Contexte 2-4k utilisable

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

Un Mac 8 Go peut-il vraiment faire tourner un LLM ?

Oui, mais étroitement. Phi-4 Mini 3,8B Q4 (~2,3 Go) ou Llama 3.2 3B Q4 (~2 Go) tournent à 25-35 tokens/sec. macOS prend 4 Go, vous avez 2-3 Go libres — c'est tendu mais utilisable pour du chat court.

Mac mini M2 8 Go vs MacBook Air M4 16 Go ?

L'Air M4 16 Go est largement préférable : 2× la RAM permet des modèles 7-8B (Mistral, Qwen 3) bien plus capables. Le mini M2 8 Go ne dépasse pas 3B en confort. Voir Mac 16 Go.

Quelle quantif sur 8 Go ?

Q4_K_M reste le sweet spot. Q3_K_M peut faire rentrer un Mistral 7B (~3,5 Go) mais la qualité chute visiblement. Préférez un 3B Q4 bien servi à un 7B Q3 amputé.

Faut-il vraiment 16 Go pour démarrer en LLM local ?

Pour du sérieux, oui — Apple a d'ailleurs banni le 8 Go sur tous les Mac M4 en 2025. Pour du test occasionnel sur un Mac existant, le 8 Go suffit à découvrir avec des 1-3B. Voir MacBook Air M1.

Pour aller plus loin