Accueil › Catalogue › Meilleur LLM sur Mac avec 8 Go de mémoire unifiée en 2026

Meilleur LLM sur Mac avec 8 Go de mémoire unifiée en 2026

Sur un Mac 8 Go (M1/M2/M3 Air, MacBook Air M4 base, Mac mini M2 base), macOS prend ~4 Go. Il reste ~3-4 Go utilisables pour un LLM. On se limite aux modèles 1-3B en Q4_K_M pour rester fluide.

Classement

🇫🇷 Pleias-RAG 1B

PleIAs · 1.2B paramètres · Apache 2.0 · 2 048 tokens ctx

Spécialisé RAG 1.2B. Citation et grounding intégrés. Bat la plupart des SLM ≤4B sur HotPotQA.

Pourquoi ce rang Spécialisé RAG 1.2B. Citation et grounding intégrés. Bat la plupart des SLM ≤4B sur HotPotQA.

# HuggingFace : PleIAs/Pleias-RAG-1B (GGUF : PleIAs/Pleias-RAG-1B-gguf)

Sur Apple M2 (16 GB)

FP16

2.5 GB · 50 tok/s

🇨🇳 DeepSeek R1 Distill Qwen 1.5B

DeepSeek · 1.5B paramètres · MIT · 131 072 tokens ctx

Raisonnement R1 distillé dans 1.5B. MATH-500 83.9. MIT. Tourne sur n'importe quel laptop.

Pourquoi ce rang Raisonnement R1 distillé dans 1.5B. MATH-500 83.9. MIT. Tourne sur n'importe quel laptop.

ollama run deepseek-r1:1.5b

Sur Apple M2 (16 GB)

FP16

3 GB · 50 tok/s

🇫🇷 CroissantLLM 1.3B

CroissantLLM · 1.3B paramètres · MIT · 2 048 tokens ctx

Petit modèle bilingue FR/EN. Tourne partout, même sur CPU.

Pourquoi ce rang Petit modèle bilingue FR/EN. Tourne partout, même sur CPU.

ollama pull hf.co/manu/croissant-llm-chat-v0.1-GGUF

Sur Apple M2 (16 GB)

FP16

3 GB · 40 tok/s

🇫🇷 SmolLM2 1.7B Instruct

HuggingFace · 1.7B paramètres · Apache 2.0 · 8 192 tokens ctx

1.7B Apache 2.0 très téléchargé. Bat Qwen2.5-1.5B de ~6 pts MMLU-Pro. BFCL function calling 27%.

Pourquoi ce rang 1.7B Apache 2.0 très téléchargé. Bat Qwen2.5-1.5B de ~6 pts MMLU-Pro. BFCL function calling 27%.

ollama run smollm2:1.7b

Sur Apple M2 (16 GB)

FP16

3.5 GB · 40 tok/s

🇨🇳 Qwen 2.5 Coder 1.5B Instruct

Alibaba · 1.5B paramètres · Apache 2.0 · 32 768 tokens ctx

Plus petit coder Qwen 2.5. HumanEval 70.7. Idéal pour completion on-device.

Pourquoi ce rang Plus petit coder Qwen 2.5. HumanEval 70.7. Idéal pour completion on-device.

ollama run qwen2.5-coder:1.5b

Sur Apple M2 (16 GB)

FP16

3 GB · 50 tok/s

🇫🇷 SmolVLM2 2.2B Instruct

HuggingFace · 2.2B paramètres · Apache 2.0 · 8 192 tokens ctx

VLM 2.2B : image+vidéo+texte. 5.2 GB VRAM pour l'inférence vidéo. Base SmolLM2-1.7B.

Pourquoi ce rang VLM 2.2B : image+vidéo+texte. 5.2 GB VRAM pour l'inférence vidéo. Base SmolLM2-1.7B.

# HuggingFace : HuggingFaceTB/SmolVLM2-2.2B-Instruct

Sur Apple M2 (16 GB)

FP16

4.5 GB · 30 tok/s

🇺🇸 Granite 4.0 3B Vision

IBM · 3B paramètres · Apache 2.0 · 16 384 tokens ctx

VLM 3B spécialisé extraction documents entreprise. OCR, tables, formulaires.

Pourquoi ce rang VLM 3B spécialisé extraction documents entreprise. OCR, tables, formulaires.

# HuggingFace : ibm-granite/granite-4.0-3b-vision

Sur Apple M2 (16 GB)

FP16

6.5 GB · 25 tok/s

Tableau comparatif

Rang	Modèle	Params	VRAM Q4	Contexte	Licence	Sur Apple M2 (16 GB)
#1	Pleias-RAG 1B	1.2B	0.8 GB	2 048	Apache 2.0	50 tok/s · FP16
#2	DeepSeek R1 Distill Qwen 1.5B	1.5B	1 GB	131 072	MIT	50 tok/s · FP16
#3	CroissantLLM 1.3B	1.3B	1 GB	2 048	MIT	40 tok/s · FP16
#4	SmolLM2 1.7B Instruct	1.7B	1.2 GB	8 192	Apache 2.0	40 tok/s · FP16
#5	Qwen 2.5 Coder 1.5B Instruct	1.5B	1 GB	32 768	Apache 2.0	50 tok/s · FP16
#6	SmolVLM2 2.2B Instruct	2.2B	1.6 GB	8 192	Apache 2.0	30 tok/s · FP16
#7	Granite 4.0 3B Vision	3B	2.2 GB	16 384	Apache 2.0	25 tok/s · FP16

Méthodologie du classement

Filtre : modèles 1-4B dont Q4_K_M tient sous 4 Go (laisse 4 Go à macOS + contexte). Bonus 1-3B (peak 8 Go) et ≤ 2B (zero swap). Phi-4 Mini, Llama 3.2 3B, Gemma 4 3B dominent.

Critères pris en compte :

Q4_K_M ≤ 4 Go
Zero swap macOS
Tokens/sec ≥ 20
Contexte 2-4k utilisable

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

Un Mac 8 Go peut-il vraiment faire tourner un LLM ?

Oui, mais étroitement. Phi-4 Mini 3,8B Q4 (~2,3 Go) ou Llama 3.2 3B Q4 (~2 Go) tournent à 25-35 tokens/sec. macOS prend 4 Go, vous avez 2-3 Go libres — c'est tendu mais utilisable pour du chat court.

Mac mini M2 8 Go vs MacBook Air M4 16 Go ?

L'Air M4 16 Go est largement préférable : 2× la RAM permet des modèles 7-8B (Mistral, Qwen 3) bien plus capables. Le mini M2 8 Go ne dépasse pas 3B en confort. Voir Mac 16 Go.

Quelle quantif sur 8 Go ?

Q4_K_M reste le sweet spot. Q3_K_M peut faire rentrer un Mistral 7B (~3,5 Go) mais la qualité chute visiblement. Préférez un 3B Q4 bien servi à un 7B Q3 amputé.

Faut-il vraiment 16 Go pour démarrer en LLM local ?

Pour du sérieux, oui — Apple a d'ailleurs banni le 8 Go sur tous les Mac M4 en 2025. Pour du test occasionnel sur un Mac existant, le 8 Go suffit à découvrir avec des 1-3B. Voir MacBook Air M1.

Meilleur LLM sur Mac avec 8 Go de mémoire unifiée en 2026

Classement

🇫🇷 Pleias-RAG 1B

🇨🇳 DeepSeek R1 Distill Qwen 1.5B

🇫🇷 CroissantLLM 1.3B

🇫🇷 SmolLM2 1.7B Instruct

🇨🇳 Qwen 2.5 Coder 1.5B Instruct

🇫🇷 SmolVLM2 2.2B Instruct

🇺🇸 Granite 4.0 3B Vision

Tableau comparatif

Méthodologie du classement

Questions fréquentes

Pour aller plus loin