🇫🇷 Pleias-RAG 1B
Spécialisé RAG 1.2B. Citation et grounding intégrés. Bat la plupart des SLM ≤4B sur HotPotQA.
# HuggingFace : PleIAs/Pleias-RAG-1B (GGUF : PleIAs/Pleias-RAG-1B-gguf)
Sur un Mac 8 Go (M1/M2/M3 Air, MacBook Air M4 base, Mac mini M2 base), macOS prend ~4 Go. Il reste ~3-4 Go utilisables pour un LLM. On se limite aux modèles 1-3B en Q4_K_M pour rester fluide.
Spécialisé RAG 1.2B. Citation et grounding intégrés. Bat la plupart des SLM ≤4B sur HotPotQA.
# HuggingFace : PleIAs/Pleias-RAG-1B (GGUF : PleIAs/Pleias-RAG-1B-gguf)
Raisonnement R1 distillé dans 1.5B. MATH-500 83.9. MIT. Tourne sur n'importe quel laptop.
ollama run deepseek-r1:1.5b
Petit modèle bilingue FR/EN. Tourne partout, même sur CPU.
ollama pull hf.co/manu/croissant-llm-chat-v0.1-GGUF
1.7B Apache 2.0 très téléchargé. Bat Qwen2.5-1.5B de ~6 pts MMLU-Pro. BFCL function calling 27%.
ollama run smollm2:1.7b
Plus petit coder Qwen 2.5. HumanEval 70.7. Idéal pour completion on-device.
ollama run qwen2.5-coder:1.5b
VLM 2.2B : image+vidéo+texte. 5.2 GB VRAM pour l'inférence vidéo. Base SmolLM2-1.7B.
# HuggingFace : HuggingFaceTB/SmolVLM2-2.2B-Instruct
VLM 3B spécialisé extraction documents entreprise. OCR, tables, formulaires.
# HuggingFace : ibm-granite/granite-4.0-3b-vision
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur Apple M2 (16 GB) |
|---|---|---|---|---|---|---|
| #1 | Pleias-RAG 1B | 1.2B | 0.8 GB | 2 048 | Apache 2.0 | 50 tok/s · FP16 |
| #2 | DeepSeek R1 Distill Qwen 1.5B | 1.5B | 1 GB | 131 072 | MIT | 50 tok/s · FP16 |
| #3 | CroissantLLM 1.3B | 1.3B | 1 GB | 2 048 | MIT | 40 tok/s · FP16 |
| #4 | SmolLM2 1.7B Instruct | 1.7B | 1.2 GB | 8 192 | Apache 2.0 | 40 tok/s · FP16 |
| #5 | Qwen 2.5 Coder 1.5B Instruct | 1.5B | 1 GB | 32 768 | Apache 2.0 | 50 tok/s · FP16 |
| #6 | SmolVLM2 2.2B Instruct | 2.2B | 1.6 GB | 8 192 | Apache 2.0 | 30 tok/s · FP16 |
| #7 | Granite 4.0 3B Vision | 3B | 2.2 GB | 16 384 | Apache 2.0 | 25 tok/s · FP16 |
Filtre : modèles 1-4B dont Q4_K_M tient sous 4 Go (laisse 4 Go à macOS + contexte). Bonus 1-3B (peak 8 Go) et ≤ 2B (zero swap). Phi-4 Mini, Llama 3.2 3B, Gemma 4 3B dominent.
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
Un Mac 8 Go peut-il vraiment faire tourner un LLM ?
Oui, mais étroitement. Phi-4 Mini 3,8B Q4 (~2,3 Go) ou Llama 3.2 3B Q4 (~2 Go) tournent à 25-35 tokens/sec. macOS prend 4 Go, vous avez 2-3 Go libres — c'est tendu mais utilisable pour du chat court.
Mac mini M2 8 Go vs MacBook Air M4 16 Go ?
L'Air M4 16 Go est largement préférable : 2× la RAM permet des modèles 7-8B (Mistral, Qwen 3) bien plus capables. Le mini M2 8 Go ne dépasse pas 3B en confort. Voir Mac 16 Go.
Quelle quantif sur 8 Go ?
Q4_K_M reste le sweet spot. Q3_K_M peut faire rentrer un Mistral 7B (~3,5 Go) mais la qualité chute visiblement. Préférez un 3B Q4 bien servi à un 7B Q3 amputé.
Faut-il vraiment 16 Go pour démarrer en LLM local ?
Pour du sérieux, oui — Apple a d'ailleurs banni le 8 Go sur tous les Mac M4 en 2025. Pour du test occasionnel sur un Mac existant, le 8 Go suffit à découvrir avec des 1-3B. Voir MacBook Air M1.