QuelLLMFR Analyser ma config →
Accueil Catalogue Meilleur LLM sans GPU (CPU only) en 2026

Meilleur LLM sans GPU (CPU only) en 2026

Pas de GPU ? Les LLM modernes 1-7B tournent correctement sur CPU grâce à llama.cpp et aux quantifs Q4. Il faut 8-16 GB de RAM et accepter des débits de 5-15 tokens/sec. Voici les meilleurs choix.

Classement

1

🇺🇸 Granite 4.0 H-Tiny 7B-A1B

IBM · 7B paramètres · Apache 2.0 · 128 000 tokens ctx

Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.

Pourquoi ce rang 7B paramètres — tourne correctement sur CPU moderne (5-10 tokens/sec en Q4).
ollama run granite4:tiny-h
VRAM Q4
4 GB
7 GB en Q8
2

🇫🇷 Lucie 7B

OpenLLM-France · 7B paramètres · Apache 2.0 · 4 096 tokens ctx

LLM souverain francophone, entraîné sur corpus FR.

Pourquoi ce rang 7B paramètres — tourne correctement sur CPU moderne (5-10 tokens/sec en Q4).
ollama run lucie:7b
VRAM Q4
5 GB
9 GB en Q8
3

🇨🇳 Qwen 2.5 VL 7B

Alibaba · 7B paramètres · Apache 2.0 · 128 000 tokens ctx

Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.

Pourquoi ce rang 7B paramètres — tourne correctement sur CPU moderne (5-10 tokens/sec en Q4).
ollama run qwen2.5vl:7b
VRAM Q4
6 GB
10 GB en Q8
4

🇨🇳 Qwen 2.5 Omni 7B

Alibaba · 7B paramètres · Apache 2.0 · 32 768 tokens ctx

Premier omni open : texte+image+audio+vidéo en entrée, texte+parole en sortie. Pas de tag Ollama officiel.

Pourquoi ce rang 7B paramètres — tourne correctement sur CPU moderne (5-10 tokens/sec en Q4).
# GGUF : ggml-org/Qwen2.5-Omni-7B-GGUF (pas d'Ollama officiel)
VRAM Q4
6 GB
10 GB en Q8
5

🇺🇸 Phi-4 Multimodal 5.6B

Microsoft · 5.6B paramètres · MIT · 128 000 tokens ctx

Texte+image+audio → texte. Mixture-of-LoRAs, jusqu'à ~2.8h d'audio. Pas de tag Ollama officiel.

Pourquoi ce rang 5.6B paramètres — tourne correctement sur CPU moderne (5-10 tokens/sec en Q4).
# Via HuggingFace : microsoft/Phi-4-multimodal-instruct (pas d'Ollama officiel)
VRAM Q4
4 GB
7 GB en Q8
6

🇫🇷 Pleias-RAG 1B

PleIAs · 1.2B paramètres · Apache 2.0 · 2 048 tokens ctx

Spécialisé RAG 1.2B. Citation et grounding intégrés. Bat la plupart des SLM ≤4B sur HotPotQA.

Pourquoi ce rang 1.2B paramètres — tourne correctement sur CPU moderne (30-50 tokens/sec en Q4).
# HuggingFace : PleIAs/Pleias-RAG-1B (GGUF : PleIAs/Pleias-RAG-1B-gguf)
VRAM Q4
0.8 GB
1.5 GB en Q8
7

🇫🇷 SmolVLM2 2.2B Instruct

HuggingFace · 2.2B paramètres · Apache 2.0 · 8 192 tokens ctx

VLM 2.2B : image+vidéo+texte. 5.2 GB VRAM pour l'inférence vidéo. Base SmolLM2-1.7B.

Pourquoi ce rang 2.2B paramètres — tourne correctement sur CPU moderne (30-50 tokens/sec en Q4).
# HuggingFace : HuggingFaceTB/SmolVLM2-2.2B-Instruct
VRAM Q4
1.6 GB
3 GB en Q8

Tableau comparatif

Rang Modèle Params VRAM Q4 Contexte Licence Sur GPU intégré / aucun
#1 Granite 4.0 H-Tiny 7B-A1B 7B 4 GB 128 000 Apache 2.0
#2 Lucie 7B 7B 5 GB 4 096 Apache 2.0
#3 Qwen 2.5 VL 7B 7B 6 GB 128 000 Apache 2.0
#4 Qwen 2.5 Omni 7B 7B 6 GB 32 768 Apache 2.0
#5 Phi-4 Multimodal 5.6B 5.6B 4 GB 128 000 MIT
#6 Pleias-RAG 1B 1.2B 0.8 GB 2 048 Apache 2.0
#7 SmolVLM2 2.2B Instruct 2.2B 1.6 GB 8 192 Apache 2.0

Méthodologie du classement

Modèles ≤ 8B uniquement — au-delà, le débit CPU devient trop faible. Gros bonus aux ≤ 3B (très rapides sur CPU moderne) et aux licences permissives.

Critères pris en compte :

  • Taille ≤ 8B (idéalement ≤ 3B)
  • Débit CPU ≥ 5 tokens/sec
  • RAM requise ≤ 16 GB
  • Qualité acceptable en Q4

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

Peut-on vraiment faire tourner un LLM sans GPU ?

Oui — grâce à llama.cpp + quantif Q4_K_M, un 7B tourne à 5-10 tokens/sec sur un CPU Ryzen 7 ou Apple M1. Pour de l'interactif, visez un 1-3B (30-50 tokens/sec).

Combien de RAM faut-il ?

Pour un 7B en Q4 : 8 GB de RAM minimum, 16 GB recommandés (le modèle prend ~5 GB, le reste pour OS + contexte). Pour un 3B : 6-8 GB suffisent. Pour un 1B : 4 GB.

Quel CPU pour du LLM ?

Plus il y a de cœurs et d'AVX2/AVX-512, mieux c'est. Ryzen 7/9 récents, Intel Core i7/i9 récents, Apple M1/M2/M3 — tous excellents. Privilégiez la mémoire rapide (DDR5 > DDR4) : la bande passante RAM limite souvent plus que les cœurs.

iGPU (Intel / AMD) peut-il aider ?

Marginalement — Vulkan sur iGPU donne un gain de 20-40% vs CPU seul. Pas transcendant mais à prendre. Sur Mac Apple Silicon, le GPU intégré est exploitable via Metal et fait une grosse différence (c'est le mode 'unified memory').

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Pour aller plus loin