QuelLLMFR Analyser ma config →
Accueil Catalogue Meilleur LLM en 8 GB de VRAM en 2026

Meilleur LLM en 8 GB de VRAM en 2026

8 GB de VRAM est le palier d'entrée pour l'IA locale — RTX 3060 8GB, 4060, 5060, 3070, 2080, etc. Les modèles 7-9B en Q4_K_M tiennent confortablement. Voici les meilleurs choix pour ce budget VRAM.

Classement

1

🇺🇸 Granite 4.0 H-Tiny 7B-A1B

IBM · 7B paramètres · Apache 2.0 · 128 000 tokens ctx

Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.

Pourquoi ce rang Tient en Q8 (~7 GB sur 8 GB dispo). 7B paramètres, contexte 128 000 tokens.
ollama run granite4:tiny-h
Sur RTX 4060 Ti 8GB
Q8
7 GB · 60 tok/s
2

🇫🇷 Mistral Nemo 12B Instruct

Mistral AI · 12B paramètres · Apache 2.0 · 128 000 tokens ctx

Codéveloppé avec NVIDIA. 128k ctx, Tekken tokenizer, fort en multilingue européen.

Pourquoi ce rang Tient en Q4_K_M (~7 GB sur 8 GB dispo). 12B paramètres, contexte 128 000 tokens.
ollama run mistral-nemo:12b
Sur RTX 4060 Ti 8GB
Q4_K_M
7 GB · 8 tok/s
3

🇺🇸 Gemma 3 12B

Google · 12B paramètres · Gemma · 128 000 tokens ctx

Sweet spot multimodal. 128k ctx, vision, 140 langues.

Pourquoi ce rang Tient en Q4_K_M (~7 GB sur 8 GB dispo). 12B paramètres, contexte 128 000 tokens.
ollama run gemma3:12b
Sur RTX 4060 Ti 8GB
Q4_K_M
7 GB · 7 tok/s
4

🇫🇷 Lucie 7B

OpenLLM-France · 7B paramètres · Apache 2.0 · 4 096 tokens ctx

LLM souverain francophone, entraîné sur corpus FR.

Pourquoi ce rang Tient en Q5_K_M (~6 GB sur 8 GB dispo). 7B paramètres, contexte 4 096 tokens.
ollama run lucie:7b
Sur RTX 4060 Ti 8GB
Q5_K_M
6 GB · 12 tok/s
5

🇨🇳 Qwen 3 8B

Alibaba · 8B paramètres · Apache 2.0 · 131 072 tokens ctx

Mode hybride thinking/fast. 119 langues, 32k natif (131k via YaRN).

Pourquoi ce rang Tient en Q5_K_M (~6 GB sur 8 GB dispo). 8B paramètres, contexte 131 072 tokens.
ollama run qwen3:8b
Sur RTX 4060 Ti 8GB
Q5_K_M
6 GB · 12 tok/s
6

🇨🇳 Qwen 2.5 VL 7B

Alibaba · 7B paramètres · Apache 2.0 · 128 000 tokens ctx

Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.

Pourquoi ce rang Tient en Q5_K_M (~7 GB sur 8 GB dispo). 7B paramètres, contexte 128 000 tokens.
ollama run qwen2.5vl:7b
Sur RTX 4060 Ti 8GB
Q5_K_M
7 GB · 8 tok/s
7

🇨🇳 Qwen 2.5 Omni 7B

Alibaba · 7B paramètres · Apache 2.0 · 32 768 tokens ctx

Premier omni open : texte+image+audio+vidéo en entrée, texte+parole en sortie. Pas de tag Ollama officiel.

Pourquoi ce rang Tient en Q5_K_M (~7 GB sur 8 GB dispo). 7B paramètres, contexte 32 768 tokens.
# GGUF : ggml-org/Qwen2.5-Omni-7B-GGUF (pas d'Ollama officiel)
Sur RTX 4060 Ti 8GB
Q5_K_M
7 GB · 8 tok/s
8

🇺🇸 Phi-4 Multimodal 5.6B

Microsoft · 5.6B paramètres · MIT · 128 000 tokens ctx

Texte+image+audio → texte. Mixture-of-LoRAs, jusqu'à ~2.8h d'audio. Pas de tag Ollama officiel.

Pourquoi ce rang Tient en Q8 (~7 GB sur 8 GB dispo). 5.6B paramètres, contexte 128 000 tokens.
# Via HuggingFace : microsoft/Phi-4-multimodal-instruct (pas d'Ollama officiel)
Sur RTX 4060 Ti 8GB
Q8
7 GB · 15 tok/s

Tableau comparatif

Rang Modèle Params VRAM Q4 Contexte Licence Sur RTX 4060 Ti 8GB
#1 Granite 4.0 H-Tiny 7B-A1B 7B 4 GB 128 000 Apache 2.0 60 tok/s · Q8
#2 Mistral Nemo 12B Instruct 12B 7 GB 128 000 Apache 2.0 8 tok/s · Q4_K_M
#3 Gemma 3 12B 12B 7 GB 128 000 Gemma 7 tok/s · Q4_K_M
#4 Lucie 7B 7B 5 GB 4 096 Apache 2.0 12 tok/s · Q5_K_M
#5 Qwen 3 8B 8B 5 GB 131 072 Apache 2.0 12 tok/s · Q5_K_M
#6 Qwen 2.5 VL 7B 7B 6 GB 128 000 Apache 2.0 8 tok/s · Q5_K_M
#7 Qwen 2.5 Omni 7B 7B 6 GB 32 768 Apache 2.0 8 tok/s · Q5_K_M
#8 Phi-4 Multimodal 5.6B 5.6B 4 GB 128 000 MIT 15 tok/s · Q8

Méthodologie du classement

Filtre : VRAM Q4 ≤ 8 GB et ≥ 3 GB (on écarte les ultra-petits sous-employés). On garde les 3-9B qui tiennent en Q4_K_M avec marge pour le contexte.

Critères pris en compte :

  • VRAM Q4 ≤ 8 GB
  • Contexte utilisable (32k+)
  • Qualité comparable au tier supérieur
  • Compatible Ollama / LM Studio

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

Quel LLM en 8 GB pour débuter ?

Granite 4.0 H-Tiny 7B-A1B est le meilleur point d'entrée. Mistral 7B, Llama 3.1 8B et Qwen 2.5 7B sont tous excellents et ne coûtent rien. Commencez par Ollama (ollama run mistral:7b-instruct).

Peut-on faire tourner Gemma 2 9B en 8 GB ?

Q4_K_M seulement (≈ 6 GB modèle + 1-2 GB contexte = ≈ 8 GB). Pas de marge pour un gros contexte. Préférez Mistral 7B si vous voulez du 32k+ tokens confortable.

Quelle quantif en 8 GB ?

Q4_K_M pour un 7-9B. Q5_K_M pour un 3-5B. Q8 uniquement pour un 3B et en-dessous.

RTX 4060 vs RTX 3060 12 GB ?

La 4060 est plus rapide en pur débit (+15-20%), mais elle est limitée à 8 GB — pas de 12B ni de gros contexte. La 3060 12 GB est meilleure pour le LLM malgré son tier inférieur.

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Pour aller plus loin