🇺🇸 Granite 4.0 H-Tiny 7B-A1B
Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
8 GB de VRAM est le palier d'entrée pour l'IA locale — RTX 3060 8GB, 4060, 5060, 3070, 2080, etc. Les modèles 7-9B en Q4_K_M tiennent confortablement. Voici les meilleurs choix pour ce budget VRAM.
Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
Codéveloppé avec NVIDIA. 128k ctx, Tekken tokenizer, fort en multilingue européen.
ollama run mistral-nemo:12b
Sweet spot multimodal. 128k ctx, vision, 140 langues.
ollama run gemma3:12b
LLM souverain francophone, entraîné sur corpus FR.
ollama run lucie:7b
Mode hybride thinking/fast. 119 langues, 32k natif (131k via YaRN).
ollama run qwen3:8b
Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.
ollama run qwen2.5vl:7b
Premier omni open : texte+image+audio+vidéo en entrée, texte+parole en sortie. Pas de tag Ollama officiel.
# GGUF : ggml-org/Qwen2.5-Omni-7B-GGUF (pas d'Ollama officiel)
Texte+image+audio → texte. Mixture-of-LoRAs, jusqu'à ~2.8h d'audio. Pas de tag Ollama officiel.
# Via HuggingFace : microsoft/Phi-4-multimodal-instruct (pas d'Ollama officiel)
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur RTX 4060 Ti 8GB |
|---|---|---|---|---|---|---|
| #1 | Granite 4.0 H-Tiny 7B-A1B | 7B | 4 GB | 128 000 | Apache 2.0 | 60 tok/s · Q8 |
| #2 | Mistral Nemo 12B Instruct | 12B | 7 GB | 128 000 | Apache 2.0 | 8 tok/s · Q4_K_M |
| #3 | Gemma 3 12B | 12B | 7 GB | 128 000 | Gemma | 7 tok/s · Q4_K_M |
| #4 | Lucie 7B | 7B | 5 GB | 4 096 | Apache 2.0 | 12 tok/s · Q5_K_M |
| #5 | Qwen 3 8B | 8B | 5 GB | 131 072 | Apache 2.0 | 12 tok/s · Q5_K_M |
| #6 | Qwen 2.5 VL 7B | 7B | 6 GB | 128 000 | Apache 2.0 | 8 tok/s · Q5_K_M |
| #7 | Qwen 2.5 Omni 7B | 7B | 6 GB | 32 768 | Apache 2.0 | 8 tok/s · Q5_K_M |
| #8 | Phi-4 Multimodal 5.6B | 5.6B | 4 GB | 128 000 | MIT | 15 tok/s · Q8 |
Filtre : VRAM Q4 ≤ 8 GB et ≥ 3 GB (on écarte les ultra-petits sous-employés). On garde les 3-9B qui tiennent en Q4_K_M avec marge pour le contexte.
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
Quel LLM en 8 GB pour débuter ?
Granite 4.0 H-Tiny 7B-A1B est le meilleur point d'entrée. Mistral 7B, Llama 3.1 8B et Qwen 2.5 7B sont tous excellents et ne coûtent rien. Commencez par Ollama (ollama run mistral:7b-instruct).
Peut-on faire tourner Gemma 2 9B en 8 GB ?
Q4_K_M seulement (≈ 6 GB modèle + 1-2 GB contexte = ≈ 8 GB). Pas de marge pour un gros contexte. Préférez Mistral 7B si vous voulez du 32k+ tokens confortable.
Quelle quantif en 8 GB ?
Q4_K_M pour un 7-9B. Q5_K_M pour un 3-5B. Q8 uniquement pour un 3B et en-dessous.
RTX 4060 vs RTX 3060 12 GB ?
La 4060 est plus rapide en pur débit (+15-20%), mais elle est limitée à 8 GB — pas de 12B ni de gros contexte. La 3060 12 GB est meilleure pour le LLM malgré son tier inférieur.
Approfondissez avec nos duels détaillés des finalistes :