🇺🇸 Granite 4.0 H-Tiny 7B-A1B
Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
Pas de GPU ? Les LLM modernes 1-7B tournent correctement sur CPU grâce à llama.cpp et aux quantifs Q4. Il faut 8-16 GB de RAM et accepter des débits de 5-15 tokens/sec. Voici les meilleurs choix.
Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
LLM souverain francophone, entraîné sur corpus FR.
ollama run lucie:7b
Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.
ollama run qwen2.5vl:7b
Premier omni open : texte+image+audio+vidéo en entrée, texte+parole en sortie. Pas de tag Ollama officiel.
# GGUF : ggml-org/Qwen2.5-Omni-7B-GGUF (pas d'Ollama officiel)
Texte+image+audio → texte. Mixture-of-LoRAs, jusqu'à ~2.8h d'audio. Pas de tag Ollama officiel.
# Via HuggingFace : microsoft/Phi-4-multimodal-instruct (pas d'Ollama officiel)
Spécialisé RAG 1.2B. Citation et grounding intégrés. Bat la plupart des SLM ≤4B sur HotPotQA.
# HuggingFace : PleIAs/Pleias-RAG-1B (GGUF : PleIAs/Pleias-RAG-1B-gguf)
VLM 2.2B : image+vidéo+texte. 5.2 GB VRAM pour l'inférence vidéo. Base SmolLM2-1.7B.
# HuggingFace : HuggingFaceTB/SmolVLM2-2.2B-Instruct
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur GPU intégré / aucun |
|---|---|---|---|---|---|---|
| #1 | Granite 4.0 H-Tiny 7B-A1B | 7B | 4 GB | 128 000 | Apache 2.0 | ✗ |
| #2 | Lucie 7B | 7B | 5 GB | 4 096 | Apache 2.0 | ✗ |
| #3 | Qwen 2.5 VL 7B | 7B | 6 GB | 128 000 | Apache 2.0 | ✗ |
| #4 | Qwen 2.5 Omni 7B | 7B | 6 GB | 32 768 | Apache 2.0 | ✗ |
| #5 | Phi-4 Multimodal 5.6B | 5.6B | 4 GB | 128 000 | MIT | ✗ |
| #6 | Pleias-RAG 1B | 1.2B | 0.8 GB | 2 048 | Apache 2.0 | ✗ |
| #7 | SmolVLM2 2.2B Instruct | 2.2B | 1.6 GB | 8 192 | Apache 2.0 | ✗ |
Modèles ≤ 8B uniquement — au-delà, le débit CPU devient trop faible. Gros bonus aux ≤ 3B (très rapides sur CPU moderne) et aux licences permissives.
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
Peut-on vraiment faire tourner un LLM sans GPU ?
Oui — grâce à llama.cpp + quantif Q4_K_M, un 7B tourne à 5-10 tokens/sec sur un CPU Ryzen 7 ou Apple M1. Pour de l'interactif, visez un 1-3B (30-50 tokens/sec).
Combien de RAM faut-il ?
Pour un 7B en Q4 : 8 GB de RAM minimum, 16 GB recommandés (le modèle prend ~5 GB, le reste pour OS + contexte). Pour un 3B : 6-8 GB suffisent. Pour un 1B : 4 GB.
Quel CPU pour du LLM ?
Plus il y a de cœurs et d'AVX2/AVX-512, mieux c'est. Ryzen 7/9 récents, Intel Core i7/i9 récents, Apple M1/M2/M3 — tous excellents. Privilégiez la mémoire rapide (DDR5 > DDR4) : la bande passante RAM limite souvent plus que les cœurs.
iGPU (Intel / AMD) peut-il aider ?
Marginalement — Vulkan sur iGPU donne un gain de 20-40% vs CPU seul. Pas transcendant mais à prendre. Sur Mac Apple Silicon, le GPU intégré est exploitable via Metal et fait une grosse différence (c'est le mode 'unified memory').
Approfondissez avec nos duels détaillés des finalistes :