🇺🇸 Granite 4.0 H-Tiny 7B-A1B
Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
La RTX 3050 8 GB (GDDR6, 224 Go/s) est l'entry-level Ampere. Bande passante faible mais 8 Go permettent Mistral 7B Q4 à 12-15 tok/s. Utilisable pour découvrir le LLM local.
Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
LLM souverain francophone, entraîné sur corpus FR.
ollama run lucie:7b
Raisonnement chain-of-thought distillé. Bluffant en maths.
ollama run deepseek-r1:7b
Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.
ollama run qwen2.5vl:7b
Premier omni open : texte+image+audio+vidéo en entrée, texte+parole en sortie. Pas de tag Ollama officiel.
# GGUF : ggml-org/Qwen2.5-Omni-7B-GGUF (pas d'Ollama officiel)
Texte+image+audio → texte. Mixture-of-LoRAs, jusqu'à ~2.8h d'audio. Pas de tag Ollama officiel.
# Via HuggingFace : microsoft/Phi-4-multimodal-instruct (pas d'Ollama officiel)
Dense 7B 100% ouvert (poids + données + code). Transparence totale pour recherche.
ollama run olmo-3:7b
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur RTX 3050 8GB |
|---|---|---|---|---|---|---|
| #1 | Granite 4.0 H-Tiny 7B-A1B | 7B | 4 GB | 128 000 | Apache 2.0 | 60 tok/s · Q8 |
| #2 | Lucie 7B | 7B | 5 GB | 4 096 | Apache 2.0 | 12 tok/s · Q5_K_M |
| #3 | DeepSeek R1 Distill 7B | 7B | 5 GB | 32 768 | MIT | 12 tok/s · Q5_K_M |
| #4 | Qwen 2.5 VL 7B | 7B | 6 GB | 128 000 | Apache 2.0 | 8 tok/s · Q5_K_M |
| #5 | Qwen 2.5 Omni 7B | 7B | 6 GB | 32 768 | Apache 2.0 | 8 tok/s · Q5_K_M |
| #6 | Phi-4 Multimodal 5.6B | 5.6B | 4 GB | 128 000 | MIT | 15 tok/s · Q8 |
| #7 | OLMo 3 7B | 7B | 5 GB | 8 192 | Apache 2.0 | 12 tok/s · Q5_K_M |
Filtre : Q4_K_M ≤ 6 Go. Bonus 1-7B et ≤ 3B (rapides). 224 Go/s limite mais 8 Go OK pour 7B.
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
RTX 3050 8 GB : pertinent pour LLM ?
Pour découvrir oui, pour usage soutenu non. Mistral 7B Q4 à 12-15 tok/s, Llama 3.2 3B Q4 à 30 tok/s. Bande passante limitée. Voir guide.
3050 8 GB vs 4060 8 GB ?
4060 GDDR6 272 Go/s + Ada Lovelace = ~80 % plus rapide. Mistral 7B Q4 : 4060 ~22 tok/s vs 3050 ~14 tok/s. Voir RTX 4060.
Faut-il préférer un Mac M1 occasion ?
Mac M1 16 Go ~400 € occasion = 16 Go unifié + silence. 3050 ~200 €. Selon plateforme et budget. Voir Mac 16 Go.
Quels modèles sweet spot 3050 ?
Phi-4 Mini 3,8B Q4 (45+ tok/s), Llama 3.2 3B Q4 (30 tok/s), Mistral 7B Q4 (12-15 tok/s pour du long-form chat acceptable).
Approfondissez avec nos duels détaillés des finalistes :