🇨🇳 Qwen 2.5 VL 7B
Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.
ollama run qwen2.5vl:7b
La RTX 3080 10 GB (GDDR6X, 760 Go/s) reste très capable en 2026. 10 Go limitent les 13B en Q4 (~8 Go laisse peu de marge contexte) mais 7-9B Q5 et Mistral 7B FP16 tournent excellent.
Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.
ollama run qwen2.5vl:7b
Premier omni open : texte+image+audio+vidéo en entrée, texte+parole en sortie. Pas de tag Ollama officiel.
# GGUF : ggml-org/Qwen2.5-Omni-7B-GGUF (pas d'Ollama officiel)
Dense 9B nouvelle génération. 262k ctx, hybrid thinking amélioré.
ollama run qwen3.5:9b
Vision 8B dense Qwen 3. Meilleur petit VLM Qwen génération 3.
ollama run qwen3-vl:8b
Version compacte du 70B. 1000+ langues, entraîné sur supercalculateur suisse Alps.
ollama pull hf.co/swissai/Apertus-8B-GGUF
VLM 8B SOTA sur MMMU parmi les open. Shanghai AI Lab. Apache 2.0.
ollama run internvl3.5:8b
Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur RTX 3080 10GB |
|---|---|---|---|---|---|---|
| #1 | Qwen 2.5 VL 7B | 7B | 6 GB | 128 000 | Apache 2.0 | 25 tok/s · Q8 |
| #2 | Qwen 2.5 Omni 7B | 7B | 6 GB | 32 768 | Apache 2.0 | 25 tok/s · Q8 |
| #3 | Qwen 3.5 9B | 9B | 6 GB | 262 000 | Apache 2.0 | 28 tok/s · Q8 |
| #4 | Qwen 3 VL 8B | 8B | 6 GB | 262 144 | Apache 2.0 | 30 tok/s · Q8 |
| #5 | Apertus 8B | 8B | 6 GB | 65 536 | Apache 2.0 | 30 tok/s · Q8 |
| #6 | InternVL 3.5 8B | 8B | 6 GB | 32 768 | Apache 2.0 | 30 tok/s · Q8 |
| #7 | Granite 4.0 H-Tiny 7B-A1B | 7B | 4 GB | 128 000 | Apache 2.0 | 180 tok/s · Q8 |
Filtre : Q4_K_M ≤ 9 Go. Bonus 7-9B (peak 10 Go). 760 Go/s = solid.
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
RTX 3080 10 GB en 2026 : encore pertinent ?
Oui pour 7-9B en Q5/Q8 (Mistral 7B Q8 = ~7,5 Go) à 50+ tok/s. Pour 13-14B il faut Q4 et marge serrée. Voir guide.
3080 10 GB vs 4070 12 GB ?
3080 = 760 Go/s, 4070 = 504 Go/s. 3080 ~50 % plus rapide. Mais 4070 a 12 Go (Qwen 3 14B Q4 OK). Selon priorité speed vs VRAM. Voir RTX 4070.
Quelle quantif sur 3080 10 GB ?
Q8 pour 7B (qualité quasi-FP16, ~7,5 Go). Q5_K_M pour 8-9B (~6-7 Go). Évitez Q4 sauf si vous voulez tenter un 13B (~8 Go, marge fine).
Occasion 3080 10 GB : à quel prix ?
~350-400 € en France. Pour LLM, 3090 occasion (~650 €) reste meilleur si budget. Voir RTX 3090.