🇨🇳 Qwen 3 14B
Dense 14B avec hybrid thinking. Égale Qwen 2.5 32B Base sur STEM/code.
ollama run qwen3:14b
La RTX 2080 Ti (11 GB GDDR6, 616 Go/s) reste très capable en 2026 grâce à ses 11 Go. Qwen 3 14B Q4 (~8 Go) tourne à 30+ tok/s, Mistral 7B Q8 (~7,5 Go) à 40+ tok/s.
Dense 14B avec hybrid thinking. Égale Qwen 2.5 32B Base sur STEM/code.
ollama run qwen3:14b
Raisonneur MIT 14B. Bat R1-Distill-Llama-70B sur AIME/GPQA avec 50× moins de paramètres.
ollama run phi4-reasoning:14b
R1 distillé Qwen 14B. AIME24 69.7, MATH-500 93.9. Dépasse o1-mini sur beaucoup de benchmarks.
ollama run deepseek-r1:14b
Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.
ollama run qwen2.5vl:7b
Premier omni open : texte+image+audio+vidéo en entrée, texte+parole en sortie. Pas de tag Ollama officiel.
# GGUF : ggml-org/Qwen2.5-Omni-7B-GGUF (pas d'Ollama officiel)
Dense 9B nouvelle génération. 262k ctx, hybrid thinking amélioré.
ollama run qwen3.5:9b
Vision 8B dense Qwen 3. Meilleur petit VLM Qwen génération 3.
ollama run qwen3-vl:8b
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur RTX 2080 Ti |
|---|---|---|---|---|---|---|
| #1 | Qwen 3 14B | 14B | 9 GB | 131 072 | Apache 2.0 | 6 tok/s · Q5_K_M |
| #2 | Phi-4 Reasoning 14B | 14B | 9 GB | 32 768 | MIT | 6 tok/s · Q5_K_M |
| #3 | DeepSeek R1 Distill Qwen 14B | 14B | 9 GB | 131 072 | MIT | 6 tok/s · Q5_K_M |
| #4 | Qwen 2.5 VL 7B | 7B | 6 GB | 128 000 | Apache 2.0 | 8 tok/s · Q8 |
| #5 | Qwen 2.5 Omni 7B | 7B | 6 GB | 32 768 | Apache 2.0 | 8 tok/s · Q8 |
| #6 | Qwen 3.5 9B | 9B | 6 GB | 262 000 | Apache 2.0 | 9 tok/s · Q8 |
| #7 | Qwen 3 VL 8B | 8B | 6 GB | 262 144 | Apache 2.0 | 10 tok/s · Q8 |
Filtre : Q4_K_M ≤ 10 Go. Bonus 7-14B. 616 Go/s = bonne bande passante Turing.
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
RTX 2080 Ti en 2026 : vraiment utilisable ?
Oui — 11 Go + 616 Go/s permettent 7-14B en Q4. Mistral 7B Q5 (~5,5 Go) à 50 tok/s, Qwen 3 14B Q4 (~8 Go) à 30-35 tok/s. Voir guide.
2080 Ti vs 3060 12 GB ?
3060 12 GB = +1 Go VRAM mais 360 Go/s vs 2080 Ti 616 Go/s. 2080 Ti ~70 % plus rapide. Mais 3060 plus moderne (CUDA 11+, Ampere). Voir 3060 12GB.
Prix occasion 2080 Ti ?
~300-400 € en France. Bon rapport perf/€ si on tombe sur une offre. 3060 12 GB occasion ~200 € reste plus pertinent pour LLM seul.
Faut-il préférer un setup récent ?
Pour speed, oui (5070 ~650 € neuve). Pour VRAM brute, 3090 occasion (24 Go) reste imbattable. 2080 Ti = solide milieu de gamme historique. Voir RTX 3090.
Approfondissez avec nos duels détaillés des finalistes :