🇨🇳 Qwen 3 14B
Dense 14B avec hybrid thinking. Égale Qwen 2.5 32B Base sur STEM/code.
ollama run qwen3:14b
La RTX 5080 (16 GB GDDR7, 960 Go/s) est le tier 2 Blackwell. VRAM identique à la 4080 mais GDDR7 + Neural Engine boosté = 25-30 % plus rapide sur les mêmes modèles.
Dense 14B avec hybrid thinking. Égale Qwen 2.5 32B Base sur STEM/code.
ollama run qwen3:14b
Raisonneur MIT 14B. Bat R1-Distill-Llama-70B sur AIME/GPQA avec 50× moins de paramètres.
ollama run phi4-reasoning:14b
R1 distillé Qwen 14B. AIME24 69.7, MATH-500 93.9. Dépasse o1-mini sur beaucoup de benchmarks.
ollama run deepseek-r1:14b
Raisonnement exceptionnel pour sa taille. Orienté STEM.
ollama run phi4:14b
Dense 14B Apache 2.0. MMLU 79.7, HumanEval 83.5. 29+ langues. Bon compromis.
ollama run qwen2.5:14b
Coder 14B. HumanEval 89.6, LiveCodeBench 37.1. Sweet spot VRAM pour code self-host.
ollama run qwen2.5-coder:14b
Petit frère de gpt-oss 120B. 21B/3.6B actifs. Égale o3-mini sur laptop.
ollama run openai/gpt-oss:20b
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur RTX 5080 |
|---|---|---|---|---|---|---|
| #1 | Qwen 3 14B | 14B | 9 GB | 131 072 | Apache 2.0 | 55 tok/s · Q8 |
| #2 | Phi-4 Reasoning 14B | 14B | 9 GB | 32 768 | MIT | 55 tok/s · Q8 |
| #3 | DeepSeek R1 Distill Qwen 14B | 14B | 9 GB | 131 072 | MIT | 55 tok/s · Q8 |
| #4 | Phi-4 14B | 14B | 9 GB | 16 384 | MIT | 55 tok/s · Q8 |
| #5 | Qwen 2.5 14B Instruct | 14B | 9 GB | 131 072 | Apache 2.0 | 55 tok/s · Q8 |
| #6 | Qwen 2.5 Coder 14B Instruct | 14B | 9 GB | 131 072 | Apache 2.0 | 55 tok/s · Q8 |
| #7 | gpt-oss 20B | 21B | 13 GB | 128 000 | Apache 2.0 | 130 tok/s · Q5_K_M |
Filtre : modèles dont Q4_K_M tient sous 14 Go. Bonus 7-14B (peak 5080) et 13-24B en limite. Bande passante GDDR7 960 Go/s = ~30 % gain vs 4080.
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
RTX 5080 vs RTX 4080 ?
Même 16 Go VRAM. La 5080 est 25-30 % plus rapide sur les mêmes modèles grâce à GDDR7 (960 vs 736 Go/s) + Neural Engine Blackwell. Mistral Small 24B Q4 : 5080 ~38 tok/s vs 4080 ~28 tok/s. Voir RTX 4080.
Peut-on faire tourner 30B sur 5080 ?
Mistral Small 24B Q4 (~13 Go) oui à 35-40 tok/s. Qwen 3 32B Q3_K_M (~14 Go) limite, qualité dégradée. Pour 30-32B en Q4 confort, viser RTX 5090 32 Go. Voir RTX 5090.
Quelle quantif sur 5080 ?
Q5_K_M pour 7-9B (qualité max, ~7 Go). Q4_K_M pour 13-24B (Mistral Small 24B). Q6_K pour 13-14B (Qwen 3 14B ~12 Go) idéal.
RTX 5080 ou Mac Studio M4 Max 64 Go ?
Studio M4 Max = silence + 64 Go (70B Q4 fluide). 5080 = vitesse pure sur 7-24B (35-50 tok/s). Si vous voulez du 70B local, Mac Studio. Pour speed sur 7-24B, RTX 5080. Voir Mac Studio.
Approfondissez avec nos duels détaillés des finalistes :