🇨🇳 Qwen 3 14B
Dense 14B avec hybrid thinking. Égale Qwen 2.5 32B Base sur STEM/code.
ollama run qwen3:14b
La RTX 5060 Ti 16 GB (GDDR7, 448 Go/s) est l'entrée de gamme 16 Go la moins chère. Ratio bande passante / VRAM faible mais 16 Go débloquent les 24B en Q4. Bon entry-LLM 2026.
Dense 14B avec hybrid thinking. Égale Qwen 2.5 32B Base sur STEM/code.
ollama run qwen3:14b
Raisonneur MIT 14B. Bat R1-Distill-Llama-70B sur AIME/GPQA avec 50× moins de paramètres.
ollama run phi4-reasoning:14b
R1 distillé Qwen 14B. AIME24 69.7, MATH-500 93.9. Dépasse o1-mini sur beaucoup de benchmarks.
ollama run deepseek-r1:14b
Raisonnement exceptionnel pour sa taille. Orienté STEM.
ollama run phi4:14b
Dense 14B Apache 2.0. MMLU 79.7, HumanEval 83.5. 29+ langues. Bon compromis.
ollama run qwen2.5:14b
Coder 14B. HumanEval 89.6, LiveCodeBench 37.1. Sweet spot VRAM pour code self-host.
ollama run qwen2.5-coder:14b
Petit frère de gpt-oss 120B. 21B/3.6B actifs. Égale o3-mini sur laptop.
ollama run openai/gpt-oss:20b
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur RTX 5060 Ti 16GB |
|---|---|---|---|---|---|---|
| #1 | Qwen 3 14B | 14B | 9 GB | 131 072 | Apache 2.0 | 20 tok/s · Q8 |
| #2 | Phi-4 Reasoning 14B | 14B | 9 GB | 32 768 | MIT | 20 tok/s · Q8 |
| #3 | DeepSeek R1 Distill Qwen 14B | 14B | 9 GB | 131 072 | MIT | 20 tok/s · Q8 |
| #4 | Phi-4 14B | 14B | 9 GB | 16 384 | MIT | 20 tok/s · Q8 |
| #5 | Qwen 2.5 14B Instruct | 14B | 9 GB | 131 072 | Apache 2.0 | 20 tok/s · Q8 |
| #6 | Qwen 2.5 Coder 14B Instruct | 14B | 9 GB | 131 072 | Apache 2.0 | 20 tok/s · Q8 |
| #7 | gpt-oss 20B | 21B | 13 GB | 128 000 | Apache 2.0 | 55 tok/s · Q5_K_M |
Filtre : Q4_K_M ≤ 14 Go. Bonus 7-14B. Bande passante 448 Go/s limite le débit (~25-35 tok/s sur 7B vs 60+ sur 5070 Ti).
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
RTX 5060 Ti 16 vs 4060 Ti 16 ?
5060 Ti GDDR7 448 Go/s vs 4060 Ti GDDR6 288 Go/s = ~50 % gain sur bande passante. Mistral 7B Q4 : 5060 Ti ~28 tok/s vs 4060 Ti ~20 tok/s. Voir RTX 4060 Ti 16GB.
Pourquoi 5060 Ti 16 et pas 8 ?
Pour les LLM, 16 Go débloquent une classe entière de modèles (24B Q4). 8 Go reste limité à 7-9B. Le surcoût ~150 € est justifié si LLM est l'usage principal. Voir RTX 5060 pour le 8 Go.
5060 Ti 16 ou 5070 ?
5070 = 12 Go mais 672 Go/s + 6144 CUDA cores vs 4608. Plus rapide sur les modèles qui tiennent en 12 Go. 5060 Ti 16 = plus de VRAM (24B accessible) mais ralenti sur les gros tokens. Selon priorité.
Budget 500 € : 5060 Ti 16 ou Mac mini M4 24 Go ?
Mac mini M4 = 24 Go unifié + silence mais 120 Go/s. 5060 Ti 16 = 16 Go + 448 Go/s. Pour speed, 5060 Ti. Pour serveur silencieux, Mac mini. Voir Mac mini M4.
Approfondissez avec nos duels détaillés des finalistes :