🇨🇳 Qwen 3 14B
Dense 14B avec hybrid thinking. Égale Qwen 2.5 32B Base sur STEM/code.
ollama run qwen3:14b
La RTX 4070 Ti (12 GB GDDR6X, 504 Go/s) plafonne à 14B en Q4. Excellent pour les modèles 7-14B mais limite l'accès aux 24B+ (qui demandent 14+ Go).
Dense 14B avec hybrid thinking. Égale Qwen 2.5 32B Base sur STEM/code.
ollama run qwen3:14b
Raisonneur MIT 14B. Bat R1-Distill-Llama-70B sur AIME/GPQA avec 50× moins de paramètres.
ollama run phi4-reasoning:14b
R1 distillé Qwen 14B. AIME24 69.7, MATH-500 93.9. Dépasse o1-mini sur beaucoup de benchmarks.
ollama run deepseek-r1:14b
Raisonnement exceptionnel pour sa taille. Orienté STEM.
ollama run phi4:14b
Codéveloppé avec NVIDIA. 128k ctx, Tekken tokenizer, fort en multilingue européen.
ollama run mistral-nemo:12b
Sweet spot multimodal. 128k ctx, vision, 140 langues.
ollama run gemma3:12b
Dense 14B Apache 2.0. MMLU 79.7, HumanEval 83.5. 29+ langues. Bon compromis.
ollama run qwen2.5:14b
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur RTX 4070 Ti |
|---|---|---|---|---|---|---|
| #1 | Qwen 3 14B | 14B | 9 GB | 131 072 | Apache 2.0 | 20 tok/s · Q5_K_M |
| #2 | Phi-4 Reasoning 14B | 14B | 9 GB | 32 768 | MIT | 20 tok/s · Q5_K_M |
| #3 | DeepSeek R1 Distill Qwen 14B | 14B | 9 GB | 131 072 | MIT | 20 tok/s · Q5_K_M |
| #4 | Phi-4 14B | 14B | 9 GB | 16 384 | MIT | 20 tok/s · Q5_K_M |
| #5 | Mistral Nemo 12B Instruct | 12B | 7 GB | 128 000 | Apache 2.0 | 25 tok/s · Q5_K_M |
| #6 | Gemma 3 12B | 12B | 7 GB | 128 000 | Gemma | 22 tok/s · Q5_K_M |
| #7 | Qwen 2.5 14B Instruct | 14B | 9 GB | 131 072 | Apache 2.0 | 20 tok/s · Q5_K_M |
Filtre : Q4_K_M ≤ 11 Go. Bonus 7-14B (peak 12 Go). 504 Go/s = solid throughput mid-range.
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
4070 Ti : 12 Go suffisent ?
Oui pour 7-14B en Q4. Mistral Nemo 12B Q5 (~9 Go) ou Qwen 3 14B Q4 (~8 Go) tournent à 35-45 tok/s. Pour 24B, il faut 16 Go : voir 4070 Ti Super.
4070 Ti vs 4070 Super ?
Même 12 Go GDDR6X 504 Go/s. 4070 Ti a ~10 % CUDA cores en plus. Différence marginale pour LLM. Voir RTX 4070 Super.
Quelle quantif sur 4070 Ti ?
Q5_K_M pour 7-8B (qualité max ~5 Go). Q4_K_M pour 13-14B (Qwen 3 14B ~8 Go). Q6_K si possible pour qualité quasi-FP16.
Vaut-il la peine en 2026 ?
En occasion ~450 € oui — solide mid-range LLM. Neuf, préférez 5070 (~650 €) qui gagne en GDDR7. Voir RTX 5070.
Approfondissez avec nos duels détaillés des finalistes :