🇨🇳 Qwen 3 14B
Dense 14B avec hybrid thinking. Égale Qwen 2.5 32B Base sur STEM/code.
ollama run qwen3:14b
La RTX 3060 12 GB est la carte budget la plus populaire pour faire tourner des LLM en local. 12 GB de VRAM permettent des modèles 7-9B en Q4/Q5 avec fluidité. Voici les meilleurs choix.
Dense 14B avec hybrid thinking. Égale Qwen 2.5 32B Base sur STEM/code.
ollama run qwen3:14b
Raisonneur MIT 14B. Bat R1-Distill-Llama-70B sur AIME/GPQA avec 50× moins de paramètres.
ollama run phi4-reasoning:14b
R1 distillé Qwen 14B. AIME24 69.7, MATH-500 93.9. Dépasse o1-mini sur beaucoup de benchmarks.
ollama run deepseek-r1:14b
Codéveloppé avec NVIDIA. 128k ctx, Tekken tokenizer, fort en multilingue européen.
ollama run mistral-nemo:12b
Sweet spot multimodal. 128k ctx, vision, 140 langues.
ollama run gemma3:12b
Dense 14B Apache 2.0. MMLU 79.7, HumanEval 83.5. 29+ langues. Bon compromis.
ollama run qwen2.5:14b
Coder 14B. HumanEval 89.6, LiveCodeBench 37.1. Sweet spot VRAM pour code self-host.
ollama run qwen2.5-coder:14b
LLM souverain francophone, entraîné sur corpus FR.
ollama run lucie:7b
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur RTX 3060 12GB |
|---|---|---|---|---|---|---|
| #1 | Qwen 3 14B | 14B | 9 GB | 131 072 | Apache 2.0 | 6 tok/s · Q5_K_M |
| #2 | Phi-4 Reasoning 14B | 14B | 9 GB | 32 768 | MIT | 6 tok/s · Q5_K_M |
| #3 | DeepSeek R1 Distill Qwen 14B | 14B | 9 GB | 131 072 | MIT | 6 tok/s · Q5_K_M |
| #4 | Mistral Nemo 12B Instruct | 12B | 7 GB | 128 000 | Apache 2.0 | 8 tok/s · Q5_K_M |
| #5 | Gemma 3 12B | 12B | 7 GB | 128 000 | Gemma | 7 tok/s · Q5_K_M |
| #6 | Qwen 2.5 14B Instruct | 14B | 9 GB | 131 072 | Apache 2.0 | 6 tok/s · Q5_K_M |
| #7 | Qwen 2.5 Coder 14B Instruct | 14B | 9 GB | 131 072 | Apache 2.0 | 6 tok/s · Q5_K_M |
| #8 | Lucie 7B | 7B | 5 GB | 4 096 | Apache 2.0 | 12 tok/s · Q8 |
Filtre : modèles qui tiennent en Q4_K_M dans 12 GB. Bonus pour ceux qui utilisent au moins 40% de la VRAM — on évite de recommander un modèle trop petit qui sous-exploite la carte.
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
Peut-on faire du RAG sérieux sur RTX 3060 12 GB ?
Oui avec Llama 3.1 8B (contexte 128k) ou Qwen 2.5 7B (131k). En Q4, le modèle + contexte RAG de ~32k tient dans 12 GB. Pour du contexte > 100k, passez en Q4_0 ou limitez le batch.
RTX 3060 vs RX 6700 XT pour LLM ?
CUDA est beaucoup mieux supporté (Ollama, llama.cpp, vLLM tous optimisés). AMD marche via ROCm mais avec des setups plus complexes. Pour du LLM, NVIDIA reste le choix évident en 2026.
Quel Q choisir sur 12 GB ?
Q5_K_M pour un 7-8B (utilise ~7 GB, laisse de la marge pour un gros contexte). Q4_K_M pour un 12B (Mistral Nemo). Évitez Q3/Q2 — la dégradation est visible.
Peut-on tourner un 12B en temps réel ?
Oui — Mistral Nemo 12B en Q4_K_M (~7 GB) donne 10-15 tokens/sec sur 3060. Utilisable pour du chat, un peu lent pour de l'édition temps réel.
Approfondissez avec nos duels détaillés des finalistes :