🇨🇳 Qwen 3 30B-A3B
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
Classement des LLM les plus adaptés au RAG : fenêtre de contexte longue (≥ 32k tokens pour digérer plusieurs documents), qualité de synthèse sur sources fournies, robustesse aux « distractor » (infos non pertinentes dans le prompt).
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.
ollama run granite4:small-h
Dense 32B avec thinking mode. MMLU-Pro 65.5, SuperGPQA 39.8.
ollama run qwen3:32b
Small 3 enrichi de la vision. 128k ctx, Apache 2.0. Small 3.2 (Juin 2025) disponible en update.
ollama run mistral-small3.1:24b
Update Juin 2025 de Small 3.1. Moitié moins de générations infinies, function calling amélioré.
ollama run mistral-small3.2:24b
Dense 32B 100% ouvert. Variantes Think et Instruct. Le modèle souveraineté des chercheurs.
ollama run olmo-3:32b
Dense 14B avec hybrid thinking. Égale Qwen 2.5 32B Base sur STEM/code.
ollama run qwen3:14b
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence |
|---|---|---|---|---|---|
| #1 | Qwen 3 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 |
| #2 | Granite 4.0 H-Small 32B-A9B | 32B | 19 GB | 128 000 | Apache 2.0 |
| #3 | Qwen 3 32B | 32B | 19 GB | 131 072 | Apache 2.0 |
| #4 | Mistral Small 3.1 24B | 24B | 14 GB | 128 000 | Apache 2.0 |
| #5 | Mistral Small 3.2 24B | 24B | 14 GB | 128 000 | Apache 2.0 |
| #6 | OLMo 3 32B | 32B | 19 GB | 65 536 | Apache 2.0 |
| #7 | Qwen 3 14B | 14B | 9 GB | 131 072 | Apache 2.0 |
On garde les modèles chat/général avec un contexte d'au moins 32k tokens (requis pour une chunking utile). Le score favorise les modèles récents, à grande fenêtre, et à licence permissive (déploiement en entreprise).
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
Quelle taille de contexte pour un bon RAG ?
Minimum 32k tokens pour gérer 5-10 chunks de ~2k tokens + prompt. Idéal : 128k tokens (Qwen 3 30B-A3B en a 131 072), pour encaisser des documents entiers sans chunking agressif.
Quel modèle pour RAG sur 24 GB VRAM (RTX 4090) ?
Mistral Small 3.1 24B en Q4_K_M ou Qwen 2.5 32B en Q4 tiennent dans 24 GB. Pour Llama 3.3 70B il faut descendre en Q2/Q3 ou ajouter une seconde carte.
Quel embedding coupler avec ces LLM ?
Pour du français : BGE-M3, multilingual-e5-large, ou les embeddings Mistral. Voir le guide embeddings FR.
Quel stack RAG local recommandé ?
Ollama (serveur LLM) + ChromaDB ou Qdrant (vector store) + LlamaIndex ou LangChain (orchestration). Voir le guide complet.
Approfondissez avec nos duels détaillés des finalistes :