QuelLLMFR Analyser ma config →
Accueil Catalogue Meilleur LLM local pour RAG en 2026

Meilleur LLM local pour RAG en 2026

Classement des LLM les plus adaptés au RAG : fenêtre de contexte longue (≥ 32k tokens pour digérer plusieurs documents), qualité de synthèse sur sources fournies, robustesse aux « distractor » (infos non pertinentes dans le prompt).

Classement

1

🇨🇳 Qwen 3 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.

Pourquoi ce rang Contexte de 131 072 tokens — excellent pour gros corpus. 30B paramètres pour une synthèse de qualité.
ollama run qwen3:30b-a3b
VRAM Q4
19 GB
35 GB en Q8
2

🇺🇸 Granite 4.0 H-Small 32B-A9B

IBM · 32B paramètres · Apache 2.0 · 128 000 tokens ctx

Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.

Pourquoi ce rang Contexte de 128 000 tokens — excellent pour gros corpus. 32B paramètres pour une synthèse de qualité.
ollama run granite4:small-h
VRAM Q4
19 GB
35 GB en Q8
3

🇨🇳 Qwen 3 32B

Alibaba · 32B paramètres · Apache 2.0 · 131 072 tokens ctx

Dense 32B avec thinking mode. MMLU-Pro 65.5, SuperGPQA 39.8.

Pourquoi ce rang Contexte de 131 072 tokens — excellent pour gros corpus. 32B paramètres pour une synthèse de qualité.
ollama run qwen3:32b
VRAM Q4
19 GB
35 GB en Q8
4

🇫🇷 Mistral Small 3.1 24B

Mistral AI · 24B paramètres · Apache 2.0 · 128 000 tokens ctx

Small 3 enrichi de la vision. 128k ctx, Apache 2.0. Small 3.2 (Juin 2025) disponible en update.

Pourquoi ce rang Contexte de 128 000 tokens — excellent pour gros corpus. 24B paramètres pour une synthèse de qualité.
ollama run mistral-small3.1:24b
VRAM Q4
14 GB
26 GB en Q8
5

🇫🇷 Mistral Small 3.2 24B

Mistral AI · 24B paramètres · Apache 2.0 · 128 000 tokens ctx

Update Juin 2025 de Small 3.1. Moitié moins de générations infinies, function calling amélioré.

Pourquoi ce rang Contexte de 128 000 tokens — excellent pour gros corpus. 24B paramètres pour une synthèse de qualité.
ollama run mistral-small3.2:24b
VRAM Q4
14 GB
26 GB en Q8
6

🇺🇸 OLMo 3 32B

Allen AI · 32B paramètres · Apache 2.0 · 65 536 tokens ctx

Dense 32B 100% ouvert. Variantes Think et Instruct. Le modèle souveraineté des chercheurs.

Pourquoi ce rang Contexte de 65 536 tokens — suffisant pour RAG standard. 32B paramètres pour une synthèse de qualité.
ollama run olmo-3:32b
VRAM Q4
19 GB
35 GB en Q8
7

🇨🇳 Qwen 3 14B

Alibaba · 14B paramètres · Apache 2.0 · 131 072 tokens ctx

Dense 14B avec hybrid thinking. Égale Qwen 2.5 32B Base sur STEM/code.

Pourquoi ce rang Contexte de 131 072 tokens — excellent pour gros corpus. 14B paramètres pour une synthèse de qualité.
ollama run qwen3:14b
VRAM Q4
9 GB
16 GB en Q8

Tableau comparatif

Rang Modèle Params VRAM Q4 Contexte Licence
#1 Qwen 3 30B-A3B 30B 19 GB 131 072 Apache 2.0
#2 Granite 4.0 H-Small 32B-A9B 32B 19 GB 128 000 Apache 2.0
#3 Qwen 3 32B 32B 19 GB 131 072 Apache 2.0
#4 Mistral Small 3.1 24B 24B 14 GB 128 000 Apache 2.0
#5 Mistral Small 3.2 24B 24B 14 GB 128 000 Apache 2.0
#6 OLMo 3 32B 32B 19 GB 65 536 Apache 2.0
#7 Qwen 3 14B 14B 9 GB 131 072 Apache 2.0

Méthodologie du classement

On garde les modèles chat/général avec un contexte d'au moins 32k tokens (requis pour une chunking utile). Le score favorise les modèles récents, à grande fenêtre, et à licence permissive (déploiement en entreprise).

Critères pris en compte :

  • Contexte ≥ 32k tokens
  • Qualité de synthèse
  • Robustesse aux distracteurs
  • Licence libre

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

Quelle taille de contexte pour un bon RAG ?

Minimum 32k tokens pour gérer 5-10 chunks de ~2k tokens + prompt. Idéal : 128k tokens (Qwen 3 30B-A3B en a 131 072), pour encaisser des documents entiers sans chunking agressif.

Quel modèle pour RAG sur 24 GB VRAM (RTX 4090) ?

Mistral Small 3.1 24B en Q4_K_M ou Qwen 2.5 32B en Q4 tiennent dans 24 GB. Pour Llama 3.3 70B il faut descendre en Q2/Q3 ou ajouter une seconde carte.

Quel embedding coupler avec ces LLM ?

Pour du français : BGE-M3, multilingual-e5-large, ou les embeddings Mistral. Voir le guide embeddings FR.

Quel stack RAG local recommandé ?

Ollama (serveur LLM) + ChromaDB ou Qdrant (vector store) + LlamaIndex ou LangChain (orchestration). Voir le guide complet.

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Pour aller plus loin