Accueil › Catalogue › Meilleur LLM local pour RAG en 2026

Meilleur LLM local pour RAG en 2026

Q: Quel modèle pour RAG sur 24 GB VRAM (RTX 4090) ?

Mistral Small 3.1 24B en Q4_K_M ou Qwen 2.5 32B en Q4 tiennent dans 24 GB. Pour Llama 3.3 70B il faut descendre en Q2/Q3 ou ajouter une seconde carte.

Q: Quel embedding coupler avec ces LLM ?

Pour du français : BGE-M3, multilingual-e5-large, ou les embeddings Mistral. Voir le guide embeddings FR.

Q: Quel stack RAG local recommandé ?

Ollama (serveur LLM) + ChromaDB ou Qdrant (vector store) + LlamaIndex ou LangChain (orchestration). Voir le guide complet.

Classement des LLM les plus adaptés au RAG : fenêtre de contexte longue (≥ 32k tokens pour digérer plusieurs documents), qualité de synthèse sur sources fournies, robustesse aux « distractor » (infos non pertinentes dans le prompt).

Classement

🇨🇳 Qwen 3 VL 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 262 144 tokens ctx

Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.

Pourquoi ce rang Contexte de 262 144 tokens — excellent pour gros corpus. 30B paramètres pour une synthèse de qualité.

ollama run qwen3-vl:30b

VRAM Q4

19 GB

35 GB en Q8

🇺🇸 Nemotron Nano 3 30B-A3B

NVIDIA · 30B paramètres · NVIDIA Open Model License · 1 000 000 tokens ctx

Hybride Mamba-2 + Transformer MoE 30B/3B actifs. 1M ctx. 4× throughput vs Nemotron 2.

Pourquoi ce rang Contexte de 1 000 000 tokens — excellent pour gros corpus. 30B paramètres pour une synthèse de qualité.

ollama run nemotron3:30b

VRAM Q4

19 GB

35 GB en Q8

🇨🇳 Qwen 3 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.

Pourquoi ce rang Contexte de 131 072 tokens — excellent pour gros corpus. 30B paramètres pour une synthèse de qualité.

ollama run qwen3:30b-a3b

VRAM Q4

19 GB

35 GB en Q8

🇺🇸 Trinity Mini 26B-A3B

Arcee AI · 26B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.

Pourquoi ce rang Contexte de 131 072 tokens — excellent pour gros corpus. 26B paramètres pour une synthèse de qualité.

ollama pull hf.co/arcee-ai/Trinity-Mini-26B-GGUF

VRAM Q4

15 GB

28 GB en Q8

Kanana 2 30B-A3B Thinking

Kakao · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.

Pourquoi ce rang Contexte de 131 072 tokens — excellent pour gros corpus. 30B paramètres pour une synthèse de qualité.

ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF

VRAM Q4

18 GB

33 GB en Q8

🇨🇳 Qwen 3 Omni 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.

Pourquoi ce rang Contexte de 131 072 tokens — excellent pour gros corpus. 30B paramètres pour une synthèse de qualité.

ollama run qwen3-omni:30b

VRAM Q4

19 GB

35 GB en Q8

🇺🇸 Granite 4.0 H-Small 32B-A9B

IBM · 32B paramètres · Apache 2.0 · 128 000 tokens ctx

Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.

Pourquoi ce rang Contexte de 128 000 tokens — excellent pour gros corpus. 32B paramètres pour une synthèse de qualité.

ollama run granite4:small-h

VRAM Q4

19 GB

35 GB en Q8

Tableau comparatif

Rang	Modèle	Params	VRAM Q4	Contexte	Licence
#1	Qwen 3 VL 30B-A3B	30B	19 GB	262 144	Apache 2.0
#2	Nemotron Nano 3 30B-A3B	30B	19 GB	1 000 000	NVIDIA Open Model License
#3	Qwen 3 30B-A3B	30B	19 GB	131 072	Apache 2.0
#4	Trinity Mini 26B-A3B	26B	15 GB	131 072	Apache 2.0
#5	Kanana 2 30B-A3B Thinking	30B	18 GB	131 072	Apache 2.0
#6	Qwen 3 Omni 30B-A3B	30B	19 GB	131 072	Apache 2.0
#7	Granite 4.0 H-Small 32B-A9B	32B	19 GB	128 000	Apache 2.0

Méthodologie du classement

On garde les modèles chat/général avec un contexte d'au moins 32k tokens (requis pour une chunking utile). Le score favorise les modèles récents, à grande fenêtre, et à licence permissive (déploiement en entreprise).

Critères pris en compte :

Contexte ≥ 32k tokens
Qualité de synthèse
Robustesse aux distracteurs
Licence libre

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

Quelle taille de contexte pour un bon RAG ?

Minimum 32k tokens pour gérer 5-10 chunks de ~2k tokens + prompt. Idéal : 128k tokens (Qwen 3 VL 30B-A3B en a 262 144), pour encaisser des documents entiers sans chunking agressif.

Quel modèle pour RAG sur 24 GB VRAM (RTX 4090) ?

Mistral Small 3.1 24B en Q4_K_M ou Qwen 2.5 32B en Q4 tiennent dans 24 GB. Pour Llama 3.3 70B il faut descendre en Q2/Q3 ou ajouter une seconde carte.

Quel embedding coupler avec ces LLM ?

Pour du français : BGE-M3, multilingual-e5-large, ou les embeddings Mistral. Voir le guide embeddings FR.

Quel stack RAG local recommandé ?

Ollama (serveur LLM) + ChromaDB ou Qdrant (vector store) + LlamaIndex ou LangChain (orchestration). Voir le guide complet.

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Meilleur LLM local pour RAG en 2026

Classement

🇨🇳 Qwen 3 VL 30B-A3B

🇺🇸 Nemotron Nano 3 30B-A3B

🇨🇳 Qwen 3 30B-A3B

🇺🇸 Trinity Mini 26B-A3B

Kanana 2 30B-A3B Thinking

🇨🇳 Qwen 3 Omni 30B-A3B

🇺🇸 Granite 4.0 H-Small 32B-A9B

Tableau comparatif

Méthodologie du classement

Questions fréquentes

Comparatifs en tête-à-tête

Pour aller plus loin