Accueil › Catalogue › Meilleur LLM sur RTX 3090 (24 GB) en 2026 — top occasion LLM

Meilleur LLM sur RTX 3090 (24 GB) en 2026 — top occasion LLM

La RTX 3090 (24 GB GDDR6X, 936 Go/s) est LE meilleur rapport perf/prix LLM en 2026. ~600-700 € en occasion, 24 Go pleine puissance, Qwen 32B Q5 fluide. Stack 2× pour 48 Go à ~1300 €.

Classement

🇨🇳 Qwen 3 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.

Pourquoi ce rang MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.

ollama run qwen3:30b-a3b

Sur RTX 3090

Q5_K_M

23 GB · 40 tok/s

🇺🇸 Granite 4.0 H-Small 32B-A9B

IBM · 32B paramètres · Apache 2.0 · 128 000 tokens ctx

Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.

Pourquoi ce rang Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.

ollama run granite4:small-h

Sur RTX 3090

Q5_K_M

23 GB · 30 tok/s

🇨🇳 Qwen 3 VL 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 262 144 tokens ctx

Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.

Pourquoi ce rang Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.

ollama run qwen3-vl:30b

Sur RTX 3090

Q5_K_M

23 GB · 40 tok/s

🇺🇸 Trinity Mini 26B-A3B

Arcee AI · 26B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.

Pourquoi ce rang MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.

ollama pull hf.co/arcee-ai/Trinity-Mini-26B-GGUF

Sur RTX 3090

Q5_K_M

18 GB · 40 tok/s

Kanana 2 30B-A3B Thinking

Kakao · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.

Pourquoi ce rang Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.

ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF

Sur RTX 3090

Q5_K_M

22 GB · 40 tok/s

🇨🇳 Qwen 3 Omni 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.

Pourquoi ce rang Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.

ollama run qwen3-omni:30b

Sur RTX 3090

Q5_K_M

23 GB · 40 tok/s

🇨🇳 LLaDA 2.0 Uni 16B

Ant Group / inclusionAI · 16B paramètres · Apache 2.0 · 8 192 tokens ctx

Premier dLLM open Apache 2.0 : MoE 16B/1B + décodeur diffusion 6.2B. Texte+vision unifié. Sortie 22 avril 2026.

Pourquoi ce rang Premier dLLM open Apache 2.0 : MoE 16B/1B + décodeur diffusion 6.2B. Texte+vision unifié. Sortie 22 avril 2026.

# HuggingFace : inclusionAI/LLaDA2.0-Uni (Flash Attn 2 + CUDA 12.4 requis)

Sur RTX 3090

Q5_K_M

22 GB · 60 tok/s

🇨🇳 DeepSeek R1 Distill 32B

DeepSeek · 32B paramètres · MIT · 32 768 tokens ctx

Le meilleur raisonneur open-weight accessible.

Pourquoi ce rang Le meilleur raisonneur open-weight accessible.

ollama run deepseek-r1:32b

Sur RTX 3090

Q5_K_M

23 GB · 12 tok/s

Tableau comparatif

Rang	Modèle	Params	VRAM Q4	Contexte	Licence	Sur RTX 3090
#1	Qwen 3 30B-A3B	30B	19 GB	131 072	Apache 2.0	40 tok/s · Q5_K_M
#2	Granite 4.0 H-Small 32B-A9B	32B	19 GB	128 000	Apache 2.0	30 tok/s · Q5_K_M
#3	Qwen 3 VL 30B-A3B	30B	19 GB	262 144	Apache 2.0	40 tok/s · Q5_K_M
#4	Trinity Mini 26B-A3B	26B	15 GB	131 072	Apache 2.0	40 tok/s · Q5_K_M
#5	Kanana 2 30B-A3B Thinking	30B	18 GB	131 072	Apache 2.0	40 tok/s · Q5_K_M
#6	Qwen 3 Omni 30B-A3B	30B	19 GB	131 072	Apache 2.0	40 tok/s · Q5_K_M
#7	LLaDA 2.0 Uni 16B	16B	18 GB	8 192	Apache 2.0	60 tok/s · Q5_K_M
#8	DeepSeek R1 Distill 32B	32B	19 GB	32 768	MIT	12 tok/s · Q5_K_M

Méthodologie du classement

Filtre : Q4_K_M ≤ 22 Go. Bonus 13-32B (peak 24 Go). 936 Go/s GDDR6X = solid Ampere.

Critères pris en compte :

Q4_K_M ≤ 22 Go
Top occasion LLM 2026
Qwen 3 32B Q5 fluide
Fine-tuning LoRA 7-13B

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

Pourquoi 3090 = top LLM occasion 2026 ?

24 Go VRAM (= 4090 et 3090 Ti) à ~600-700 €. La 4070 Ti Super neuve ~900 € pour 16 Go. 3090 reste imbattable en €/GB VRAM pour LLM. Voir guide complet.

3090 vs 4090 : qui prendre en 2026 ?

4090 ~2× plus rapide mais ~1500 € neuf vs 3090 ~650 € occasion. Si budget OK, 4090. Si rationnel, 3090. Voir RTX 4090.

Stack 2× 3090 pour Llama 70B ?

Oui — 48 Go total à ~1300 € occasion. Llama 70B Q4_K_M (~40 Go) tient avec tensor parallelism (vLLM, llama.cpp -tp 2). ~25-35 tok/s. Difficile à battre en €/perf 70B local.

Quel modèle sweet spot sur 3090 ?

Qwen 3 32B Q5 (~22 Go) à 22-28 tok/s ou Mistral Small 24B Q6 (~18 Go) à 30-35 tok/s. Pour code, Qwen 2.5 Coder 32B Q4 (~17 Go). Voir classement code.

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Meilleur LLM sur RTX 3090 (24 GB) en 2026 — top occasion LLM

Classement

Tableau comparatif

Méthodologie du classement

Questions fréquentes

Comparatifs en tête-à-tête

Pour aller plus loin