QuelLLMFR Analyser ma config →
Accueil Catalogue Meilleur LLM sur RTX 3090 (24 GB) en 2026 — top occasion LLM

Meilleur LLM sur RTX 3090 (24 GB) en 2026 — top occasion LLM

La RTX 3090 (24 GB GDDR6X, 936 Go/s) est LE meilleur rapport perf/prix LLM en 2026. ~600-700 € en occasion, 24 Go pleine puissance, Qwen 32B Q5 fluide. Stack 2× pour 48 Go à ~1300 €.

Classement

1

🇨🇳 Qwen 3 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.

Pourquoi ce rang MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
Sur RTX 3090
Q5_K_M
23 GB · 40 tok/s
2

🇺🇸 Granite 4.0 H-Small 32B-A9B

IBM · 32B paramètres · Apache 2.0 · 128 000 tokens ctx

Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.

Pourquoi ce rang Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.
ollama run granite4:small-h
Sur RTX 3090
Q5_K_M
23 GB · 30 tok/s
3

🇨🇳 Qwen 3 VL 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 262 144 tokens ctx

Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.

Pourquoi ce rang Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.
ollama run qwen3-vl:30b
Sur RTX 3090
Q5_K_M
23 GB · 40 tok/s
4

🇺🇸 Trinity Mini 26B-A3B

Arcee AI · 26B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.

Pourquoi ce rang MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.
ollama pull hf.co/arcee-ai/Trinity-Mini-26B-GGUF
Sur RTX 3090
Q5_K_M
18 GB · 40 tok/s
5

Kanana 2 30B-A3B Thinking

Kakao · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.

Pourquoi ce rang Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.
ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF
Sur RTX 3090
Q5_K_M
22 GB · 40 tok/s
6

🇨🇳 Qwen 3 Omni 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.

Pourquoi ce rang Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.
ollama run qwen3-omni:30b
Sur RTX 3090
Q5_K_M
23 GB · 40 tok/s
7

🇨🇳 LLaDA 2.0 Uni 16B

Ant Group / inclusionAI · 16B paramètres · Apache 2.0 · 8 192 tokens ctx

Premier dLLM open Apache 2.0 : MoE 16B/1B + décodeur diffusion 6.2B. Texte+vision unifié. Sortie 22 avril 2026.

Pourquoi ce rang Premier dLLM open Apache 2.0 : MoE 16B/1B + décodeur diffusion 6.2B. Texte+vision unifié. Sortie 22 avril 2026.
# HuggingFace : inclusionAI/LLaDA2.0-Uni (Flash Attn 2 + CUDA 12.4 requis)
Sur RTX 3090
Q5_K_M
22 GB · 60 tok/s
8

🇨🇳 DeepSeek R1 Distill 32B

DeepSeek · 32B paramètres · MIT · 32 768 tokens ctx

Le meilleur raisonneur open-weight accessible.

Pourquoi ce rang Le meilleur raisonneur open-weight accessible.
ollama run deepseek-r1:32b
Sur RTX 3090
Q5_K_M
23 GB · 12 tok/s

Tableau comparatif

Rang Modèle Params VRAM Q4 Contexte Licence Sur RTX 3090
#1 Qwen 3 30B-A3B 30B 19 GB 131 072 Apache 2.0 40 tok/s · Q5_K_M
#2 Granite 4.0 H-Small 32B-A9B 32B 19 GB 128 000 Apache 2.0 30 tok/s · Q5_K_M
#3 Qwen 3 VL 30B-A3B 30B 19 GB 262 144 Apache 2.0 40 tok/s · Q5_K_M
#4 Trinity Mini 26B-A3B 26B 15 GB 131 072 Apache 2.0 40 tok/s · Q5_K_M
#5 Kanana 2 30B-A3B Thinking 30B 18 GB 131 072 Apache 2.0 40 tok/s · Q5_K_M
#6 Qwen 3 Omni 30B-A3B 30B 19 GB 131 072 Apache 2.0 40 tok/s · Q5_K_M
#7 LLaDA 2.0 Uni 16B 16B 18 GB 8 192 Apache 2.0 60 tok/s · Q5_K_M
#8 DeepSeek R1 Distill 32B 32B 19 GB 32 768 MIT 12 tok/s · Q5_K_M

Méthodologie du classement

Filtre : Q4_K_M ≤ 22 Go. Bonus 13-32B (peak 24 Go). 936 Go/s GDDR6X = solid Ampere.

Critères pris en compte :

  • Q4_K_M ≤ 22 Go
  • Top occasion LLM 2026
  • Qwen 3 32B Q5 fluide
  • Fine-tuning LoRA 7-13B

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

Pourquoi 3090 = top LLM occasion 2026 ?

24 Go VRAM (= 4090 et 3090 Ti) à ~600-700 €. La 4070 Ti Super neuve ~900 € pour 16 Go. 3090 reste imbattable en €/GB VRAM pour LLM. Voir guide complet.

3090 vs 4090 : qui prendre en 2026 ?

4090 ~2× plus rapide mais ~1500 € neuf vs 3090 ~650 € occasion. Si budget OK, 4090. Si rationnel, 3090. Voir RTX 4090.

Stack 2× 3090 pour Llama 70B ?

Oui — 48 Go total à ~1300 € occasion. Llama 70B Q4_K_M (~40 Go) tient avec tensor parallelism (vLLM, llama.cpp -tp 2). ~25-35 tok/s. Difficile à battre en €/perf 70B local.

Quel modèle sweet spot sur 3090 ?

Qwen 3 32B Q5 (~22 Go) à 22-28 tok/s ou Mistral Small 24B Q6 (~18 Go) à 30-35 tok/s. Pour code, Qwen 2.5 Coder 32B Q4 (~17 Go). Voir classement code.

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Pour aller plus loin