QuelLLMFR Analyser ma config →
Accueil Catalogue Meilleur LLM sur RTX 3090 Ti (24 GB) en 2026

Meilleur LLM sur RTX 3090 Ti (24 GB) en 2026

La RTX 3090 Ti (24 GB GDDR6X, 1008 Go/s) est le flagship Ampere. 24 Go + 1 To/s de bande passante = mêmes capacités VRAM qu'une 4090 à 60 % du prix neuf, ~700 € en occasion.

Classement

1

🇨🇳 Qwen 3 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.

Pourquoi ce rang MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
Sur RTX 3090 Ti
Q5_K_M
23 GB · 40 tok/s
2

🇺🇸 Granite 4.0 H-Small 32B-A9B

IBM · 32B paramètres · Apache 2.0 · 128 000 tokens ctx

Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.

Pourquoi ce rang Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.
ollama run granite4:small-h
Sur RTX 3090 Ti
Q5_K_M
23 GB · 30 tok/s
3

🇨🇳 Qwen 3 VL 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 262 144 tokens ctx

Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.

Pourquoi ce rang Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.
ollama run qwen3-vl:30b
Sur RTX 3090 Ti
Q5_K_M
23 GB · 40 tok/s
4

🇺🇸 Trinity Mini 26B-A3B

Arcee AI · 26B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.

Pourquoi ce rang MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.
ollama pull hf.co/arcee-ai/Trinity-Mini-26B-GGUF
Sur RTX 3090 Ti
Q5_K_M
18 GB · 40 tok/s
5

Kanana 2 30B-A3B Thinking

Kakao · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.

Pourquoi ce rang Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.
ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF
Sur RTX 3090 Ti
Q5_K_M
22 GB · 40 tok/s
6

🇨🇳 Qwen 3 Omni 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.

Pourquoi ce rang Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.
ollama run qwen3-omni:30b
Sur RTX 3090 Ti
Q5_K_M
23 GB · 40 tok/s
7

🇨🇳 LLaDA 2.0 Uni 16B

Ant Group / inclusionAI · 16B paramètres · Apache 2.0 · 8 192 tokens ctx

Premier dLLM open Apache 2.0 : MoE 16B/1B + décodeur diffusion 6.2B. Texte+vision unifié. Sortie 22 avril 2026.

Pourquoi ce rang Premier dLLM open Apache 2.0 : MoE 16B/1B + décodeur diffusion 6.2B. Texte+vision unifié. Sortie 22 avril 2026.
# HuggingFace : inclusionAI/LLaDA2.0-Uni (Flash Attn 2 + CUDA 12.4 requis)
Sur RTX 3090 Ti
Q5_K_M
22 GB · 60 tok/s
8

🇨🇳 DeepSeek R1 Distill 32B

DeepSeek · 32B paramètres · MIT · 32 768 tokens ctx

Le meilleur raisonneur open-weight accessible.

Pourquoi ce rang Le meilleur raisonneur open-weight accessible.
ollama run deepseek-r1:32b
Sur RTX 3090 Ti
Q5_K_M
23 GB · 12 tok/s

Tableau comparatif

Rang Modèle Params VRAM Q4 Contexte Licence Sur RTX 3090 Ti
#1 Qwen 3 30B-A3B 30B 19 GB 131 072 Apache 2.0 40 tok/s · Q5_K_M
#2 Granite 4.0 H-Small 32B-A9B 32B 19 GB 128 000 Apache 2.0 30 tok/s · Q5_K_M
#3 Qwen 3 VL 30B-A3B 30B 19 GB 262 144 Apache 2.0 40 tok/s · Q5_K_M
#4 Trinity Mini 26B-A3B 26B 15 GB 131 072 Apache 2.0 40 tok/s · Q5_K_M
#5 Kanana 2 30B-A3B Thinking 30B 18 GB 131 072 Apache 2.0 40 tok/s · Q5_K_M
#6 Qwen 3 Omni 30B-A3B 30B 19 GB 131 072 Apache 2.0 40 tok/s · Q5_K_M
#7 LLaDA 2.0 Uni 16B 16B 18 GB 8 192 Apache 2.0 60 tok/s · Q5_K_M
#8 DeepSeek R1 Distill 32B 32B 19 GB 32 768 MIT 12 tok/s · Q5_K_M

Méthodologie du classement

Filtre : Q4_K_M ≤ 22 Go. Bonus 13-32B (peak 24 Go) et 7-32B. Bande passante 1008 Go/s record Ampere.

Critères pris en compte :

  • Q4_K_M ≤ 22 Go
  • Qwen 3 32B Q5 confortable
  • Fine-tuning LoRA 7-13B
  • 24 Go + 1 To/s

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

RTX 3090 Ti vs 3090 ?

Même 24 Go. 3090 Ti = +7 % CUDA cores + GDDR6X 1008 Go/s vs 3090 GDDR6X 936 Go/s. Différence ~5-8 % pour LLM. 3090 souvent meilleure affaire occasion. Voir RTX 3090.

3090 Ti vs 4090 ?

Même 24 Go. 4090 = 1008 Go/s aussi + 16384 CUDA cores vs 10752 sur 3090 Ti. ~40-50 % plus rapide pour LLM. Si neuf, 4090. En occasion ~700 € vs ~1100 €, 3090 Ti excellente. Voir RTX 4090.

Llama 70B sur 3090 Ti ?

Q3_K_M (~32 Go) ne tient pas seul. Q2_K (~24 Go) tient juste mais qualité dégradée. Pour 70B confort, 2× 3090 Ti ou RTX 5090 32 Go. Voir RTX 5090.

Setup 2× 3090 Ti d'occasion ?

Excellent : 48 Go VRAM split à ~1400 € total. Llama 70B Q4 (~40 Go) tient avec ~30 tok/s via tensor parallelism. Difficile à battre rapport qualité/prix LLM 2026.

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Pour aller plus loin