Accueil › Catalogue › Meilleur LLM sur RTX 3090 Ti (24 GB) en 2026

Meilleur LLM sur RTX 3090 Ti (24 GB) en 2026

La RTX 3090 Ti (24 GB GDDR6X, 1008 Go/s) est le flagship Ampere. 24 Go + 1 To/s de bande passante = mêmes capacités VRAM qu'une 4090 à 60 % du prix neuf, ~700 € en occasion.

Classement

🇨🇳 Qwen 3 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.

Pourquoi ce rang MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.

ollama run qwen3:30b-a3b

Sur RTX 3090 Ti

Q5_K_M

23 GB · 40 tok/s

🇺🇸 Granite 4.0 H-Small 32B-A9B

IBM · 32B paramètres · Apache 2.0 · 128 000 tokens ctx

Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.

Pourquoi ce rang Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.

ollama run granite4:small-h

Sur RTX 3090 Ti

Q5_K_M

23 GB · 30 tok/s

🇨🇳 Qwen 3 VL 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 262 144 tokens ctx

Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.

Pourquoi ce rang Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.

ollama run qwen3-vl:30b

Sur RTX 3090 Ti

Q5_K_M

23 GB · 40 tok/s

🇺🇸 Trinity Mini 26B-A3B

Arcee AI · 26B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.

Pourquoi ce rang MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.

ollama pull hf.co/arcee-ai/Trinity-Mini-26B-GGUF

Sur RTX 3090 Ti

Q5_K_M

18 GB · 40 tok/s

Kanana 2 30B-A3B Thinking

Kakao · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.

Pourquoi ce rang Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.

ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF

Sur RTX 3090 Ti

Q5_K_M

22 GB · 40 tok/s

🇨🇳 Qwen 3 Omni 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.

Pourquoi ce rang Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.

ollama run qwen3-omni:30b

Sur RTX 3090 Ti

Q5_K_M

23 GB · 40 tok/s

🇨🇳 LLaDA 2.0 Uni 16B

Ant Group / inclusionAI · 16B paramètres · Apache 2.0 · 8 192 tokens ctx

Premier dLLM open Apache 2.0 : MoE 16B/1B + décodeur diffusion 6.2B. Texte+vision unifié. Sortie 22 avril 2026.

Pourquoi ce rang Premier dLLM open Apache 2.0 : MoE 16B/1B + décodeur diffusion 6.2B. Texte+vision unifié. Sortie 22 avril 2026.

# HuggingFace : inclusionAI/LLaDA2.0-Uni (Flash Attn 2 + CUDA 12.4 requis)

Sur RTX 3090 Ti

Q5_K_M

22 GB · 60 tok/s

🇨🇳 DeepSeek R1 Distill 32B

DeepSeek · 32B paramètres · MIT · 32 768 tokens ctx

Le meilleur raisonneur open-weight accessible.

Pourquoi ce rang Le meilleur raisonneur open-weight accessible.

ollama run deepseek-r1:32b

Sur RTX 3090 Ti

Q5_K_M

23 GB · 12 tok/s

Tableau comparatif

Rang	Modèle	Params	VRAM Q4	Contexte	Licence	Sur RTX 3090 Ti
#1	Qwen 3 30B-A3B	30B	19 GB	131 072	Apache 2.0	40 tok/s · Q5_K_M
#2	Granite 4.0 H-Small 32B-A9B	32B	19 GB	128 000	Apache 2.0	30 tok/s · Q5_K_M
#3	Qwen 3 VL 30B-A3B	30B	19 GB	262 144	Apache 2.0	40 tok/s · Q5_K_M
#4	Trinity Mini 26B-A3B	26B	15 GB	131 072	Apache 2.0	40 tok/s · Q5_K_M
#5	Kanana 2 30B-A3B Thinking	30B	18 GB	131 072	Apache 2.0	40 tok/s · Q5_K_M
#6	Qwen 3 Omni 30B-A3B	30B	19 GB	131 072	Apache 2.0	40 tok/s · Q5_K_M
#7	LLaDA 2.0 Uni 16B	16B	18 GB	8 192	Apache 2.0	60 tok/s · Q5_K_M
#8	DeepSeek R1 Distill 32B	32B	19 GB	32 768	MIT	12 tok/s · Q5_K_M

Méthodologie du classement

Filtre : Q4_K_M ≤ 22 Go. Bonus 13-32B (peak 24 Go) et 7-32B. Bande passante 1008 Go/s record Ampere.

Critères pris en compte :

Q4_K_M ≤ 22 Go
Qwen 3 32B Q5 confortable
Fine-tuning LoRA 7-13B
24 Go + 1 To/s

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

RTX 3090 Ti vs 3090 ?

Même 24 Go. 3090 Ti = +7 % CUDA cores + GDDR6X 1008 Go/s vs 3090 GDDR6X 936 Go/s. Différence ~5-8 % pour LLM. 3090 souvent meilleure affaire occasion. Voir RTX 3090.

3090 Ti vs 4090 ?

Même 24 Go. 4090 = 1008 Go/s aussi + 16384 CUDA cores vs 10752 sur 3090 Ti. ~40-50 % plus rapide pour LLM. Si neuf, 4090. En occasion ~700 € vs ~1100 €, 3090 Ti excellente. Voir RTX 4090.

Llama 70B sur 3090 Ti ?

Q3_K_M (~32 Go) ne tient pas seul. Q2_K (~24 Go) tient juste mais qualité dégradée. Pour 70B confort, 2× 3090 Ti ou RTX 5090 32 Go. Voir RTX 5090.

Setup 2× 3090 Ti d'occasion ?

Excellent : 48 Go VRAM split à ~1400 € total. Llama 70B Q4 (~40 Go) tient avec ~30 tok/s via tensor parallelism. Difficile à battre rapport qualité/prix LLM 2026.

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Meilleur LLM sur RTX 3090 Ti (24 GB) en 2026

Classement

Tableau comparatif

Méthodologie du classement

Questions fréquentes

Comparatifs en tête-à-tête

Pour aller plus loin