Accueil › Catalogue › Meilleur LLM sur RTX 5090 (32 GB) en 2026

Meilleur LLM sur RTX 5090 (32 GB) en 2026

La RTX 5090 (Blackwell, 32 GB GDDR7, 1792 Go/s) est le premier GPU consumer à dépasser les 24 Go. Llama 70B Q4_K_M tient avec 12 Go de marge pour le contexte. Référence absolue local 2026.

Classement

🇺🇸 Granite 4.0 H-Small 32B-A9B

IBM · 32B paramètres · Apache 2.0 · 128 000 tokens ctx

Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.

Pourquoi ce rang Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.

ollama run granite4:small-h

Sur RTX 5090

Q5_K_M

23 GB · 75 tok/s

🇺🇸 Nemotron 3 Nano Omni 30B-A3B

NVIDIA · 30B paramètres · NVIDIA Open Model License · 256 000 tokens ctx

Omnimodal MoE 30B/3B actifs : texte+image+audio+vidéo, 256k ctx, hybrid Mamba2-MoE, 9× throughput vs concurrents. Sortie 28 avril 2026.

Pourquoi ce rang Omnimodal MoE 30B/3B actifs : texte+image+audio+vidéo, 256k ctx, hybrid Mamba2-MoE, 9× throughput vs concurrents. Sortie 28 avril 2026.

# HuggingFace : nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16

Sur RTX 5090

Q5_K_M

25 GB · 100 tok/s

Tableau comparatif

Rang	Modèle	Params	VRAM Q4	Contexte	Licence	Sur RTX 5090
#1	Qwen 3 30B-A3B	30B	19 GB	131 072	Apache 2.0	100 tok/s · Q5_K_M
#2	Granite 4.0 H-Small 32B-A9B	32B	19 GB	128 000	Apache 2.0	75 tok/s · Q5_K_M
#3	Qwen 3 VL 30B-A3B	30B	19 GB	262 144	Apache 2.0	100 tok/s · Q5_K_M
#4	Kanana 2 30B-A3B Thinking	30B	18 GB	131 072	Apache 2.0	100 tok/s · Q5_K_M
#5	Qwen 3 Omni 30B-A3B	30B	19 GB	131 072	Apache 2.0	100 tok/s · Q5_K_M
#6	Nemotron Nano 3 30B-A3B	30B	19 GB	1 000 000	NVIDIA Open Model License	100 tok/s · Q5_K_M
#7	Nemotron 3 Nano Omni 30B-A3B	30B	21 GB	256 000	NVIDIA Open Model License	100 tok/s · Q5_K_M
#8	Nemotron Cascade 2 30B-A3B	30B	17 GB	128 000	NVIDIA Open Model License	80 tok/s · Q8

Méthodologie du classement

Filtre : modèles dont Q4_K_M tient sous 30 Go (laisse 2 Go contexte). Bonus 30-70B (peak 5090) et MoE 100B (32 Go débloque DBRX, Mixtral 8x22B). 1792 Go/s = throughput record consumer.

Critères pris en compte :

Q4_K_M ≤ 30 Go
Exploite bande passante 1792 Go/s
70B Q4/Q5 fluide
MoE 100B accessible

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

RTX 5090 32 Go : Llama 70B fluide ?

Oui — Llama 3.3 70B Q4_K_M (~40 Go) NE TIENT PAS seul ; Q3_K_M (~30 Go) tient à 35-45 tok/s. Q5_K_M (~48 Go) nécessite offload partiel CPU. Pour 70B Q4 sans compromis, viser 2× RTX 4090/5090 ou Mac Studio 96+ Go.

RTX 5090 vs 2× RTX 4090 ?

5090 = 32 Go monolithique + 1792 Go/s. 2× 4090 = 48 Go (split) + 1008 Go/s par carte. Pour 70B Q4 (~40 Go), 2× 4090 gagne. Pour 30-32B Q5 + contexte long, 5090 plus simple (pas de split overhead). Voir RTX 4090.

Quelle quantif optimale sur 5090 ?

Q5_K_M pour 30B (~22 Go) ou Q4 pour 70B (~40 Go offload partiel). Q8 pour 13-14B (Qwen 3 14B ~15 Go) en qualité max. Q6_K excellent compromis 32B (~25 Go).

MoE sur RTX 5090 ?

Excellent : Mixtral 8x22B Q4 (~80 Go) ne tient pas mais 8x7B Q4 (~28 Go) tourne à 80+ tok/s. Qwen 3 30B-A3B Q8 (~32 Go) fluide aussi. Voir classement agents/MoE.

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Meilleur LLM sur RTX 5090 (32 GB) en 2026

Classement

🇨🇳 Qwen 3 30B-A3B

🇺🇸 Granite 4.0 H-Small 32B-A9B

🇨🇳 Qwen 3 VL 30B-A3B

Kanana 2 30B-A3B Thinking

🇨🇳 Qwen 3 Omni 30B-A3B

🇺🇸 Nemotron Nano 3 30B-A3B

🇺🇸 Nemotron 3 Nano Omni 30B-A3B

🇺🇸 Nemotron Cascade 2 30B-A3B

Tableau comparatif

Méthodologie du classement

Questions fréquentes

Comparatifs en tête-à-tête

Pour aller plus loin