🇨🇳 Qwen 3 30B-A3B
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
La RTX 3090 Ti (24 GB GDDR6X, 1008 Go/s) est le flagship Ampere. 24 Go + 1 To/s de bande passante = mêmes capacités VRAM qu'une 4090 à 60 % du prix neuf, ~700 € en occasion.
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
Hybride Mamba-2 + MoE 32B/9B actifs. ~70% de RAM en moins en long contexte. Apache 2.0.
ollama run granite4:small-h
Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.
ollama run qwen3-vl:30b
MoE 26B/3B actifs par labo US. Rapide grâce aux 3B actifs. Apache 2.0.
ollama pull hf.co/arcee-ai/Trinity-Mini-26B-GGUF
Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.
ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF
Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.
ollama run qwen3-omni:30b
Premier dLLM open Apache 2.0 : MoE 16B/1B + décodeur diffusion 6.2B. Texte+vision unifié. Sortie 22 avril 2026.
# HuggingFace : inclusionAI/LLaDA2.0-Uni (Flash Attn 2 + CUDA 12.4 requis)
Le meilleur raisonneur open-weight accessible.
ollama run deepseek-r1:32b
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence | Sur RTX 3090 Ti |
|---|---|---|---|---|---|---|
| #1 | Qwen 3 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 40 tok/s · Q5_K_M |
| #2 | Granite 4.0 H-Small 32B-A9B | 32B | 19 GB | 128 000 | Apache 2.0 | 30 tok/s · Q5_K_M |
| #3 | Qwen 3 VL 30B-A3B | 30B | 19 GB | 262 144 | Apache 2.0 | 40 tok/s · Q5_K_M |
| #4 | Trinity Mini 26B-A3B | 26B | 15 GB | 131 072 | Apache 2.0 | 40 tok/s · Q5_K_M |
| #5 | Kanana 2 30B-A3B Thinking | 30B | 18 GB | 131 072 | Apache 2.0 | 40 tok/s · Q5_K_M |
| #6 | Qwen 3 Omni 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 | 40 tok/s · Q5_K_M |
| #7 | LLaDA 2.0 Uni 16B | 16B | 18 GB | 8 192 | Apache 2.0 | 60 tok/s · Q5_K_M |
| #8 | DeepSeek R1 Distill 32B | 32B | 19 GB | 32 768 | MIT | 12 tok/s · Q5_K_M |
Filtre : Q4_K_M ≤ 22 Go. Bonus 13-32B (peak 24 Go) et 7-32B. Bande passante 1008 Go/s record Ampere.
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
RTX 3090 Ti vs 3090 ?
Même 24 Go. 3090 Ti = +7 % CUDA cores + GDDR6X 1008 Go/s vs 3090 GDDR6X 936 Go/s. Différence ~5-8 % pour LLM. 3090 souvent meilleure affaire occasion. Voir RTX 3090.
3090 Ti vs 4090 ?
Même 24 Go. 4090 = 1008 Go/s aussi + 16384 CUDA cores vs 10752 sur 3090 Ti. ~40-50 % plus rapide pour LLM. Si neuf, 4090. En occasion ~700 € vs ~1100 €, 3090 Ti excellente. Voir RTX 4090.
Llama 70B sur 3090 Ti ?
Q3_K_M (~32 Go) ne tient pas seul. Q2_K (~24 Go) tient juste mais qualité dégradée. Pour 70B confort, 2× 3090 Ti ou RTX 5090 32 Go. Voir RTX 5090.
Setup 2× 3090 Ti d'occasion ?
Excellent : 48 Go VRAM split à ~1400 € total. Llama 70B Q4 (~40 Go) tient avec ~30 tok/s via tensor parallelism. Difficile à battre rapport qualité/prix LLM 2026.
Approfondissez avec nos duels détaillés des finalistes :