QuelLLMFR Analyser ma config →
Accueil Catalogue Meilleur LLM sur RTX 3080 10 GB en 2026

Meilleur LLM sur RTX 3080 10 GB en 2026

La RTX 3080 10 GB (GDDR6X, 760 Go/s) reste très capable en 2026. 10 Go limitent les 13B en Q4 (~8 Go laisse peu de marge contexte) mais 7-9B Q5 et Mistral 7B FP16 tournent excellent.

Classement

1

🇨🇳 Qwen 2.5 VL 7B

Alibaba · 7B paramètres · Apache 2.0 · 128 000 tokens ctx

Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.

Pourquoi ce rang Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.
ollama run qwen2.5vl:7b
Sur RTX 3080 10GB
Q8
10 GB · 25 tok/s
2

🇨🇳 Qwen 2.5 Omni 7B

Alibaba · 7B paramètres · Apache 2.0 · 32 768 tokens ctx

Premier omni open : texte+image+audio+vidéo en entrée, texte+parole en sortie. Pas de tag Ollama officiel.

Pourquoi ce rang Premier omni open : texte+image+audio+vidéo en entrée, texte+parole en sortie. Pas de tag Ollama officiel.
# GGUF : ggml-org/Qwen2.5-Omni-7B-GGUF (pas d'Ollama officiel)
Sur RTX 3080 10GB
Q8
10 GB · 25 tok/s
3

🇨🇳 Qwen 3.5 9B

Alibaba · 9B paramètres · Apache 2.0 · 262 000 tokens ctx

Dense 9B nouvelle génération. 262k ctx, hybrid thinking amélioré.

Pourquoi ce rang Dense 9B nouvelle génération. 262k ctx, hybrid thinking amélioré.
ollama run qwen3.5:9b
Sur RTX 3080 10GB
Q8
10 GB · 28 tok/s
4

🇨🇳 Qwen 3 VL 8B

Alibaba · 8B paramètres · Apache 2.0 · 262 144 tokens ctx

Vision 8B dense Qwen 3. Meilleur petit VLM Qwen génération 3.

Pourquoi ce rang Vision 8B dense Qwen 3. Meilleur petit VLM Qwen génération 3.
ollama run qwen3-vl:8b
Sur RTX 3080 10GB
Q8
10 GB · 30 tok/s
5

Apertus 8B

Swiss AI · 8B paramètres · Apache 2.0 · 65 536 tokens ctx

Version compacte du 70B. 1000+ langues, entraîné sur supercalculateur suisse Alps.

Pourquoi ce rang Version compacte du 70B. 1000+ langues, entraîné sur supercalculateur suisse Alps.
ollama pull hf.co/swissai/Apertus-8B-GGUF
Sur RTX 3080 10GB
Q8
10 GB · 30 tok/s
6

🇨🇳 InternVL 3.5 8B

OpenGVLab · 8B paramètres · Apache 2.0 · 32 768 tokens ctx

VLM 8B SOTA sur MMMU parmi les open. Shanghai AI Lab. Apache 2.0.

Pourquoi ce rang VLM 8B SOTA sur MMMU parmi les open. Shanghai AI Lab. Apache 2.0.
ollama run internvl3.5:8b
Sur RTX 3080 10GB
Q8
10 GB · 30 tok/s
7

🇺🇸 Granite 4.0 H-Tiny 7B-A1B

IBM · 7B paramètres · Apache 2.0 · 128 000 tokens ctx

Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.

Pourquoi ce rang Hybride 7B/1B actifs. Coût compute extrêmement faible. Edge/embarqué.
ollama run granite4:tiny-h
Sur RTX 3080 10GB
Q8
7 GB · 180 tok/s

Tableau comparatif

Rang Modèle Params VRAM Q4 Contexte Licence Sur RTX 3080 10GB
#1 Qwen 2.5 VL 7B 7B 6 GB 128 000 Apache 2.0 25 tok/s · Q8
#2 Qwen 2.5 Omni 7B 7B 6 GB 32 768 Apache 2.0 25 tok/s · Q8
#3 Qwen 3.5 9B 9B 6 GB 262 000 Apache 2.0 28 tok/s · Q8
#4 Qwen 3 VL 8B 8B 6 GB 262 144 Apache 2.0 30 tok/s · Q8
#5 Apertus 8B 8B 6 GB 65 536 Apache 2.0 30 tok/s · Q8
#6 InternVL 3.5 8B 8B 6 GB 32 768 Apache 2.0 30 tok/s · Q8
#7 Granite 4.0 H-Tiny 7B-A1B 7B 4 GB 128 000 Apache 2.0 180 tok/s · Q8

Méthodologie du classement

Filtre : Q4_K_M ≤ 9 Go. Bonus 7-9B (peak 10 Go). 760 Go/s = solid.

Critères pris en compte :

  • Q4_K_M ≤ 9 Go
  • 10 Go limite douce
  • Mistral 7B FP16 ou Q8
  • GDDR6X 760 Go/s

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

RTX 3080 10 GB en 2026 : encore pertinent ?

Oui pour 7-9B en Q5/Q8 (Mistral 7B Q8 = ~7,5 Go) à 50+ tok/s. Pour 13-14B il faut Q4 et marge serrée. Voir guide.

3080 10 GB vs 4070 12 GB ?

3080 = 760 Go/s, 4070 = 504 Go/s. 3080 ~50 % plus rapide. Mais 4070 a 12 Go (Qwen 3 14B Q4 OK). Selon priorité speed vs VRAM. Voir RTX 4070.

Quelle quantif sur 3080 10 GB ?

Q8 pour 7B (qualité quasi-FP16, ~7,5 Go). Q5_K_M pour 8-9B (~6-7 Go). Évitez Q4 sauf si vous voulez tenter un 13B (~8 Go, marge fine).

Occasion 3080 10 GB : à quel prix ?

~350-400 € en France. Pour LLM, 3090 occasion (~650 €) reste meilleur si budget. Voir RTX 3090.

Pour aller plus loin