Accueil Catalogue Meilleur LLM local avec vision en 2026

Meilleur LLM local avec vision en 2026

Classement des LLM open-weights capables d'analyser des images en entrée : OCR, description, VQA, analyse de graphiques, extraction de données à partir de captures d'écran. Tous auto-hébergeables.

Classement

1

🇨🇳 Qwen 3 VL 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 262 144 tokens ctx

Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.

Pourquoi ce rang Supporte les entrées image nativement. 30B paramètres pour une analyse fine.
ollama run qwen3-vl:30b
VRAM Q4
19 GB
35 GB en Q8
2

🇺🇸 Nemotron Nano v2 VL 12B

NVIDIA · 12.6B paramètres · NVIDIA Open Model License · 128 000 tokens ctx

VLM entreprise 12.6B. Strong DocVQA/ChartQA. Extraction documents pro.

Pourquoi ce rang Supporte les entrées image nativement. 12.6B paramètres pour une analyse correcte.
ollama run nemotron3-v2:12b
VRAM Q4
8 GB
14 GB en Q8
3

🇨🇳 Qwen 2.5 VL 7B

Alibaba · 7B paramètres · Apache 2.0 · 128 000 tokens ctx

Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.

Pourquoi ce rang Supporte les entrées image nativement. 7B paramètres pour une analyse correcte.
ollama run qwen2.5vl:7b
VRAM Q4
6 GB
10 GB en Q8
4

🇨🇳 Qwen 3 VL 8B

Alibaba · 8B paramètres · Apache 2.0 · 262 144 tokens ctx

Vision 8B dense Qwen 3. Meilleur petit VLM Qwen génération 3.

Pourquoi ce rang Supporte les entrées image nativement. 8B paramètres pour une analyse correcte.
ollama run qwen3-vl:8b
VRAM Q4
6 GB
10 GB en Q8
5

🇨🇳 Qwen 3 Omni 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.

Pourquoi ce rang Supporte les entrées image nativement. 30B paramètres pour une analyse fine.
ollama run qwen3-omni:30b
VRAM Q4
19 GB
35 GB en Q8
6

🇨🇳 LLaDA 2.0 Uni 16B

Ant Group / inclusionAI · 16B paramètres · Apache 2.0 · 8 192 tokens ctx

Premier dLLM open Apache 2.0 : MoE 16B/1B + décodeur diffusion 6.2B. Texte+vision unifié. Sortie 22 avril 2026.

Pourquoi ce rang Supporte les entrées image nativement. 16B paramètres pour une analyse correcte.
# HuggingFace : inclusionAI/LLaDA2.0-Uni (Flash Attn 2 + CUDA 12.4 requis)
VRAM Q4
18 GB
30 GB en Q8
7

🇫🇷 Mistral Small 3.1 24B

Mistral AI · 24B paramètres · Apache 2.0 · 128 000 tokens ctx

Small 3 enrichi de la vision. 128k ctx, Apache 2.0. Small 3.2 (Juin 2025) disponible en update.

Pourquoi ce rang Supporte les entrées image nativement. 24B paramètres pour une analyse correcte.
ollama run mistral-small3.1:24b
VRAM Q4
14 GB
26 GB en Q8

Tableau comparatif

Rang Modèle Params VRAM Q4 Contexte Licence
#1 Qwen 3 VL 30B-A3B 30B 19 GB 262 144 Apache 2.0
#2 Nemotron Nano v2 VL 12B 12.6B 8 GB 128 000 NVIDIA Open Model License
#3 Qwen 2.5 VL 7B 7B 6 GB 128 000 Apache 2.0
#4 Qwen 3 VL 8B 8B 6 GB 262 144 Apache 2.0
#5 Qwen 3 Omni 30B-A3B 30B 19 GB 131 072 Apache 2.0
#6 LLaDA 2.0 Uni 16B 16B 18 GB 8 192 Apache 2.0
#7 Mistral Small 3.1 24B 24B 14 GB 128 000 Apache 2.0

Méthodologie du classement

Filtre sur le tag « vision ». Score favorise les modèles récents (les VLM évoluent très vite) et les grandes tailles (détails fins mieux rendus).

Critères pris en compte :

  • Compréhension d'image
  • OCR / extraction texte
  • VQA (questions sur image)
  • Ollama / llama.cpp compatible

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

Quel est le meilleur LLM open-source pour analyser des images ?

Qwen 3 VL 30B-A3B est notre #1 pour 30B paramètres. Pour une config plus légère, Qwen 2.5 VL 7B tourne très bien en 8-12 GB de VRAM.

Peut-on faire de l'OCR avec ces modèles ?

Oui — les VLM modernes savent lire du texte sur image (documents scannés, captures d'écran). Pour de l'OCR massif/industriel, DeepSeek OCR est spécialisé. Pour du texte en français manuscrit, préférez Qwen 2.5 VL qui gère bien le français.

Faut-il Ollama ou llama.cpp pour la vision ?

Les deux supportent les modèles vision (Llama 3.2 Vision, LLaVA, Qwen VL). LM Studio aussi. Utilisez l'API via -images ou le paramètre images dans Ollama.

Quelle VRAM pour un VLM correct ?

8 GB pour un 7B VL (Qwen 2.5 VL 7B), 12-16 GB pour un 11B (Llama 3.2 Vision), 40+ GB pour les gros 72B. La vision ajoute ~1-2 GB de VRAM en plus du modèle texte.

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Pour aller plus loin