QuelLLMFR Analyser ma config →
Accueil Catalogue Meilleur LLM local avec vision en 2026

Meilleur LLM local avec vision en 2026

Classement des LLM open-weights capables d'analyser des images en entrée : OCR, description, VQA, analyse de graphiques, extraction de données à partir de captures d'écran. Tous auto-hébergeables.

Classement

1

🇨🇳 Qwen 2.5 VL 7B

Alibaba · 7B paramètres · Apache 2.0 · 128 000 tokens ctx

Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.

Pourquoi ce rang Supporte les entrées image nativement. 7B paramètres pour une analyse correcte.
ollama run qwen2.5vl:7b
VRAM Q4
6 GB
10 GB en Q8
2

🇨🇳 Qwen 3 VL 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 262 144 tokens ctx

Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.

Pourquoi ce rang Supporte les entrées image nativement. 30B paramètres pour une analyse fine.
ollama run qwen3:vl:30b
VRAM Q4
19 GB
35 GB en Q8
3

🇫🇷 Mistral Small 3.1 24B

Mistral AI · 24B paramètres · Apache 2.0 · 128 000 tokens ctx

Small 3 enrichi de la vision. 128k ctx, Apache 2.0. Small 3.2 (Juin 2025) disponible en update.

Pourquoi ce rang Supporte les entrées image nativement. 24B paramètres pour une analyse correcte.
ollama run mistral-small3.1:24b
VRAM Q4
14 GB
26 GB en Q8
4

🇫🇷 Mistral Small 3.2 24B

Mistral AI · 24B paramètres · Apache 2.0 · 128 000 tokens ctx

Update Juin 2025 de Small 3.1. Moitié moins de générations infinies, function calling amélioré.

Pourquoi ce rang Supporte les entrées image nativement. 24B paramètres pour une analyse correcte.
ollama run mistral-small3.2:24b
VRAM Q4
14 GB
26 GB en Q8
5

🇺🇸 Gemma 3 27B

Google · 27B paramètres · Gemma · 128 000 tokens ctx

Haut de gamme Gemma. LMArena Elo 1338 — bat Llama 3.1 405B à 15× moins gros.

Pourquoi ce rang Supporte les entrées image nativement. 27B paramètres pour une analyse correcte.
ollama run gemma3:27b
VRAM Q4
16 GB
29 GB en Q8
6

🇺🇸 Gemma 4 31B

Google · 31B paramètres · Gemma · 256 000 tokens ctx

Dense 31B multimodal (texte+image+audio). 140+ langues, 256k ctx. #3 Chatbot Arena open.

Pourquoi ce rang Supporte les entrées image nativement. 31B paramètres pour une analyse fine.
ollama run gemma4:31b
VRAM Q4
18 GB
33 GB en Q8
7

🇺🇸 Llama 3.2 Vision 11B

Meta · 11B paramètres · Llama 3 Community · 131 072 tokens ctx

Lit les images, décrit, OCR léger, analyse graphiques.

Pourquoi ce rang Supporte les entrées image nativement. 11B paramètres pour une analyse correcte.
ollama run llama32:vision:11b
VRAM Q4
8 GB
14 GB en Q8

Tableau comparatif

Rang Modèle Params VRAM Q4 Contexte Licence
#1 Qwen 2.5 VL 7B 7B 6 GB 128 000 Apache 2.0
#2 Qwen 3 VL 30B-A3B 30B 19 GB 262 144 Apache 2.0
#3 Mistral Small 3.1 24B 24B 14 GB 128 000 Apache 2.0
#4 Mistral Small 3.2 24B 24B 14 GB 128 000 Apache 2.0
#5 Gemma 3 27B 27B 16 GB 128 000 Gemma
#6 Gemma 4 31B 31B 18 GB 256 000 Gemma
#7 Llama 3.2 Vision 11B 11B 8 GB 131 072 Llama 3 Community

Méthodologie du classement

Filtre sur le tag « vision ». Score favorise les modèles récents (les VLM évoluent très vite) et les grandes tailles (détails fins mieux rendus).

Critères pris en compte :

  • Compréhension d'image
  • OCR / extraction texte
  • VQA (questions sur image)
  • Ollama / llama.cpp compatible

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

Quel est le meilleur LLM open-source pour analyser des images ?

Qwen 2.5 VL 7B est notre #1 pour 7B paramètres. Pour une config plus légère, Qwen 2.5 VL 7B tourne très bien en 8-12 GB de VRAM.

Peut-on faire de l'OCR avec ces modèles ?

Oui — les VLM modernes savent lire du texte sur image (documents scannés, captures d'écran). Pour de l'OCR massif/industriel, DeepSeek OCR est spécialisé. Pour du texte en français manuscrit, préférez Qwen 2.5 VL qui gère bien le français.

Faut-il Ollama ou llama.cpp pour la vision ?

Les deux supportent les modèles vision (Llama 3.2 Vision, LLaVA, Qwen VL). LM Studio aussi. Utilisez l'API via -images ou le paramètre images dans Ollama.

Quelle VRAM pour un VLM correct ?

8 GB pour un 7B VL (Qwen 2.5 VL 7B), 12-16 GB pour un 11B (Llama 3.2 Vision), 40+ GB pour les gros 72B. La vision ajoute ~1-2 GB de VRAM en plus du modèle texte.

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Pour aller plus loin