Accueil › Catalogue › Meilleur LLM local avec vision en 2026

Meilleur LLM local avec vision en 2026

Q: Quel est le meilleur LLM open-source pour analyser des images ?

Qwen 3 VL 30B-A3B est notre #1 pour 30B paramètres. Pour une config plus légère, Qwen 2.5 VL 7B tourne très bien en 8-12 GB de VRAM.

Classement des LLM open-weights capables d'analyser des images en entrée : OCR, description, VQA, analyse de graphiques, extraction de données à partir de captures d'écran. Tous auto-hébergeables.

Classement

Tableau comparatif

Rang	Modèle	Params	VRAM Q4	Contexte	Licence
#1	Qwen 3 VL 30B-A3B	30B	19 GB	262 144	Apache 2.0
#2	Nemotron Nano v2 VL 12B	12.6B	8 GB	128 000	NVIDIA Open Model License
#3	Qwen 2.5 VL 7B	7B	6 GB	128 000	Apache 2.0
#4	Qwen 3 VL 8B	8B	6 GB	262 144	Apache 2.0
#5	Qwen 3 Omni 30B-A3B	30B	19 GB	131 072	Apache 2.0
#6	LLaDA 2.0 Uni 16B	16B	18 GB	8 192	Apache 2.0
#7	Mistral Small 3.1 24B	24B	14 GB	128 000	Apache 2.0

Méthodologie du classement

Filtre sur le tag « vision ». Score favorise les modèles récents (les VLM évoluent très vite) et les grandes tailles (détails fins mieux rendus).

Critères pris en compte :

Compréhension d'image
OCR / extraction texte
VQA (questions sur image)
Ollama / llama.cpp compatible

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

Quel est le meilleur LLM open-source pour analyser des images ?

Qwen 3 VL 30B-A3B est notre #1 pour 30B paramètres. Pour une config plus légère, Qwen 2.5 VL 7B tourne très bien en 8-12 GB de VRAM.

Peut-on faire de l'OCR avec ces modèles ?

Oui — les VLM modernes savent lire du texte sur image (documents scannés, captures d'écran). Pour de l'OCR massif/industriel, DeepSeek OCR est spécialisé. Pour du texte en français manuscrit, préférez Qwen 2.5 VL qui gère bien le français.

Faut-il Ollama ou llama.cpp pour la vision ?

Les deux supportent les modèles vision (Llama 3.2 Vision, LLaVA, Qwen VL). LM Studio aussi. Utilisez l'API via -images ou le paramètre images dans Ollama.

Quelle VRAM pour un VLM correct ?

8 GB pour un 7B VL (Qwen 2.5 VL 7B), 12-16 GB pour un 11B (Llama 3.2 Vision), 40+ GB pour les gros 72B. La vision ajoute ~1-2 GB de VRAM en plus du modèle texte.

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Meilleur LLM local avec vision en 2026

Classement

🇨🇳 Qwen 3 VL 30B-A3B

🇺🇸 Nemotron Nano v2 VL 12B

🇨🇳 Qwen 2.5 VL 7B

🇨🇳 Qwen 3 VL 8B

🇨🇳 Qwen 3 Omni 30B-A3B

🇨🇳 LLaDA 2.0 Uni 16B

🇫🇷 Mistral Small 3.1 24B

Tableau comparatif

Méthodologie du classement

Questions fréquentes

Comparatifs en tête-à-tête

Pour aller plus loin