🇨🇳 Qwen 2.5 VL 7B
Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.
ollama run qwen2.5vl:7b
Classement des LLM open-weights capables d'analyser des images en entrée : OCR, description, VQA, analyse de graphiques, extraction de données à partir de captures d'écran. Tous auto-hébergeables.
Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.
ollama run qwen2.5vl:7b
Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.
ollama run qwen3:vl:30b
Small 3 enrichi de la vision. 128k ctx, Apache 2.0. Small 3.2 (Juin 2025) disponible en update.
ollama run mistral-small3.1:24b
Update Juin 2025 de Small 3.1. Moitié moins de générations infinies, function calling amélioré.
ollama run mistral-small3.2:24b
Haut de gamme Gemma. LMArena Elo 1338 — bat Llama 3.1 405B à 15× moins gros.
ollama run gemma3:27b
Dense 31B multimodal (texte+image+audio). 140+ langues, 256k ctx. #3 Chatbot Arena open.
ollama run gemma4:31b
Lit les images, décrit, OCR léger, analyse graphiques.
ollama run llama32:vision:11b
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence |
|---|---|---|---|---|---|
| #1 | Qwen 2.5 VL 7B | 7B | 6 GB | 128 000 | Apache 2.0 |
| #2 | Qwen 3 VL 30B-A3B | 30B | 19 GB | 262 144 | Apache 2.0 |
| #3 | Mistral Small 3.1 24B | 24B | 14 GB | 128 000 | Apache 2.0 |
| #4 | Mistral Small 3.2 24B | 24B | 14 GB | 128 000 | Apache 2.0 |
| #5 | Gemma 3 27B | 27B | 16 GB | 128 000 | Gemma |
| #6 | Gemma 4 31B | 31B | 18 GB | 256 000 | Gemma |
| #7 | Llama 3.2 Vision 11B | 11B | 8 GB | 131 072 | Llama 3 Community |
Filtre sur le tag « vision ». Score favorise les modèles récents (les VLM évoluent très vite) et les grandes tailles (détails fins mieux rendus).
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
Quel est le meilleur LLM open-source pour analyser des images ?
Qwen 2.5 VL 7B est notre #1 pour 7B paramètres. Pour une config plus légère, Qwen 2.5 VL 7B tourne très bien en 8-12 GB de VRAM.
Peut-on faire de l'OCR avec ces modèles ?
Oui — les VLM modernes savent lire du texte sur image (documents scannés, captures d'écran). Pour de l'OCR massif/industriel, DeepSeek OCR est spécialisé. Pour du texte en français manuscrit, préférez Qwen 2.5 VL qui gère bien le français.
Faut-il Ollama ou llama.cpp pour la vision ?
Les deux supportent les modèles vision (Llama 3.2 Vision, LLaVA, Qwen VL). LM Studio aussi. Utilisez l'API via -images ou le paramètre images dans Ollama.
Quelle VRAM pour un VLM correct ?
8 GB pour un 7B VL (Qwen 2.5 VL 7B), 12-16 GB pour un 11B (Llama 3.2 Vision), 40+ GB pour les gros 72B. La vision ajoute ~1-2 GB de VRAM en plus du modèle texte.
Approfondissez avec nos duels détaillés des finalistes :