🇨🇳 Qwen 3 VL 30B-A3B
Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.
ollama run qwen3-vl:30b
Classement des LLM open-weights capables d'analyser des images en entrée : OCR, description, VQA, analyse de graphiques, extraction de données à partir de captures d'écran. Tous auto-hébergeables.
Vision MoE 30B/3B actifs. Sweet spot vision Qwen 3. 256k ctx.
ollama run qwen3-vl:30b
VLM entreprise 12.6B. Strong DocVQA/ChartQA. Extraction documents pro.
ollama run nemotron3-v2:12b
Vision SOTA 7B. Vidéo >1h, grounding bbox, OCR multilingue. DocVQA 95.7.
ollama run qwen2.5vl:7b
Vision 8B dense Qwen 3. Meilleur petit VLM Qwen génération 3.
ollama run qwen3-vl:8b
Omni MoE 30B/3B actifs. Streaming speech. 119 langues ASR. Apache 2.0.
ollama run qwen3-omni:30b
Premier dLLM open Apache 2.0 : MoE 16B/1B + décodeur diffusion 6.2B. Texte+vision unifié. Sortie 22 avril 2026.
# HuggingFace : inclusionAI/LLaDA2.0-Uni (Flash Attn 2 + CUDA 12.4 requis)
Small 3 enrichi de la vision. 128k ctx, Apache 2.0. Small 3.2 (Juin 2025) disponible en update.
ollama run mistral-small3.1:24b
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence |
|---|---|---|---|---|---|
| #1 | Qwen 3 VL 30B-A3B | 30B | 19 GB | 262 144 | Apache 2.0 |
| #2 | Nemotron Nano v2 VL 12B | 12.6B | 8 GB | 128 000 | NVIDIA Open Model License |
| #3 | Qwen 2.5 VL 7B | 7B | 6 GB | 128 000 | Apache 2.0 |
| #4 | Qwen 3 VL 8B | 8B | 6 GB | 262 144 | Apache 2.0 |
| #5 | Qwen 3 Omni 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 |
| #6 | LLaDA 2.0 Uni 16B | 16B | 18 GB | 8 192 | Apache 2.0 |
| #7 | Mistral Small 3.1 24B | 24B | 14 GB | 128 000 | Apache 2.0 |
Filtre sur le tag « vision ». Score favorise les modèles récents (les VLM évoluent très vite) et les grandes tailles (détails fins mieux rendus).
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
Quel est le meilleur LLM open-source pour analyser des images ?
Qwen 3 VL 30B-A3B est notre #1 pour 30B paramètres. Pour une config plus légère, Qwen 2.5 VL 7B tourne très bien en 8-12 GB de VRAM.
Peut-on faire de l'OCR avec ces modèles ?
Oui — les VLM modernes savent lire du texte sur image (documents scannés, captures d'écran). Pour de l'OCR massif/industriel, DeepSeek OCR est spécialisé. Pour du texte en français manuscrit, préférez Qwen 2.5 VL qui gère bien le français.
Faut-il Ollama ou llama.cpp pour la vision ?
Les deux supportent les modèles vision (Llama 3.2 Vision, LLaVA, Qwen VL). LM Studio aussi. Utilisez l'API via -images ou le paramètre images dans Ollama.
Quelle VRAM pour un VLM correct ?
8 GB pour un 7B VL (Qwen 2.5 VL 7B), 12-16 GB pour un 11B (Llama 3.2 Vision), 40+ GB pour les gros 72B. La vision ajoute ~1-2 GB de VRAM en plus du modèle texte.
Approfondissez avec nos duels détaillés des finalistes :