🇨🇳 Qwen 3 30B-A3B
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
Classement des LLM les plus fiables pour bâtir des agents autonomes en local : précision du function calling, robustesse multi-tours, compréhension des schémas JSON, contexte suffisant pour maintenir un plan d'action.
MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.
ollama run qwen3:30b-a3b
Le meilleur raisonneur open-weight accessible.
ollama run deepseek-r1:32b
Dense 32B avec thinking mode. MMLU-Pro 65.5, SuperGPQA 39.8.
ollama run qwen3:32b
Raisonneur RL Apache 2.0. AIME24 79.5, MATH-500 90.6. Concurrent direct de DeepSeek R1.
ollama run qwq:32b
Raisonneur dense 32B MIT. AIME 92.7%. Tient sur RTX 4090 en Q4.
# HuggingFace : deepseek-ai/DeepSeek-R2 (pas encore de tag Ollama officiel)
Dense 32B 100% ouvert. Variantes Think et Instruct. Le modèle souveraineté des chercheurs.
ollama run olmo-3:32b
Premier raisonneur open Mistral. AIME24 70.7%. Base Small 3.1 + entraînement CoT.
ollama run magistral:24b
| Rang | Modèle | Params | VRAM Q4 | Contexte | Licence |
|---|---|---|---|---|---|
| #1 | Qwen 3 30B-A3B | 30B | 19 GB | 131 072 | Apache 2.0 |
| #2 | DeepSeek R1 Distill 32B | 32B | 19 GB | 32 768 | MIT |
| #3 | Qwen 3 32B | 32B | 19 GB | 131 072 | Apache 2.0 |
| #4 | QwQ 32B | 32B | 19 GB | 131 072 | Apache 2.0 |
| #5 | DeepSeek R2 32B | 32B | 19 GB | 128 000 | MIT |
| #6 | OLMo 3 32B | 32B | 19 GB | 65 536 | Apache 2.0 |
| #7 | Magistral Small 24B | 24B | 14 GB | 128 000 | Apache 2.0 |
On privilégie les modèles ≥ 7B avec contexte ≥ 32k (pour maintenir un historique d'actions) et un tag chat ou reasoning. Le score favorise les modèles récents et les tailles moyennes à grandes (où le function calling devient fiable).
Critères pris en compte :
Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.
Quel LLM pour un agent autonome en local ?
Qwen 3 30B-A3B est notre #1. Mistral Small 3.1 est particulièrement réputé pour sa fiabilité en tool-use et sa latence faible — critique pour un agent qui fait 20+ appels par tâche.
Ollama supporte-t-il le function calling ?
Oui depuis la 0.3.0 via le paramètre tools. LM Studio et vLLM aussi. Assurez-vous que le modèle a été entraîné pour (les Mistral, Qwen, Llama récents le sont).
Quel framework pour bâtir un agent local ?
LangGraph, CrewAI, AutoGen, Smolagents — tous pointables sur un Ollama local via l'endpoint OpenAI-compatible (http://localhost:11434/v1).
Quelle différence entre reasoning et agents ?
Un modèle reasoning (DeepSeek R1, QwQ) déroule une chaîne de pensée avant de répondre. Un modèle agent (Mistral Small, Qwen) choisit et appelle des outils externes. Les deux peuvent se combiner : reasoning pour planifier, agent pour exécuter.
Approfondissez avec nos duels détaillés des finalistes :