QuelLLMFR Analyser ma config →
Accueil Catalogue Meilleur LLM local pour agents / tool-use en 2026

Meilleur LLM local pour agents / tool-use en 2026

Classement des LLM les plus fiables pour bâtir des agents autonomes en local : précision du function calling, robustesse multi-tours, compréhension des schémas JSON, contexte suffisant pour maintenir un plan d'action.

Classement

1

🇨🇳 Qwen 3 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.

Pourquoi ce rang Function calling fiable, 131 072 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.
ollama run qwen3:30b-a3b
VRAM Q4
19 GB
35 GB en Q8
2

🇨🇳 DeepSeek R1 Distill 32B

DeepSeek · 32B paramètres · MIT · 32 768 tokens ctx

Le meilleur raisonneur open-weight accessible.

Pourquoi ce rang Function calling fiable, 32 768 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.
ollama run deepseek-r1:32b
VRAM Q4
19 GB
35 GB en Q8
3

🇨🇳 Qwen 3 32B

Alibaba · 32B paramètres · Apache 2.0 · 131 072 tokens ctx

Dense 32B avec thinking mode. MMLU-Pro 65.5, SuperGPQA 39.8.

Pourquoi ce rang Function calling fiable, 131 072 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.
ollama run qwen3:32b
VRAM Q4
19 GB
35 GB en Q8
4

🇨🇳 QwQ 32B

Alibaba · 32B paramètres · Apache 2.0 · 131 072 tokens ctx

Raisonneur RL Apache 2.0. AIME24 79.5, MATH-500 90.6. Concurrent direct de DeepSeek R1.

Pourquoi ce rang Function calling fiable, 131 072 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.
ollama run qwq:32b
VRAM Q4
19 GB
35 GB en Q8
5

🇨🇳 DeepSeek R2 32B

DeepSeek · 32B paramètres · MIT · 128 000 tokens ctx

Raisonneur dense 32B MIT. AIME 92.7%. Tient sur RTX 4090 en Q4.

Pourquoi ce rang Function calling fiable, 128 000 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.
# HuggingFace : deepseek-ai/DeepSeek-R2 (pas encore de tag Ollama officiel)
VRAM Q4
19 GB
35 GB en Q8
6

🇺🇸 OLMo 3 32B

Allen AI · 32B paramètres · Apache 2.0 · 65 536 tokens ctx

Dense 32B 100% ouvert. Variantes Think et Instruct. Le modèle souveraineté des chercheurs.

Pourquoi ce rang Function calling fiable, 65 536 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.
ollama run olmo-3:32b
VRAM Q4
19 GB
35 GB en Q8
7

🇫🇷 Magistral Small 24B

Mistral AI · 24B paramètres · Apache 2.0 · 128 000 tokens ctx

Premier raisonneur open Mistral. AIME24 70.7%. Base Small 3.1 + entraînement CoT.

Pourquoi ce rang Function calling fiable, 128 000 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.
ollama run magistral:24b
VRAM Q4
14 GB
26 GB en Q8

Tableau comparatif

Rang Modèle Params VRAM Q4 Contexte Licence
#1 Qwen 3 30B-A3B 30B 19 GB 131 072 Apache 2.0
#2 DeepSeek R1 Distill 32B 32B 19 GB 32 768 MIT
#3 Qwen 3 32B 32B 19 GB 131 072 Apache 2.0
#4 QwQ 32B 32B 19 GB 131 072 Apache 2.0
#5 DeepSeek R2 32B 32B 19 GB 128 000 MIT
#6 OLMo 3 32B 32B 19 GB 65 536 Apache 2.0
#7 Magistral Small 24B 24B 14 GB 128 000 Apache 2.0

Méthodologie du classement

On privilégie les modèles ≥ 7B avec contexte ≥ 32k (pour maintenir un historique d'actions) et un tag chat ou reasoning. Le score favorise les modèles récents et les tailles moyennes à grandes (où le function calling devient fiable).

Critères pris en compte :

  • Function calling précis
  • Contexte ≥ 32k tokens
  • Fiabilité multi-tours
  • Format JSON respecté

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

Quel LLM pour un agent autonome en local ?

Qwen 3 30B-A3B est notre #1. Mistral Small 3.1 est particulièrement réputé pour sa fiabilité en tool-use et sa latence faible — critique pour un agent qui fait 20+ appels par tâche.

Ollama supporte-t-il le function calling ?

Oui depuis la 0.3.0 via le paramètre tools. LM Studio et vLLM aussi. Assurez-vous que le modèle a été entraîné pour (les Mistral, Qwen, Llama récents le sont).

Quel framework pour bâtir un agent local ?

LangGraph, CrewAI, AutoGen, Smolagents — tous pointables sur un Ollama local via l'endpoint OpenAI-compatible (http://localhost:11434/v1).

Quelle différence entre reasoning et agents ?

Un modèle reasoning (DeepSeek R1, QwQ) déroule une chaîne de pensée avant de répondre. Un modèle agent (Mistral Small, Qwen) choisit et appelle des outils externes. Les deux peuvent se combiner : reasoning pour planifier, agent pour exécuter.

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Pour aller plus loin