Accueil Catalogue Meilleur LLM local pour agents / tool-use en 2026

Meilleur LLM local pour agents / tool-use en 2026

Classement des LLM les plus fiables pour bâtir des agents autonomes en local : précision du function calling, robustesse multi-tours, compréhension des schémas JSON, contexte suffisant pour maintenir un plan d'action.

Classement

1

🇨🇳 Qwen 3 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.

Pourquoi ce rang Function calling fiable, 131 072 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.
ollama run qwen3:30b-a3b
VRAM Q4
19 GB
35 GB en Q8
2

🇺🇸 gpt-oss 20B

OpenAI · 21B paramètres · Apache 2.0 · 128 000 tokens ctx

Petit frère de gpt-oss 120B. 21B/3.6B actifs. Égale o3-mini sur laptop.

Pourquoi ce rang Function calling fiable, 128 000 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.
ollama run openai/gpt-oss:20b
VRAM Q4
13 GB
23 GB en Q8
3

🇨🇳 ERNIE 4.5 21B-A3B Thinking

Baidu · 21B paramètres · Apache 2.0 · 131 072 tokens ctx

Raisonneur compact MoE 21B/3B actifs. Apache 2.0. Rapide grâce aux 3B actifs.

Pourquoi ce rang Function calling fiable, 131 072 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.
ollama pull hf.co/baidu/ernie-4.5-21b-GGUF
VRAM Q4
13 GB
23 GB en Q8
4

Kanana 2 30B-A3B Thinking

Kakao · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.

Pourquoi ce rang Function calling fiable, 131 072 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.
ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF
VRAM Q4
18 GB
33 GB en Q8
5

🇨🇳 DeepSeek R1 Distill 32B

DeepSeek · 32B paramètres · MIT · 32 768 tokens ctx

Le meilleur raisonneur open-weight accessible.

Pourquoi ce rang Function calling fiable, 32 768 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.
ollama run deepseek-r1:32b
VRAM Q4
19 GB
35 GB en Q8
6

🇨🇳 Qwen 3 32B

Alibaba · 32B paramètres · Apache 2.0 · 131 072 tokens ctx

Dense 32B avec thinking mode. MMLU-Pro 65.5, SuperGPQA 39.8.

Pourquoi ce rang Function calling fiable, 131 072 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.
ollama run qwen3:32b
VRAM Q4
19 GB
35 GB en Q8
7

🇨🇳 QwQ 32B

Alibaba · 32B paramètres · Apache 2.0 · 131 072 tokens ctx

Raisonneur RL Apache 2.0. AIME24 79.5, MATH-500 90.6. Concurrent direct de DeepSeek R1.

Pourquoi ce rang Function calling fiable, 131 072 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.
ollama run qwq:32b
VRAM Q4
19 GB
35 GB en Q8

Tableau comparatif

Rang Modèle Params VRAM Q4 Contexte Licence
#1 Qwen 3 30B-A3B 30B 19 GB 131 072 Apache 2.0
#2 gpt-oss 20B 21B 13 GB 128 000 Apache 2.0
#3 ERNIE 4.5 21B-A3B Thinking 21B 13 GB 131 072 Apache 2.0
#4 Kanana 2 30B-A3B Thinking 30B 18 GB 131 072 Apache 2.0
#5 DeepSeek R1 Distill 32B 32B 19 GB 32 768 MIT
#6 Qwen 3 32B 32B 19 GB 131 072 Apache 2.0
#7 QwQ 32B 32B 19 GB 131 072 Apache 2.0

Méthodologie du classement

On privilégie les modèles ≥ 7B avec contexte ≥ 32k (pour maintenir un historique d'actions) et un tag chat ou reasoning. Le score favorise les modèles récents et les tailles moyennes à grandes (où le function calling devient fiable).

Critères pris en compte :

  • Function calling précis
  • Contexte ≥ 32k tokens
  • Fiabilité multi-tours
  • Format JSON respecté

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

Quel LLM pour un agent autonome en local ?

Qwen 3 30B-A3B est notre #1. Mistral Small 3.1 est particulièrement réputé pour sa fiabilité en tool-use et sa latence faible — critique pour un agent qui fait 20+ appels par tâche.

Ollama supporte-t-il le function calling ?

Oui depuis la 0.3.0 via le paramètre tools. LM Studio et vLLM aussi. Assurez-vous que le modèle a été entraîné pour (les Mistral, Qwen, Llama récents le sont).

Quel framework pour bâtir un agent local ?

LangGraph, CrewAI, AutoGen, Smolagents — tous pointables sur un Ollama local via l'endpoint OpenAI-compatible (http://localhost:11434/v1).

Quelle différence entre reasoning et agents ?

Un modèle reasoning (DeepSeek R1, QwQ) déroule une chaîne de pensée avant de répondre. Un modèle agent (Mistral Small, Qwen) choisit et appelle des outils externes. Les deux peuvent se combiner : reasoning pour planifier, agent pour exécuter.

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Pour aller plus loin