Accueil › Catalogue › Meilleur LLM local pour agents / tool-use en 2026

Meilleur LLM local pour agents / tool-use en 2026

Q: Quel LLM pour un agent autonome en local ?

Qwen 3 30B-A3B est notre #1. Mistral Small 3.1 est particulièrement réputé pour sa fiabilité en tool-use et sa latence faible — critique pour un agent qui fait 20+ appels par tâche.

Q: Ollama supporte-t-il le function calling ?

Oui depuis la 0.3.0 via le paramètre tools. LM Studio et vLLM aussi. Assurez-vous que le modèle a été entraîné pour (les Mistral, Qwen, Llama récents le sont).

Q: Quel framework pour bâtir un agent local ?

LangGraph, CrewAI, AutoGen, Smolagents — tous pointables sur un Ollama local via l'endpoint OpenAI-compatible (http://localhost:11434/v1).

Classement des LLM les plus fiables pour bâtir des agents autonomes en local : précision du function calling, robustesse multi-tours, compréhension des schémas JSON, contexte suffisant pour maintenir un plan d'action.

Classement

🇨🇳 Qwen 3 30B-A3B

Alibaba · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

MoE 30B/3B actifs hybrid thinking. MMLU 81.4, AIME24 80.4. 100+ langues.

Pourquoi ce rang Function calling fiable, 131 072 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.

ollama run qwen3:30b-a3b

VRAM Q4

19 GB

35 GB en Q8

🇺🇸 gpt-oss 20B

OpenAI · 21B paramètres · Apache 2.0 · 128 000 tokens ctx

Petit frère de gpt-oss 120B. 21B/3.6B actifs. Égale o3-mini sur laptop.

Pourquoi ce rang Function calling fiable, 128 000 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.

ollama run openai/gpt-oss:20b

VRAM Q4

13 GB

23 GB en Q8

🇨🇳 ERNIE 4.5 21B-A3B Thinking

Baidu · 21B paramètres · Apache 2.0 · 131 072 tokens ctx

Raisonneur compact MoE 21B/3B actifs. Apache 2.0. Rapide grâce aux 3B actifs.

Pourquoi ce rang Function calling fiable, 131 072 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.

ollama pull hf.co/baidu/ernie-4.5-21b-GGUF

VRAM Q4

13 GB

23 GB en Q8

Kanana 2 30B-A3B Thinking

Kakao · 30B paramètres · Apache 2.0 · 131 072 tokens ctx

Agentic coréen MoE 30B/3B actifs. Couvre KR/EN/JP/ZH/TH/VI. Apache 2.0. MLA attention.

Pourquoi ce rang Function calling fiable, 131 072 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.

ollama pull hf.co/kakaoai/Kanana-2-30B-GGUF

VRAM Q4

18 GB

33 GB en Q8

🇨🇳 DeepSeek R1 Distill 32B

DeepSeek · 32B paramètres · MIT · 32 768 tokens ctx

Le meilleur raisonneur open-weight accessible.

Pourquoi ce rang Function calling fiable, 32 768 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.

ollama run deepseek-r1:32b

VRAM Q4

19 GB

35 GB en Q8

🇨🇳 Qwen 3 32B

Alibaba · 32B paramètres · Apache 2.0 · 131 072 tokens ctx

Dense 32B avec thinking mode. MMLU-Pro 65.5, SuperGPQA 39.8.

Pourquoi ce rang Function calling fiable, 131 072 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.

ollama run qwen3:32b

VRAM Q4

19 GB

35 GB en Q8

🇨🇳 QwQ 32B

Alibaba · 32B paramètres · Apache 2.0 · 131 072 tokens ctx

Raisonneur RL Apache 2.0. AIME24 79.5, MATH-500 90.6. Concurrent direct de DeepSeek R1.

Pourquoi ce rang Function calling fiable, 131 072 tokens de contexte pour garder l'historique d'actions. Capacité de raisonnement en bonus.

ollama run qwq:32b

VRAM Q4

19 GB

35 GB en Q8

Tableau comparatif

Rang	Modèle	Params	VRAM Q4	Contexte	Licence
#1	Qwen 3 30B-A3B	30B	19 GB	131 072	Apache 2.0
#2	gpt-oss 20B	21B	13 GB	128 000	Apache 2.0
#3	ERNIE 4.5 21B-A3B Thinking	21B	13 GB	131 072	Apache 2.0
#4	Kanana 2 30B-A3B Thinking	30B	18 GB	131 072	Apache 2.0
#5	DeepSeek R1 Distill 32B	32B	19 GB	32 768	MIT
#6	Qwen 3 32B	32B	19 GB	131 072	Apache 2.0
#7	QwQ 32B	32B	19 GB	131 072	Apache 2.0

Méthodologie du classement

On privilégie les modèles ≥ 7B avec contexte ≥ 32k (pour maintenir un historique d'actions) et un tag chat ou reasoning. Le score favorise les modèles récents et les tailles moyennes à grandes (où le function calling devient fiable).

Critères pris en compte :

Function calling précis
Contexte ≥ 32k tokens
Fiabilité multi-tours
Format JSON respecté

Le scoring est entièrement transparent : consultez notre méthodologie pour les détails de calcul VRAM/tokens/sec.

Questions fréquentes

Quel LLM pour un agent autonome en local ?

Qwen 3 30B-A3B est notre #1. Mistral Small 3.1 est particulièrement réputé pour sa fiabilité en tool-use et sa latence faible — critique pour un agent qui fait 20+ appels par tâche.

Ollama supporte-t-il le function calling ?

Oui depuis la 0.3.0 via le paramètre tools. LM Studio et vLLM aussi. Assurez-vous que le modèle a été entraîné pour (les Mistral, Qwen, Llama récents le sont).

Quel framework pour bâtir un agent local ?

LangGraph, CrewAI, AutoGen, Smolagents — tous pointables sur un Ollama local via l'endpoint OpenAI-compatible (http://localhost:11434/v1).

Quelle différence entre reasoning et agents ?

Un modèle reasoning (DeepSeek R1, QwQ) déroule une chaîne de pensée avant de répondre. Un modèle agent (Mistral Small, Qwen) choisit et appelle des outils externes. Les deux peuvent se combiner : reasoning pour planifier, agent pour exécuter.

Comparatifs en tête-à-tête

Approfondissez avec nos duels détaillés des finalistes :

Meilleur LLM local pour agents / tool-use en 2026

Classement

🇨🇳 Qwen 3 30B-A3B

🇺🇸 gpt-oss 20B

🇨🇳 ERNIE 4.5 21B-A3B Thinking

Kanana 2 30B-A3B Thinking

🇨🇳 DeepSeek R1 Distill 32B

🇨🇳 Qwen 3 32B

🇨🇳 QwQ 32B

Tableau comparatif

Méthodologie du classement

Questions fréquentes

Comparatifs en tête-à-tête

Pour aller plus loin