Tous les modèles · 100% local, 100% privé

Quel LLM tourne sur
votre machine

Dites-nous ce que vous avez dans le capot. On vous dit ce qui tourne, à quelle vitesse, et comment l'installer — en français, pas à pas.

~/configurateur —— prêt
Vos données restent dans votre navigateur. Rien n'est envoyé.
Gratuit
Aucune inscription
100% français
Guides pédagogiques
Open source
Données publiques
Vie privée
Zéro tracker
Catalogue · 195 modèles

Le catalogue des LLM open-weights
qui tournent en local.

Tous les modèles pertinents, avec VRAM requise par quantification, vitesse estimée et cas d'usage. Les modèles français sont mis en avant.

🇫🇷
Focus souveraineté

Les 25 modèles made in France

Mistral, Lucie (OpenLLM-France), CroissantLLM — entraînés sur du corpus FR, licences permissives, excellents en français soutenu.

Top sélection éditorialeVoir tous les classements →
Modèle
Auteur
Params
VRAM Q4
Contexte
Tags
Pleias-RAG 1B★ FR
Spécialisé RAG 1.2B. Citation et grounding intégrés. Bat la plupart des SLM ≤4B sur HotPotQA.
🇫🇷 PleIAs
1.2B
0.8 GB
2k
chatfr
CroissantLLM 1.3B★ FR
Petit modèle bilingue FR/EN. Tourne partout, même sur CPU.
🇫🇷 CroissantLLM
1.3B
1 GB
2k
chatfr
SmolLM2 1.7B Instruct★ FR
1.7B Apache 2.0 très téléchargé. Bat Qwen2.5-1.5B de ~6 pts MMLU-Pro. BFCL function calling 27%.
🇫🇷 HuggingFace
1.7B
1.2 GB
8k
chatgeneral
Helium 1 2B★ FR
Base multilingue 24 langues UE (Kyutai FR). Distillé de Gemma 2 → Gemma Terms s'appliquent aussi.
🇫🇷 Kyutai
2B
1.5 GB
4k
chatgeneral
SmolVLM2 2.2B Instruct★ FR
VLM 2.2B : image+vidéo+texte. 5.2 GB VRAM pour l'inférence vidéo. Base SmolLM2-1.7B.
🇫🇷 HuggingFace
2.2B
1.6 GB
8k
visionchat
Pleias 3B Preview★ FR
Français. Entraîné 100% sur Common Corpus (données open). Conforme AI Act UE par design.
🇫🇷 PleIAs
3B
2 GB
2k
chatmultilingual
SmolLM3 3B★ FR
3B dual-mode (think/no-think). 6 langues. MMLU 59.7, GSM8K 70.9. Fully open (données+recette).
🇫🇷 HuggingFace
3B
2 GB
125k
chatgeneral
Voxtral-4B-TTS★ FR
TTS frontière open, 9 langues dont FR. Rivalise ElevenLabs. ⚠ Non-commercial.
🇫🇷 Mistral AI
4B
10 GB
4k
audiomultilingual
Mistral 7B Instruct★ FR
Le classique français. Rapide, polyvalent, excellente base pour débuter.
🇫🇷 Mistral AI
7B
5 GB
32k
chatgeneral
Lucie 7B★ FR
LLM souverain francophone, entraîné sur corpus FR.
🇫🇷 OpenLLM-France
7B
5 GB
4k
chatfr
Codestral Mamba 7B★ FR
Mamba SSM pur pour le code. Inférence linéaire, ctx 256k. Pas d'Ollama (support llama.cpp partiel).
🇫🇷 Mistral AI
7B
5 GB
250k
codefr
Claire 7B 0.1★ FR
LoRA-finetune Falcon-7B sur dialogue FR spontané. ⚠ Licence NC-SA. Variante Apache séparée.
🇫🇷 LINAGORA
7B
5 GB
2k
chatfr
Moshi 7B★ FR
Premier modèle full-duplex parole open. Latence ~200ms. Voix Moshiko/Moshika. Kyutai (labo FR).
🇫🇷 Kyutai
7.6B
5 GB
4k
audiofr
Mistral Nemo 12B Instruct★ FR
Codéveloppé avec NVIDIA. 128k ctx, Tekken tokenizer, fort en multilingue européen.
🇫🇷 Mistral AI
12B
7 GB
125k
chatgeneral
Codestral 22B v0.1★ FR
Code 22B Mistral, 80+ langages. ⚠ Licence MNPL non-production — usage personnel/recherche.
🇫🇷 Mistral AI
22B
13 GB
31.25k
codefr
Mistral Small 3★ FR
Le meilleur rapport qualité/taille en 2025. Rivalise avec les 70B.
🇫🇷 Mistral AI
24B
14 GB
32k
chatgeneral
Mistral Small 3.1 24B★ FR
Small 3 enrichi de la vision. 128k ctx, Apache 2.0. Small 3.2 (Juin 2025) disponible en update.
🇫🇷 Mistral AI
24B
14 GB
125k
chatgeneral
Devstral Small 2 24B★ FR
Spécialiste coding 24B Apache 2.0. 72.2% SWE-Bench. 256k ctx, FR lab.
🇫🇷 Mistral AI
24B
14 GB
250k
codefr
Mistral Small 3.2 24B★ FR
Update Juin 2025 de Small 3.1. Moitié moins de générations infinies, function calling amélioré.
🇫🇷 Mistral AI
24B
14 GB
125k
chatgeneral
Magistral Small 24B★ FR
Premier raisonneur open Mistral. AIME24 70.7%. Base Small 3.1 + entraînement CoT.
🇫🇷 Mistral AI
24B
14 GB
125k
reasoningfr
Mixtral 8x7B★ FR
MoE 8 experts. Qualité élevée, mais VRAM costaud.
🇫🇷 Mistral AI
47B
26 GB
32k
chatgeneral
Mistral Small 4★ FR
MoE 119B/6.5B actifs unifie chat+raisonnement+vision+code. Le flagship FR de 2026.
🇫🇷 Mistral AI
119B
72 GB
250k
chatgeneral
Mistral Medium 3.5 128B★ FR
Dense 128B + vision, 256k ctx, raisonnement configurable. SWE-Bench 77.6%. Remplace Medium 3.1 et Magistral. Sortie 29 avril 2026.
🇫🇷 Mistral AI
128B
74 GB
250k
chatgeneral
Mixtral 8x22B Instruct★ FR
MoE Apache 2.0 141B/39B actifs. MMLU 77.8, HumanEval 45.1. 80 Go en Q4.
🇫🇷 Mistral AI
141B
82 GB
62.5k
chatgeneral
Mistral Large 3 675B★ FR
MoE 675B/41B actifs + encoder vision 2.5B, Apache 2.0. #2 OSS non-reasoning LMArena. Entraîné sur 3000 H200.
🇫🇷 Mistral AI
675B
405 GB
250k
chatgeneral
Qwen 3.5 0.8B
Dense 0.8B Apache 2.0, 256k contexte. Mémoire négligeable, idéal edge, mobile et Raspberry Pi. Sortie 13 avril 2026.
🇨🇳 Alibaba
0.8B
0.5 GB
250k
chatgeneral
HunyuanOCR 1B
1B end-to-end OCR. Surpasse des modèles 235B sur tâches documents. Ultra efficient.
🇨🇳 Tencent
1B
0.8 GB
8k
visionchat
GLM-OCR 1.1B
GLM-OCR (1,1B Zhipu/THUDM) : modèle vision OCR ultra-compact, ~0,6 Go VRAM Q4, 131k contexte, extraction de documents, tableaux et code. Sortie février 2026.
🇨🇳 Zhipu AI
1.1B
0.6 GB
128k
visioncode
MiniCPM5 1B SFT
1.1B Apache 2.0 OpenBMB. SFT bilingue EN/ZH avec tool-calling, optimisé on-device. VRAM Q4 <1 GB pour smartphone et laptop modeste.
🇨🇳 OpenBMB
1.1B
0.6 GB
32k
chatgeneral
MiniCPM5 1B
Modèle base 1.1B Apache 2.0 d'OpenBMB. Pré-entraîné bilingue EN/ZH, brique pour fine-tuning maison. VRAM Q4 < 1 GB, déploiement edge.
🇨🇳 OpenBMB
1.1B
0.6 GB
32k
generalsmall
Centre d'apprentissage

La documentation QuelLLM.

149+ tutoriels en français, testés sur Windows, macOS et Linux. De la première installation aux techniques avancées de RAG et fine-tuning.

⌘ K

À la une

— nos guides essentiels
149 résultats
Débutant 3 min

Installer Ollama sur Windows

Installation pas à pas d'Ollama sur Windows 11 avec support CUDA.

OllamaLire →
Intermédiaire 12 min

Quel LLM sur RTX 4090 (24 Go) ?

RTX 4090 24 Go, la référence IA locale 2023-2025. Llama 3 70B Q4, Mistral, DeepSeek, benchmarks tokens/sec mesurés, optimisations CUDA.

RTX 40Lire →
Intermédiaire 12 min

Quel LLM sur RTX 5090 (32 Go) ?

RTX 5090 2025 : 32 Go de VRAM GDDR7, bande passante 1792 Go/s. Faire tourner Llama 70B Q4 en local, benchmarks mesurés, configurations idéales.

RTX 50Lire →
Avancé 16 min

DeepSeek V4 Pro 1.6T : architecture, installation, benchmarks

Guide complet DeepSeek V4 Pro 1.6T MoE (49B actifs, MIT, 1M ctx) : architecture CSA+HCA, hardware requis, benchmarks vs GPT-5, installation locale.

DeepSeekLire →
Débutant 5 min

Démarrer avec LM Studio

Le ChatGPT local avec interface graphique. Zéro ligne de commande.

LM StudioLire →
Débutant 10 min

Quel LLM sur RTX 3060 12 Go ?

RTX 3060 12 Go : le GPU LLM budget iconique. 12 Go pour 250 € d'occasion, Mistral, Llama 3 8B, Phi-4 14B, benchmarks détaillés.

RTX 30Lire →
Intermédiaire 14 min

DeepSeek V4 Flash 284B : le 1er frontier qui tient sur Mac Studio

DeepSeek V4 Flash 284B MoE (13B actifs, MIT, 1M ctx) : le premier modèle frontière exécutable sur workstation. Installation Mac Studio Ultra, benchmarks, comparatif Pro.

DeepSeekLire →
Débutant 3 min

Installer Ollama sur macOS (Apple Silicon)

Tirer parti de Metal et de la mémoire unifiée M1/M2/M3/M4.

OllamaLire →
Débutant 11 min

Quel LLM sur Mac mini M4 / M4 Pro (16–64 Go) ?

Mac mini M4 : le meilleur rapport perf/prix pour l'IA locale en 2026. Benchmarks, config recommandée, usage serveur domestique.

Mac miniLire →
Intermédiaire 12 min

Quel LLM sur RTX 3090 / 3090 Ti (24 Go) ?

RTX 3090 et 3090 Ti 24 Go d'occasion : toujours excellent pour LLM en 2026. Llama 3 70B Q4, benchmarks, verdict perf/prix, refroidissement.

RTX 30Lire →
Débutant 10 min

Quel LLM pour 12 Go de VRAM ?

12 Go VRAM (RTX 3060 12GB, 4070, 5070) : sweet spot 2026. Phi-4 14B Q4, Qwen 14B Q5, RAG multi-stage. Le guide définitif.

Par VRAMLire →
Débutant 6 min

Votre première conversation locale

Lancer Ollama, charger Mistral, dialoguer. Le tutoriel du jour 1.

PromptingLire →
Intermédiaire 11 min

Quel LLM sur RTX 5070 Ti (16 Go) ?

RTX 5070 Ti 16 Go : le sweet spot 2025 pour l'IA locale. Benchmarks Ollama, modèles 14B/24B confortables, comparatif avec 4070 Ti Super.

RTX 50Lire →
Intermédiaire 12 min

Quel LLM sur MacBook Pro M4 Pro / Max (24–128 Go) ?

MacBook Pro M4 Pro / Max 2025 : bande passante 546 Go/s, quels modèles exploitent vraiment la puce, quelles limites pratiques.

MacBook ProLire →
Intermédiaire 11 min

Quel LLM sur RTX 4070 / 4070 Super / 4070 Ti (12 Go) ?

RTX 4070, 4070 Super et 4070 Ti 12 Go : comparatif LLM, modèles 13B confortables, limites des 12 Go, benchmarks mesurés.

RTX 40Lire →
Débutant 8 min

Ollama vs LM Studio vs Jan vs GPT4All

Tableau récap pour choisir l'outil adapté à votre profil.

OutilsLire →
Débutant 10 min

Quel LLM pour 8 Go de VRAM ?

Le guide complet pour 8 Go de VRAM (RTX 3050/3060 8GB, 4060, 5050, 5060) : Mistral 7B, Llama 3.1 8B, astuces pour étirer la VRAM.

Par VRAMLire →
Débutant 10 min

Les bases du prompting

Structurer ses requêtes pour obtenir des réponses utiles.

PromptingLire →
Intermédiaire 12 min

Quel LLM sur MacBook Pro M3 Pro / Max (18–128 Go) ?

MacBook Pro M3 Pro / Max : le meilleur laptop pour l'IA locale en 2026. Modèles 70B, contexte 32k, Flash Attention.

MacBook ProLire →
Intermédiaire 11 min

Quel LLM sur RTX 5080 (16 Go) ?

RTX 5080 Blackwell : 16 Go GDDR7 à 960 Go/s. Benchmarks Mistral, Llama 3.1, Phi-4, Qwen 32B en Q4. Configuration Ollama optimale.

RTX 50Lire →
Intermédiaire 11 min

Quel LLM pour 16 Go de VRAM ?

16 Go VRAM (RTX 4070 Ti Super, 5070 Ti, 5080, 4060 Ti 16GB) : Mistral Small 24B, Qwen 32B Q3, le palier pro 2026.

Par VRAMLire →
Débutant 12 min

Choisir son GPU pour l'IA locale

RTX 4070 vs 4090 vs Mac M-Max : le guide d'achat 2026.

GPULire →
Débutant 12 min

RAG local : introduction

Comprendre le Retrieval-Augmented Generation pour discuter avec vos docs.

ConceptsLire →
Avancé 13 min

Quel LLM sur Mac Studio (M2 / M3 / M4 Ultra, 64–512 Go) ?

Mac Studio Ultra : jusqu'à 512 Go de mémoire unifiée. Faire tourner Llama 70B, 123B, DeepSeek 671B en local. Le guide power user.

Mac StudioLire →
Intermédiaire 11 min

Quel LLM sur RTX 4080 / 4080 Super (16 Go) ?

RTX 4080 et 4080 Super 16 Go pour LLM local : tous les modèles qui rentrent, benchmarks, comparatif 4080 vs 4080 Super, verdict achat.

RTX 40Lire →
Intermédiaire 12 min

Quel LLM sur Radeon RX 7900 XTX (24 Go) ?

Radeon RX 7900 XTX 24 Go : alternative AMD à RTX 4090 pour LLM. ROCm 6.x, Llama 70B Q4, benchmarks tokens/sec, verdict 2026.

Radeon RX 7000Lire →
Intermédiaire 12 min

Quel LLM pour 24 Go de VRAM ?

24 Go VRAM (RTX 3090, 4090, RX 7900 XTX) : Llama 70B en offload, Qwen 32B Q5, fine-tuning LoRA. Le palier sérieux.

Par VRAMLire →
Débutant 4 min

Installer Ollama sur Linux

Script d'install, systemd, configuration GPU NVIDIA/AMD.

OllamaLire →
Débutant 10 min

Quel LLM sur MacBook Air M3 (8 / 16 / 24 Go) ?

Guide complet LLM pour MacBook Air M3 : Mistral, Llama, Qwen — quelle taille, quelle quantization, combien de tokens/sec.

MacBook AirLire →
Débutant 10 min

Quel LLM sur RTX 4060 Ti (8 / 16 Go) ?

RTX 4060 Ti 8 Go vs 16 Go : la version 16 Go transforme le LLM local. Benchmarks, modèles recommandés, +100 € bien dépensés.

RTX 40Lire →
130 sur 149 guides
Parcours guidés

Trois chemins,
selon qui vous êtes.

Chaque parcours est une séquence de guides pensée pour un profil précis. Du premier téléchargement jusqu'à un setup opérationnel.

01
Parcours curieux

« Je veux juste essayer, sans prise de tête. »

Vous avez entendu parler des LLM locaux et voulez voir ce que ça donne sur votre machine. Aucun code, aucune config système — en 10 minutes vous chattez avec votre premier modèle.

Durée totale
~15 min
Prérequis
Aucune
Ce que vous aurez à la fin
Ollama installé
Mistral 7B lancé
Premier prompt réussi
Commencer le parcours