Meilleur LLM open-source pour le secteur juridique 2026
Choisir un LLM juridique open source en 2026 répond à une exigence métier précise : garder le contrôle des données clients, respecter le secret professionnel et déployer un modèle sous licence permissive sur infrastructure interne. Ce guide compare les modèles open-weights les plus pertinents pour les cabinets d'avocats, directions juridiques et legaltechs francophones, avec des spécifications matérielles, des licences vérifiables et des cas d'usage adaptés au droit français. Vous trouverez ci-dessous une sélection issue du catalogue quelllm.fr, un panorama des familles Mistral, DeepSeek, Qwen et Llama, des recommandations VRAM par taille de structure, puis une FAQ qui clôt les questions de licence, RGPD et confidentialité.
Pourquoi un LLM open source pour le secteur juridique
Le droit traite des données sensibles : dossiers clients, conventions, pièces de procédure, jurisprudence non publiée. Héberger un modèle sur ses propres serveurs (ou sur cloud souverain) supprime la transmission de prompts à un tiers et facilite la conformité avec le RGPD ainsi qu'avec les obligations de l'AI Act européen entré progressivement en application depuis 2024.
Trois bénéfices concrets pour une IA cabinet avocat auto-hébergée :
- Confidentialité : aucun prompt ne quitte le périmètre du cabinet, ce qui sécurise le secret professionnel garanti par l'article 66-5 de la loi de 1971.
- Fine-tuning métier : adaptation possible sur un corpus jurisprudentiel interne (arrêts de cours d'appel, doctrine, conclusions types).
- Coûts maîtrisés : pas de facturation au token, le coût se résume à l'infrastructure GPU et à l'énergie.
Les modèles sous licence Apache 2.0 ou MIT sont à privilégier : ils autorisent l'usage commercial, la modification et la redistribution sans clause de partage forcé. Les licences communautaires (Llama, Gemma) restent utilisables mais imposent un examen contractuel — voir le guide des licences open-weights.
Modèles recommandés pour la rédaction juridique en français
Le français juridique reste un domaine où peu de modèles excellent en zero-shot. Les acteurs européens et les grands modèles multilingues offrent les meilleurs résultats.
Famille Mistral — l'option française
- Mistral Large 3 675B (Apache 2.0, Mistral AI) — 675B paramètres, ~405 GB VRAM en Q4, contexte 256 000 tokens. Conçu en France, il maîtrise la syntaxe juridique francophone et accepte les très longs documents (mémoires, conclusions, contrats consolidés). Fiche : Mistral Large 3.
- Mistral Small 4 (Apache 2.0) — 119B, ~72 GB VRAM Q4, contexte 256 000. Bon compromis pour un cabinet de taille moyenne disposant de 2× A100 80GB ou 4× RTX 6000 Ada. Fiche : Mistral Small 4.
- Mixtral 8x22B Instruct (Apache 2.0) — 141B (39B actifs en MoE), ~82 GB VRAM Q4. Solution Mistral juridique robuste, déjà éprouvée dans plusieurs déploiements legaltech. Fiche : Mixtral 8x22B.
- Mixtral 8x7B (Apache 2.0) — 47B, ~26 GB VRAM Q4. Le plus accessible pour démarrer (1× RTX 4090 + offload CPU possible). Fiche : Mixtral 8x7B.
Mistral AI publie ses tokenizers et poids sur HuggingFace, ce qui simplifie l'audit interne.
Famille Qwen — multilingue performant
Alibaba publie une gamme Qwen sous Apache 2.0 dont les performances multilingues incluent le français.
- Qwen 3 235B-A22B (~142 GB VRAM Q4, ctx 131 072) — architecture MoE avec 22B paramètres actifs, adaptée à la synthèse de longs jugements. Fiche : Qwen 3 235B.
- Qwen 3.5 122B-A10B (~73 GB VRAM Q4, ctx 262 000) — 10B actifs, latence réduite pour la rédaction interactive.
- Qwen 3 32B (~19 GB VRAM Q4) — déployable sur une seule RTX 4090 ou A6000. Fiche : Qwen 3 32B.
- Qwen 3 VL 235B-A22B — variante vision pour OCR de pièces scannées et lecture de tableaux. Fiche : Qwen 3 VL 235B.
Voir le comparatif Mistral Large 3 vs Qwen 3 235B pour arbitrer entre francophonie native et polyvalence multilingue.
Famille DeepSeek — raisonnement long
DeepSeek se distingue sur le raisonnement structuré, utile pour les analyses de moyens, qualifications juridiques et constructions d'argumentaires.
- DeepSeek V3.2 (MIT, 685B, ~410 GB VRAM Q4, ctx 128 000) — Fiche : DeepSeek V3.2.
- DeepSeek R1 671B (MIT, ~400 GB VRAM Q4) — modèle de raisonnement publié avec l'article R1 sur arXiv. Fiche : DeepSeek R1 671B.
- DeepSeek R1 Distill 32B (~19 GB VRAM Q4) — version distillée pour serveur single-GPU. Fiche : DeepSeek R1 Distill 32B.
- DeepSeek R2 32B (~19 GB VRAM Q4, ctx 128 000) — itération 2026 avec raisonnement amélioré.
Spécifications matérielles par taille de cabinet
La VRAM nécessaire dépend de la quantification choisie. Règle approximative (à confirmer selon l'implémentation llama.cpp ou vLLM) :
- Q4 (4 bits) : ~0,60 GB par milliard de paramètres
- Q5 : ~0,75 GB / B
- Q8 : ~1,20 GB / B
- FP16 : ~2,00 GB / B
Cabinet individuel ou petite structure (1 à 5 avocats)
Budget GPU 2 000–6 000 €, 1× RTX 4090 24 GB ou 1× RTX 6000 Ada 48 GB :
- Qwen 3 30B-A3B (~19 GB Q4, 3B actifs en MoE — latence très basse) — fiche
- Mixtral 8x7B Q4 (~26 GB, offload partiel)
- Gemma 4 31B (Gemma license, ~18 GB Q4, ctx 256 000) — fiche
- Qwen 3.6 35B-A3B (~21 GB Q4)
Voir meilleur LLM 24 GB VRAM pour la sélection complète.
Cabinet moyen (10 à 50 avocats)
Serveur 2× A100 80GB ou 4× L40S 48GB :
- Mistral Small 4 Q4 ~72 GB
- Mixtral 8x22B Q4 ~82 GB
- Qwen 3.5 122B-A10B Q4 ~73 GB
- gpt-oss 120B (Apache 2.0, OpenAI) ~70 GB — fiche
Grande direction juridique ou legaltech
Cluster 8× H100 80GB (640 GB VRAM agrégée) ou 4× MI300X 192 GB :
- Mistral Large 3 675B Q4 ~405 GB
- DeepSeek V3.2 ~410 GB Q4
- Llama 4 Maverick 400B (~240 GB Q4, ctx 1 000 000) — fiche
Pour les architectures multi-GPU et tensor parallelism, consulter le guide d'inférence distribuée et la documentation vLLM.
Benchmarks pertinents pour le droit
Aucun benchmark public n'évalue spécifiquement le droit français, mais plusieurs proxies sont exploitables :
- MMLU (sous-catégories
professional_lawetinternational_law) — couvre principalement le droit américain mais sert d'indicateur. Référentiel : papier MMLU. - LegalBench (projet HuggingFace) — 162 tâches juridiques en anglais.
- MMLU-Pro — version durcie, utile pour la qualification juridique en chaîne de raisonnement.
Sur ces évaluations (chiffres publics à confirmer selon les versions) :
- Mistral Large 3 : MMLU estimé ~86 %
- DeepSeek V3.2 : MMLU ~88 %, MMLU-Pro ~75 %
- Qwen 3 235B-A22B : MMLU ~87 %
- Llama 3.3 70B Instruct : MMLU ~82 %, ctx 128 000 — fiche
Pour comparer code et raisonnement (utile pour automatiser le legal-ops et l'analyse de clauses), voir meilleur LLM code et meilleur LLM raisonnement.
Cas d'usage concrets en cabinet
- Synthèse de pièces de procédure : Mistral Large 3 ou Qwen 3.5 122B-A10B, contexte ≥ 200 000 tokens permettant d'ingérer un dossier complet.
- Rédaction de premier jet (conclusions, courriers, consultations) : Mistral Small 4 ou Mixtral 8x22B, suffisants pour produire un brouillon revu par l'avocat.
- Recherche jurisprudentielle assistée par RAG : pipeline Qwen 3 32B + base vectorielle Légifrance/Doctrine, déployable sur un serveur unique.
- Analyse de contrats et détection de clauses : DeepSeek R2 32B ou QwQ 32B pour la décomposition logique des engagements — fiche QwQ 32B.
- Anonymisation automatique de décisions : Granite 4.0 H-Small 32B-A9B (Apache 2.0, IBM, ~19 GB Q4) — fiche.
- OCR et lecture de pièces scannées : Qwen 3 VL 235B-A22B pour multimodalité document.
Un projet européen souverain mérite mention : Apertus 70B (Swiss AI, Apache 2.0, ~40 GB Q4) — fiche — entraîné avec une attention particulière à la conformité européenne et aux langues officielles suisses, dont le français.
Performances d'inférence (tokens/sec)
Estimations sur configurations courantes (à confirmer selon le runtime et le batch size) :
- Mixtral 8x7B Q4 sur RTX 4090 via llama.cpp : ~40-60 tok/s en single-stream
- Qwen 3 32B Q4 sur RTX 6000 Ada via vLLM : ~35-50 tok/s
- Mistral Small 4 Q4 sur 2× A100 80GB via vLLM : ~25-40 tok/s
- Mistral Large 3 Q4 sur 8× H100 80GB : ~15-30 tok/s, bien supérieur en throughput batché
Voir les méthodes de mesure du collectif llama.cpp pour les protocoles de benchmark reproductibles.
FAQ
Q : Quelle licence choisir pour un déploiement commercial en cabinet ?
Privilégier Apache 2.0 (Mistral, Qwen, Mixtral, gpt-oss, Apertus) ou MIT (DeepSeek). Ces licences autorisent explicitement l'usage commercial, la modification et la redistribution sans clause de partage forcé. Les licences communautaires Llama et Gemma sont utilisables mais imposent des plafonds d'utilisateurs (Llama) ou des restrictions d'usage (Gemma) qu'il convient de relire avec la direction juridique avant déploiement.
Q : Un LLM open source hébergé en interne est-il conforme RGPD ?
L'auto-hébergement supprime le transfert de données à un tiers, ce qui résout déjà une partie majeure des risques. La conformité finale dépend cependant de l'analyse d'impact (AIPD), du registre des traitements et des durées de conservation des prompts et complétions. Le déploiement self-host facilite la conformité mais ne l'épuise pas — un audit DPO reste nécessaire.
Q : Combien de VRAM pour Mistral Large 3 ?
En quantification Q4, Mistral Large 3 675B requiert environ 405 GB de VRAM agrégée, soit 6× H100 80GB ou 3× MI300X 192GB. En Q8 (plus précis), prévoir ~810 GB. Pour une qualité quasi équivalente avec une empreinte réduite, Mixtral 8x22B (~82 GB Q4) ou Mistral Small 4 (~72 GB Q4) constituent des alternatives raisonnables.
Q : Quel modèle pour le droit français avec un seul GPU 24 GB ?
Sur 24 GB de VRAM (RTX 4090, RTX 3090), les meilleurs candidats sont Qwen 3 30B-A3B (~19 GB Q4, faible latence grâce au MoE), Mixtral 8x7B Q4 (~26 GB avec offload léger), Gemma 4 31B (~18 GB Q4) ou DeepSeek R2 32B (~19 GB Q4). Voir la sélection détaillée sur meilleur LLM 24 GB VRAM.
Q : Peut-on fine-tuner un modèle sur sa propre jurisprudence ?
Oui, via LoRA ou QLoRA sur les modèles Apache 2.0 ou MIT. Comptez 24 à 80 GB de VRAM selon la taille du modèle de base et le rank LoRA choisi. Les modèles MoE (Mixtral, Qwen MoE) demandent des précautions particulières sur le routage. Voir le guide fine-tuning juridique pour les bonnes pratiques sur corpus annotés.
Q : Faut-il préférer un modèle dense ou MoE en cabinet ?
Un modèle dense (Llama 3.3 70B, Qwen 3 32B) délivre une qualité homogène et une intégration RAG simple. Un modèle MoE (Mixtral 8x22B, Qwen 3 235B-A22B) offre un meilleur ratio qualité/coût d'inférence car seuls les experts actifs consomment du compute, mais demande plus de VRAM totale pour charger tous les experts. Pour un usage interactif (rédaction assistée), le MoE est avantageux ; pour le batch (analyse massive), le dense reste compétitif.
Conclusion
Le choix d'un LLM juridique open source en 2026 se joue sur trois axes : licence permissive (Apache 2.0 ou MIT prioritaires), qualité francophone (Mistral en tête, suivi de Qwen et DeepSeek), et budget GPU réaliste (de la RTX 4090 au cluster H100). Pour affiner votre sélection selon votre VRAM disponible et votre cas d'usage précis, lancez le configurateur quelllm.fr ou parcourez le catalogue complet des 249 modèles indexés.