Perplexity facture un abonnement. ChatGPT Deep Research nécessite un niveau Plus et fonctionne sur l’infrastructure d’OpenAI. Chaque requête que vous soumettez à l’un ou l’autre entraîne leurs modèles, enrichit leurs analyses et laisse une trace de vos intérêts de recherche sur le serveur de quelqu’un d’autre.
Local Deep Research (LDR) est la réponse open source. Il réalise le même type de recherche approfondie, multi-sources et citée — en utilisant le modèle de langage de votre choix, fonctionnant entièrement sur votre propre matériel, avec zéro télémétrie et un stockage local chiffré en AES-256. Une seule commande Docker Compose et c’est lancé.
Ce guide couvre ce qu’est LDR, comment fonctionne le pipeline de recherche, comment le configurer, et où il surpasse réellement ses concurrents propriétaires.
Quel problème cela résout
La « recherche approfondie » en tant que catégorie de produit désigne quelque chose de précis : pas une simple recherche web et un paragraphe de résumé, mais une boucle agentique qui planifie une stratégie de recherche, lance plusieurs recherches, lit les résultats, décide quoi chercher ensuite, et synthétise tout en un document structuré avec de vraies citations.
L’écart entre une simple réponse de chatbot et un rapport de recherche approfondie est la différence entre poser une question à un collègue et lui demander de passer un après-midi à l’investiguer correctement. LDR automatise l’après-midi.
Les raisons de l’auto-héberger sont pratiques :
- Confidentialité. Les requêtes de recherche révèlent l’intention. Analyse concurrentielle d’entreprise, questions de santé personnelle, recherches juridiques, thèses d’investissement — vous ne souhaitez peut-être pas que ces informations soient associées à votre compte sur un service externe.
- Coût. LDR est un logiciel gratuit. Faites-le tourner avec un modèle local et votre coût marginal par requête est l’électricité. Utilisez un modèle via API et vous payez les coûts de tokens sans aucune majoration de plateforme.
- Choix du modèle. Le backend de Perplexity est opaque. LDR fonctionne avec Ollama, LM Studio, llama.cpp, OpenAI, Anthropic, Google, ou l’un des 100+ modèles via OpenRouter. Vous choisissez le bon modèle pour la tâche.
- Contrôle de la recherche. Plus de 20 moteurs de recherche configurables : bases de données académiques, agrégateurs de recherche respectueux de la vie privée, corpus spécialisés. Vous décidez ce qui est recherché et ce qui ne l’est pas.
Comment fonctionne le pipeline de recherche
Requête utilisateur
│
▼
Sélection de la stratégie
(rapide / détaillée / itération-focalisée / agent LangGraph)
│
▼
Lancement autonome des recherches
(web + académique + documents — en parallèle)
│
▼
Synthèse des résultats via le modèle de langage
│
▼
Attribution des sources + citation
│
▼
Articles intéressants → Bibliothèque locale chiffrée
│
▼
Rapport structuré (PDF / Markdown)
Les quatre stratégies de recherche couvrent différents compromis :
| Stratégie | Durée | Idéal pour |
|---|---|---|
| Résumé rapide | 30 sec – 3 min | Recherches factuelles rapides avec citations |
| Recherche détaillée | 5 – 15 min | Exploration multi-angles d’un sujet |
| Itération focalisée | 10 – 20 min | Approfondissements haute précision (meilleurs scores de référence) |
| Agent LangGraph | variable | Autonome — sélectionne dynamiquement moteurs et stratégies |
Le mode agentique LangGraph est le plus puissant : il ne suit pas un plan de recherche fixe. Il évalue les résultats partiels en cours de recherche et décide s’il faut approfondir, chercher sur un autre moteur, ou synthétiser ce qu’il a. C’est plus proche de la façon dont un chercheur humain travaille réellement que d’un pipeline fixe.
La capitalisation des connaissances est l’autre différence architecturale importante à comprendre. Chaque session de recherche télécharge optionnellement des sources intéressantes dans une bibliothèque personnelle chiffrée. Les futures requêtes interrogent simultanément les résultats web en direct et votre base de connaissances privée accumulée. La bibliothèque grandit au fil du temps, et les recherches ultérieures sur des sujets connexes bénéficient de tout ce que vous avez collecté précédemment.
Backends de modèles de langage pris en charge
LDR fonctionne avec tout modèle accessible via une API compatible OpenAI — local ou cloud.
Local (sans coûts d’API)
| Backend | Point d’accès par défaut | Notes |
|---|---|---|
| Ollama | http://localhost:11434 | Installation locale la plus simple ; récupère les modèles via CLI |
| LM Studio | http://localhost:1234/v1 | Interface graphique ; idéal pour changer de modèle facilement |
| llama.cpp + llama-server | http://localhost:8080/v1 | Meilleure performance par watt |
Modèles testés : Llama 3.x, Mistral, Gemma 2, DeepSeek, Qwen 2.5. Tout modèle que votre matériel peut servir fonctionnera.
Cloud (clé API requise)
- OpenAI : GPT-4o, GPT-4-mini, GPT-3.5-turbo
- Anthropic : Claude 3 Opus, Sonnet, Haiku
- Google : Gemini 1.5 Pro, Flash
- OpenRouter : 100+ modèles avec une seule clé
Le choix du modèle influence significativement la qualité des résultats. Sur le benchmark SimpleQA, GPT-4-mini avec la stratégie d’itération focalisée a atteint 95% de précision. Gemini-2.0-flash a atteint 82%. Les modèles locaux obtiennent des scores inférieurs sur ce benchmark, mais l’écart se réduit significativement pour les recherches spécialisées où les données d’entraînement du modèle sont pertinentes.
Moteurs de recherche pris en charge
C’est là que LDR se distingue genuinement des alternatives propriétaires. Vous pouvez configurer exactement ce qui est recherché :
Bases de données académiques
- arXiv — prépublications en physique, informatique, mathématiques, économie
- PubMed — littérature biomédicale
- Semantic Scholar — recherche académique assistée par IA
- NASA ADS — astrophysique et sciences spatiales
- Zenodo — données de recherche ouvertes et publications
Web général
- SearXNG (auto-hébergé) — agrégateur respectueux de la vie privée qui interroge Google, Bing, DuckDuckGo et d’autres sans compte individuel sur aucun moteur
- Wikipedia — contenu encyclopédique structuré, excellente densité de citations
- Wayback Machine — versions archivées de pages web
- Google via SerpAPI / PSE — si vous avez des clés
Spécialisés
- GitHub — code source, READMEs, issues
- OpenClaw — jurisprudence
- Elasticsearch — vos propres collections de documents indexés
Options premium
- Tavily — API de recherche web optimisée pour l’IA avec une haute qualité d’extraction
- Brave Search — index indépendant, sans dépendance à Google
- The Guardian — journalisme et contenu long format
Retrievers LangChain (personnalisés)
FAISS, Chroma, Pinecone, Weaviate et tout autre store vectoriel compatible LangChain peuvent être connectés comme source de recherche. Cela signifie que votre documentation interne, votre base de code ou votre base de connaissances propriétaire devient une source de recherche de premier plan aux côtés du web public.
Scoring de qualité des revues
LDR intègre plus de 212 000 sources indexées via OpenAlex et DOAJ pour le scoring de réputation des revues. Les résultats de recherche provenant de revues prédatrices ou de sources de faible qualité peuvent être filtrés ou signalés.
Installation
Docker Compose est la méthode recommandée. Il regroupe LDR, Ollama et SearXNG en une seule commande :
curl -O https://raw.githubusercontent.com/LearningCircuit/local-deep-research/main/docker-compose.yml
docker compose up -d
Ouvrez http://localhost:5000 après environ 30 secondes.
C’est le démarrage rapide complet. Ollama sert les modèles locaux. SearXNG gère la recherche web sans nécessiter de clés API externes. Toute la pile est autonome.
pip install (configuration développeur)
Si vous souhaitez intégrer LDR dans un projet Python ou personnaliser le code :
pip install local-deep-research
Fonctionne sous Windows, macOS et Linux. Les bibliothèques de chiffrement sont pré-compilées — aucune compilation manuelle nécessaire.
Unraid
LDR dispose d’un guide de déploiement dédié pour Unraid destiné aux configurations homelab où Docker Compose n’est pas le workflow principal.
Configuration
Paramètres du modèle de langage
Dans l’interface web (Paramètres → LLM), configurez :
- Fournisseur : Ollama, OpenAI, Anthropic, etc.
- Nom du modèle :
llama3.2,gpt-4o-mini,claude-3-5-sonnet-20241022, etc. - Clé API et URL du point d’accès pour les fournisseurs non locaux
- Température, tokens maximum, délai d’expiration des requêtes
Paramètres de recherche
Par moteur de recherche, configurez :
- Activation/désactivation par type de recherche
- Limitation de débit et comportement de nouvelle tentative
- Clés API pour les moteurs premium (Tavily, SerpAPI, Brave)
- URL de l’instance SearXNG personnalisée si vous hébergez la vôtre
Paramètres de recherche approfondie
- Stratégie par défaut (rapide / détaillée / itération-focalisée / agent LangGraph)
- Format de citation
- Format d’export (PDF, Markdown)
- Seuil de filtrage de qualité des revues
L’API REST et le serveur MCP
LDR expose une API REST complète avec authentification par utilisateur et support WebSocket pour les mises à jour de progression en temps réel. Cela le rend utilisable comme service backend dans des workflows plus larges — déclencher un job de recherche par programmation, diffuser la progression et collecter les résultats.
L’intégration du serveur MCP (Model Context Protocol) vous permet de connecter LDR directement à Claude Desktop ou Claude Code. Une fois connecté, vous pouvez invoquer des recherches depuis une conversation Claude :
| Outil | Durée | Ce qu’il fait |
|---|---|---|
search | 5–30 secondes | Recherche sur un seul moteur, sans traitement LLM |
quick_research | 1–5 minutes | Réponse citée rapide |
detailed_research | 5–15 minutes | Synthèse multi-sources |
generate_report | 10–30 minutes | Rapport structuré complet |
analyze_documents | 30 sec–2 min | Interroger votre bibliothèque locale |
L’outil search sans traitement LLM est particulièrement utile pour les cas d’usage de surveillance — vous pouvez interroger des moteurs spécifiques par programmation sans consommer de tokens.
Architecture de confidentialité et de sécurité
Chiffrement
LDR utilise SQLCipher avec AES-256 — le même standard de chiffrement que Signal — pour le stockage de la base de données locale. Des bases de données isolées par utilisateur sans clé de déchiffrement principale permettent une conception zéro-connaissance : l’application ne peut pas déchiffrer les données d’un autre utilisateur même si elle le voulait.
Zéro télémétrie
- Pas d’analytique, pas de traçage, pas d’appels vers l’extérieur
- Activité réseau uniquement lorsque vous initiez une recherche
- Aucun script externe chargé dans l’interface
- Les métriques d’utilisation restent dans votre base de données locale chiffrée
La documentation est transparente sur la seule limitation : les identifiants conservés en mémoire de processus pendant une session active ne peuvent pas être chiffrés. C’est « une réalité acceptée dans l’industrie » partagée par les gestionnaires de mots de passe, les navigateurs et les clients API. Atténuation : durées de vie des identifiants limitées à la session et exclusion des core dumps.
Analyse de sécurité
Le pipeline CI exécute CodeQL, Semgrep, DevSkim et Bearer pour l’analyse statique. OWASP ZAP pour les tests dynamiques. Dockle, Hadolint et Checkov pour la sécurité des conteneurs. Gitleaks et OSV-Scanner pour la recherche de dépendances et de secrets. Les images Docker sont signées avec Cosign et livrées avec la provenance SLSA. Pour un outil axé sur la confidentialité, la posture de sécurité est inhabituellement rigoureuse.
Comparaison avec les alternatives propriétaires
| LDR | Perplexity | ChatGPT Deep Research | |
|---|---|---|---|
| Confidentialité | Option entièrement locale, zéro télémétrie | Cloud, analytique | Cloud |
| Choix du modèle | N’importe quel modèle de langage | Propriétaire | GPT-4 uniquement |
| Coût | Gratuit + coûts API optionnels | Abonnement | Niveau Plus |
| Transparence des citations | Sources + raisonnement visibles | Sources affichées | Sources affichées |
| Auto-hébergé | Oui | Non | Non |
| API REST | REST complète + SDK Python | Indirect | Indirect |
| Contrôle des moteurs de recherche | 20+ moteurs configurables | Sélection propriétaire | Sélection propriétaire |
| Bases de données académiques | arXiv, PubMed, Semantic Scholar | Limitées | Limitées |
| Documents locaux | Oui (bibliothèque chiffrée) | Non | Non |
Les chiffres de référence soutiennent une parité de performance réelle pour les bonnes tâches : 95% de précision sur SimpleQA avec GPT-4-mini et la stratégie d’itération focalisée. C’est la position de référence que Perplexity et ChatGPT Deep Research occupent en tête des évaluations indépendantes.
Performances attendues
Le temps de recherche évolue avec la profondeur et la vitesse du modèle :
| Mode | Durée typique |
|---|---|
| Résumé rapide | 30 secondes – 3 minutes |
| Recherche détaillée | 5 – 15 minutes |
| Génération de rapport complet | 10 – 30 minutes |
La vitesse du modèle local est la variable dominante. Un modèle 7B bien quantifié sur un GPU moderne est assez rapide pour une recherche détaillée confortable. Un modèle de 70B ou une inférence CPU lente se retrouvera vers les plages supérieures de ces durées.
Pour qui est-ce fait
Chercheurs et académiciens — revue de littérature sur arXiv, PubMed et Semantic Scholar en une seule requête, avec les résultats téléchargés dans une bibliothèque personnelle grandissante. Pas d’abonnement. Pas de limites de requêtes.
Journalistes et investigateurs — recherche avec attribution de sources et accès à la Wayback Machine pour le contenu archivé. Tout est local, rien n’est journalisé à l’extérieur.
Équipes d’entreprise — combinez un Elasticsearch privé ou un store vectoriel de documents internes avec une recherche web en direct. LDR interroge les deux simultanément. L’API REST s’intègre dans les workflows existants.
Particuliers soucieux de leur vie privée — tout faire tourner sur du matériel local avec un modèle local. Aucune requête ne quitte votre machine, sauf les recherches web que vous configurez explicitement.
Déploiements sensibles aux coûts — logiciel gratuit plus les coûts API que vous choisissez d’engager. Pas de frais par requête, pas de tarification par siège, pas de restrictions de niveau.
Le système de nouvelles et d’abonnements
LDR inclut un système de surveillance de sujets filtré par IA. Définissez des sujets à surveiller, configurez une planification, et LDR lance périodiquement des recherches et filtre les résultats via le modèle de langage pour ne faire remonter que les mises à jour genuinement pertinentes. Cela fonctionne sans consommer de tokens LLM à l’étape de recherche elle-même — les résultats bruts sont vérifiés en premier, et le modèle de langage ne traite que les résultats qui passent un filtre de pertinence initial.
Démarrage rapide
# Docker Compose (recommandé — inclut Ollama et SearXNG)
curl -O https://raw.githubusercontent.com/LearningCircuit/local-deep-research/main/docker-compose.yml
docker compose up -d
# → http://localhost:5000
# pip (utilisation développeur/intégration)
pip install local-deep-research
Le projet est sous licence MIT. La communauté est active sur Discord et r/LocalDeepResearch. Le classement des benchmarks est sur Hugging Face si vous souhaitez comparer les configurations avant de vous engager sur un choix de matériel ou de modèle.