De quoi parle Local Deep Research : lancez une recherche approfondie de niveau Perplexity entièrement sur votre machine ?

Local Deep Research (LDR) est un assistant de recherche IA open source qui interroge le web, les bases de données académiques et vos propres documents — puis synthétise tout en rapports cités. Entièrement local, zéro télémétrie, n'importe quel modèle de langage.

À qui s’adresse cet article ?

Cet article s’adresse aux ingénieurs, responsables techniques et équipes data travaillant sur IA Locale, Recherche Approfondie, Ollama.

Comment utiliser cet article ?

Utilisez-le comme référence pratique pour les décisions AI Tools, les arbitrages d’architecture et les workflows de production.

Local Deep Research : lancez une…

Perplexity facture un abonnement. ChatGPT Deep Research nécessite un niveau Plus et fonctionne sur l’infrastructure d’OpenAI. Chaque requête que vous soumettez à l’un ou l’autre entraîne leurs modèles, enrichit leurs analyses et laisse une trace de vos intérêts de recherche sur le serveur de quelqu’un d’autre.

Local Deep Research (LDR) est la réponse open source. Il réalise le même type de recherche approfondie, multi-sources et citée — en utilisant le modèle de langage de votre choix, fonctionnant entièrement sur votre propre matériel, avec zéro télémétrie et un stockage local chiffré en AES-256. Une seule commande Docker Compose et c’est lancé.

Ce guide couvre ce qu’est LDR, comment fonctionne le pipeline de recherche, comment le configurer, et où il surpasse réellement ses concurrents propriétaires.

Quel problème cela résout

La « recherche approfondie » en tant que catégorie de produit désigne quelque chose de précis : pas une simple recherche web et un paragraphe de résumé, mais une boucle agentique qui planifie une stratégie de recherche, lance plusieurs recherches, lit les résultats, décide quoi chercher ensuite, et synthétise tout en un document structuré avec de vraies citations.

L’écart entre une simple réponse de chatbot et un rapport de recherche approfondie est la différence entre poser une question à un collègue et lui demander de passer un après-midi à l’investiguer correctement. LDR automatise l’après-midi.

Les raisons de l’auto-héberger sont pratiques :

Confidentialité. Les requêtes de recherche révèlent l’intention. Analyse concurrentielle d’entreprise, questions de santé personnelle, recherches juridiques, thèses d’investissement — vous ne souhaitez peut-être pas que ces informations soient associées à votre compte sur un service externe.
Coût. LDR est un logiciel gratuit. Faites-le tourner avec un modèle local et votre coût marginal par requête est l’électricité. Utilisez un modèle via API et vous payez les coûts de tokens sans aucune majoration de plateforme.
Choix du modèle. Le backend de Perplexity est opaque. LDR fonctionne avec Ollama, LM Studio, llama.cpp, OpenAI, Anthropic, Google, ou l’un des 100+ modèles via OpenRouter. Vous choisissez le bon modèle pour la tâche.
Contrôle de la recherche. Plus de 20 moteurs de recherche configurables : bases de données académiques, agrégateurs de recherche respectueux de la vie privée, corpus spécialisés. Vous décidez ce qui est recherché et ce qui ne l’est pas.

Comment fonctionne le pipeline de recherche

Requête utilisateur
    │
    ▼
Sélection de la stratégie
(rapide / détaillée / itération-focalisée / agent LangGraph)
    │
    ▼
Lancement autonome des recherches
(web + académique + documents — en parallèle)
    │
    ▼
Synthèse des résultats via le modèle de langage
    │
    ▼
Attribution des sources + citation
    │
    ▼
Articles intéressants → Bibliothèque locale chiffrée
    │
    ▼
Rapport structuré (PDF / Markdown)

Les quatre stratégies de recherche couvrent différents compromis :

Stratégie	Durée	Idéal pour
Résumé rapide	30 sec – 3 min	Recherches factuelles rapides avec citations
Recherche détaillée	5 – 15 min	Exploration multi-angles d’un sujet
Itération focalisée	10 – 20 min	Approfondissements haute précision (meilleurs scores de référence)
Agent LangGraph	variable	Autonome — sélectionne dynamiquement moteurs et stratégies

Le mode agentique LangGraph est le plus puissant : il ne suit pas un plan de recherche fixe. Il évalue les résultats partiels en cours de recherche et décide s’il faut approfondir, chercher sur un autre moteur, ou synthétiser ce qu’il a. C’est plus proche de la façon dont un chercheur humain travaille réellement que d’un pipeline fixe.

La capitalisation des connaissances est l’autre différence architecturale importante à comprendre. Chaque session de recherche télécharge optionnellement des sources intéressantes dans une bibliothèque personnelle chiffrée. Les futures requêtes interrogent simultanément les résultats web en direct et votre base de connaissances privée accumulée. La bibliothèque grandit au fil du temps, et les recherches ultérieures sur des sujets connexes bénéficient de tout ce que vous avez collecté précédemment.

Backends de modèles de langage pris en charge

LDR fonctionne avec tout modèle accessible via une API compatible OpenAI — local ou cloud.

Local (sans coûts d’API)

Backend	Point d’accès par défaut	Notes
Ollama	`http://localhost:11434`	Installation locale la plus simple ; récupère les modèles via CLI
LM Studio	`http://localhost:1234/v1`	Interface graphique ; idéal pour changer de modèle facilement
llama.cpp + llama-server	`http://localhost:8080/v1`	Meilleure performance par watt

Modèles testés : Llama 3.x, Mistral, Gemma 2, DeepSeek, Qwen 2.5. Tout modèle que votre matériel peut servir fonctionnera.

Cloud (clé API requise)

OpenAI : GPT-4o, GPT-4-mini, GPT-3.5-turbo
Anthropic : Claude 3 Opus, Sonnet, Haiku
Google : Gemini 1.5 Pro, Flash
OpenRouter : 100+ modèles avec une seule clé

Le choix du modèle influence significativement la qualité des résultats. Sur le benchmark SimpleQA, GPT-4-mini avec la stratégie d’itération focalisée a atteint 95% de précision. Gemini-2.0-flash a atteint 82%. Les modèles locaux obtiennent des scores inférieurs sur ce benchmark, mais l’écart se réduit significativement pour les recherches spécialisées où les données d’entraînement du modèle sont pertinentes.

Moteurs de recherche pris en charge

C’est là que LDR se distingue genuinement des alternatives propriétaires. Vous pouvez configurer exactement ce qui est recherché :

Bases de données académiques

arXiv — prépublications en physique, informatique, mathématiques, économie
PubMed — littérature biomédicale
Semantic Scholar — recherche académique assistée par IA
NASA ADS — astrophysique et sciences spatiales
Zenodo — données de recherche ouvertes et publications

Web général

SearXNG (auto-hébergé) — agrégateur respectueux de la vie privée qui interroge Google, Bing, DuckDuckGo et d’autres sans compte individuel sur aucun moteur
Wikipedia — contenu encyclopédique structuré, excellente densité de citations
Wayback Machine — versions archivées de pages web
Google via SerpAPI / PSE — si vous avez des clés

Spécialisés

GitHub — code source, READMEs, issues
OpenClaw — jurisprudence
Elasticsearch — vos propres collections de documents indexés

Options premium

Tavily — API de recherche web optimisée pour l’IA avec une haute qualité d’extraction
Brave Search — index indépendant, sans dépendance à Google
The Guardian — journalisme et contenu long format

Retrievers LangChain (personnalisés)

FAISS, Chroma, Pinecone, Weaviate et tout autre store vectoriel compatible LangChain peuvent être connectés comme source de recherche. Cela signifie que votre documentation interne, votre base de code ou votre base de connaissances propriétaire devient une source de recherche de premier plan aux côtés du web public.

Scoring de qualité des revues

LDR intègre plus de 212 000 sources indexées via OpenAlex et DOAJ pour le scoring de réputation des revues. Les résultats de recherche provenant de revues prédatrices ou de sources de faible qualité peuvent être filtrés ou signalés.

Installation

Docker Compose est la méthode recommandée. Il regroupe LDR, Ollama et SearXNG en une seule commande :

curl -O https://raw.githubusercontent.com/LearningCircuit/local-deep-research/main/docker-compose.yml
docker compose up -d

Ouvrez http://localhost:5000 après environ 30 secondes.

C’est le démarrage rapide complet. Ollama sert les modèles locaux. SearXNG gère la recherche web sans nécessiter de clés API externes. Toute la pile est autonome.

pip install (configuration développeur)

Si vous souhaitez intégrer LDR dans un projet Python ou personnaliser le code :

pip install local-deep-research

Fonctionne sous Windows, macOS et Linux. Les bibliothèques de chiffrement sont pré-compilées — aucune compilation manuelle nécessaire.

Unraid

LDR dispose d’un guide de déploiement dédié pour Unraid destiné aux configurations homelab où Docker Compose n’est pas le workflow principal.

Configuration

Paramètres du modèle de langage

Dans l’interface web (Paramètres → LLM), configurez :

Fournisseur : Ollama, OpenAI, Anthropic, etc.
Nom du modèle : llama3.2, gpt-4o-mini, claude-3-5-sonnet-20241022, etc.
Clé API et URL du point d’accès pour les fournisseurs non locaux
Température, tokens maximum, délai d’expiration des requêtes

Paramètres de recherche

Par moteur de recherche, configurez :

Activation/désactivation par type de recherche
Limitation de débit et comportement de nouvelle tentative
Clés API pour les moteurs premium (Tavily, SerpAPI, Brave)
URL de l’instance SearXNG personnalisée si vous hébergez la vôtre

Paramètres de recherche approfondie

Stratégie par défaut (rapide / détaillée / itération-focalisée / agent LangGraph)
Format de citation
Format d’export (PDF, Markdown)
Seuil de filtrage de qualité des revues

L’API REST et le serveur MCP

LDR expose une API REST complète avec authentification par utilisateur et support WebSocket pour les mises à jour de progression en temps réel. Cela le rend utilisable comme service backend dans des workflows plus larges — déclencher un job de recherche par programmation, diffuser la progression et collecter les résultats.

L’intégration du serveur MCP (Model Context Protocol) vous permet de connecter LDR directement à Claude Desktop ou Claude Code. Une fois connecté, vous pouvez invoquer des recherches depuis une conversation Claude :

Outil	Durée	Ce qu’il fait
`search`	5–30 secondes	Recherche sur un seul moteur, sans traitement LLM
`quick_research`	1–5 minutes	Réponse citée rapide
`detailed_research`	5–15 minutes	Synthèse multi-sources
`generate_report`	10–30 minutes	Rapport structuré complet
`analyze_documents`	30 sec–2 min	Interroger votre bibliothèque locale

L’outil search sans traitement LLM est particulièrement utile pour les cas d’usage de surveillance — vous pouvez interroger des moteurs spécifiques par programmation sans consommer de tokens.

Architecture de confidentialité et de sécurité

Chiffrement

LDR utilise SQLCipher avec AES-256 — le même standard de chiffrement que Signal — pour le stockage de la base de données locale. Des bases de données isolées par utilisateur sans clé de déchiffrement principale permettent une conception zéro-connaissance : l’application ne peut pas déchiffrer les données d’un autre utilisateur même si elle le voulait.

Zéro télémétrie

Pas d’analytique, pas de traçage, pas d’appels vers l’extérieur
Activité réseau uniquement lorsque vous initiez une recherche
Aucun script externe chargé dans l’interface
Les métriques d’utilisation restent dans votre base de données locale chiffrée

La documentation est transparente sur la seule limitation : les identifiants conservés en mémoire de processus pendant une session active ne peuvent pas être chiffrés. C’est « une réalité acceptée dans l’industrie » partagée par les gestionnaires de mots de passe, les navigateurs et les clients API. Atténuation : durées de vie des identifiants limitées à la session et exclusion des core dumps.

Analyse de sécurité

Le pipeline CI exécute CodeQL, Semgrep, DevSkim et Bearer pour l’analyse statique. OWASP ZAP pour les tests dynamiques. Dockle, Hadolint et Checkov pour la sécurité des conteneurs. Gitleaks et OSV-Scanner pour la recherche de dépendances et de secrets. Les images Docker sont signées avec Cosign et livrées avec la provenance SLSA. Pour un outil axé sur la confidentialité, la posture de sécurité est inhabituellement rigoureuse.

Comparaison avec les alternatives propriétaires

	LDR	Perplexity	ChatGPT Deep Research
Confidentialité	Option entièrement locale, zéro télémétrie	Cloud, analytique	Cloud
Choix du modèle	N’importe quel modèle de langage	Propriétaire	GPT-4 uniquement
Coût	Gratuit + coûts API optionnels	Abonnement	Niveau Plus
Transparence des citations	Sources + raisonnement visibles	Sources affichées	Sources affichées
Auto-hébergé	Oui	Non	Non
API REST	REST complète + SDK Python	Indirect	Indirect
Contrôle des moteurs de recherche	20+ moteurs configurables	Sélection propriétaire	Sélection propriétaire
Bases de données académiques	arXiv, PubMed, Semantic Scholar	Limitées	Limitées
Documents locaux	Oui (bibliothèque chiffrée)	Non	Non

Les chiffres de référence soutiennent une parité de performance réelle pour les bonnes tâches : 95% de précision sur SimpleQA avec GPT-4-mini et la stratégie d’itération focalisée. C’est la position de référence que Perplexity et ChatGPT Deep Research occupent en tête des évaluations indépendantes.

Performances attendues

Le temps de recherche évolue avec la profondeur et la vitesse du modèle :

Mode	Durée typique
Résumé rapide	30 secondes – 3 minutes
Recherche détaillée	5 – 15 minutes
Génération de rapport complet	10 – 30 minutes

La vitesse du modèle local est la variable dominante. Un modèle 7B bien quantifié sur un GPU moderne est assez rapide pour une recherche détaillée confortable. Un modèle de 70B ou une inférence CPU lente se retrouvera vers les plages supérieures de ces durées.

Pour qui est-ce fait

Chercheurs et académiciens — revue de littérature sur arXiv, PubMed et Semantic Scholar en une seule requête, avec les résultats téléchargés dans une bibliothèque personnelle grandissante. Pas d’abonnement. Pas de limites de requêtes.

Journalistes et investigateurs — recherche avec attribution de sources et accès à la Wayback Machine pour le contenu archivé. Tout est local, rien n’est journalisé à l’extérieur.

Équipes d’entreprise — combinez un Elasticsearch privé ou un store vectoriel de documents internes avec une recherche web en direct. LDR interroge les deux simultanément. L’API REST s’intègre dans les workflows existants.

Particuliers soucieux de leur vie privée — tout faire tourner sur du matériel local avec un modèle local. Aucune requête ne quitte votre machine, sauf les recherches web que vous configurez explicitement.

Déploiements sensibles aux coûts — logiciel gratuit plus les coûts API que vous choisissez d’engager. Pas de frais par requête, pas de tarification par siège, pas de restrictions de niveau.

Le système de nouvelles et d’abonnements

LDR inclut un système de surveillance de sujets filtré par IA. Définissez des sujets à surveiller, configurez une planification, et LDR lance périodiquement des recherches et filtre les résultats via le modèle de langage pour ne faire remonter que les mises à jour genuinement pertinentes. Cela fonctionne sans consommer de tokens LLM à l’étape de recherche elle-même — les résultats bruts sont vérifiés en premier, et le modèle de langage ne traite que les résultats qui passent un filtre de pertinence initial.

Démarrage rapide

# Docker Compose (recommandé — inclut Ollama et SearXNG)
curl -O https://raw.githubusercontent.com/LearningCircuit/local-deep-research/main/docker-compose.yml
docker compose up -d
# → http://localhost:5000

# pip (utilisation développeur/intégration)
pip install local-deep-research

Le projet est sous licence MIT. La communauté est active sur Discord et r/LocalDeepResearch. Le classement des benchmarks est sur Hugging Face si vous souhaitez comparer les configurations avant de vous engager sur un choix de matériel ou de modèle.

Dépôt : github.com/LearningCircuit/local-deep-research

Local Deep Research : lancez une recherche approfondie de niveau Perplexity entièrement sur votre machine