Retour au blog
AI Tools 16 min read 8 mai 2026

Local Deep Research : lancez une recherche approfondie de niveau Perplexity entièrement sur votre machine

Local Deep Research (LDR) est un assistant de recherche IA open source qui interroge le web, les bases de données académiques et vos propres documents — puis synthétise tout en rapports cités. Entièrement local, zéro télémétrie, n'importe quel modèle de langage.

#IA Locale#Recherche Approfondie#Ollama#Confidentialité#Auto-hébergé#Open Source#LangChain#Recherche IA#RAG#Outils de Recherche

Perplexity facture un abonnement. ChatGPT Deep Research nécessite un niveau Plus et fonctionne sur l’infrastructure d’OpenAI. Chaque requête que vous soumettez à l’un ou l’autre entraîne leurs modèles, enrichit leurs analyses et laisse une trace de vos intérêts de recherche sur le serveur de quelqu’un d’autre.

Local Deep Research (LDR) est la réponse open source. Il réalise le même type de recherche approfondie, multi-sources et citée — en utilisant le modèle de langage de votre choix, fonctionnant entièrement sur votre propre matériel, avec zéro télémétrie et un stockage local chiffré en AES-256. Une seule commande Docker Compose et c’est lancé.

Ce guide couvre ce qu’est LDR, comment fonctionne le pipeline de recherche, comment le configurer, et où il surpasse réellement ses concurrents propriétaires.


Quel problème cela résout

La « recherche approfondie » en tant que catégorie de produit désigne quelque chose de précis : pas une simple recherche web et un paragraphe de résumé, mais une boucle agentique qui planifie une stratégie de recherche, lance plusieurs recherches, lit les résultats, décide quoi chercher ensuite, et synthétise tout en un document structuré avec de vraies citations.

L’écart entre une simple réponse de chatbot et un rapport de recherche approfondie est la différence entre poser une question à un collègue et lui demander de passer un après-midi à l’investiguer correctement. LDR automatise l’après-midi.

Les raisons de l’auto-héberger sont pratiques :

  • Confidentialité. Les requêtes de recherche révèlent l’intention. Analyse concurrentielle d’entreprise, questions de santé personnelle, recherches juridiques, thèses d’investissement — vous ne souhaitez peut-être pas que ces informations soient associées à votre compte sur un service externe.
  • Coût. LDR est un logiciel gratuit. Faites-le tourner avec un modèle local et votre coût marginal par requête est l’électricité. Utilisez un modèle via API et vous payez les coûts de tokens sans aucune majoration de plateforme.
  • Choix du modèle. Le backend de Perplexity est opaque. LDR fonctionne avec Ollama, LM Studio, llama.cpp, OpenAI, Anthropic, Google, ou l’un des 100+ modèles via OpenRouter. Vous choisissez le bon modèle pour la tâche.
  • Contrôle de la recherche. Plus de 20 moteurs de recherche configurables : bases de données académiques, agrégateurs de recherche respectueux de la vie privée, corpus spécialisés. Vous décidez ce qui est recherché et ce qui ne l’est pas.

Comment fonctionne le pipeline de recherche

Requête utilisateur


Sélection de la stratégie
(rapide / détaillée / itération-focalisée / agent LangGraph)


Lancement autonome des recherches
(web + académique + documents — en parallèle)


Synthèse des résultats via le modèle de langage


Attribution des sources + citation


Articles intéressants → Bibliothèque locale chiffrée


Rapport structuré (PDF / Markdown)

Les quatre stratégies de recherche couvrent différents compromis :

StratégieDuréeIdéal pour
Résumé rapide30 sec – 3 minRecherches factuelles rapides avec citations
Recherche détaillée5 – 15 minExploration multi-angles d’un sujet
Itération focalisée10 – 20 minApprofondissements haute précision (meilleurs scores de référence)
Agent LangGraphvariableAutonome — sélectionne dynamiquement moteurs et stratégies

Le mode agentique LangGraph est le plus puissant : il ne suit pas un plan de recherche fixe. Il évalue les résultats partiels en cours de recherche et décide s’il faut approfondir, chercher sur un autre moteur, ou synthétiser ce qu’il a. C’est plus proche de la façon dont un chercheur humain travaille réellement que d’un pipeline fixe.

La capitalisation des connaissances est l’autre différence architecturale importante à comprendre. Chaque session de recherche télécharge optionnellement des sources intéressantes dans une bibliothèque personnelle chiffrée. Les futures requêtes interrogent simultanément les résultats web en direct et votre base de connaissances privée accumulée. La bibliothèque grandit au fil du temps, et les recherches ultérieures sur des sujets connexes bénéficient de tout ce que vous avez collecté précédemment.


Backends de modèles de langage pris en charge

LDR fonctionne avec tout modèle accessible via une API compatible OpenAI — local ou cloud.

Local (sans coûts d’API)

BackendPoint d’accès par défautNotes
Ollamahttp://localhost:11434Installation locale la plus simple ; récupère les modèles via CLI
LM Studiohttp://localhost:1234/v1Interface graphique ; idéal pour changer de modèle facilement
llama.cpp + llama-serverhttp://localhost:8080/v1Meilleure performance par watt

Modèles testés : Llama 3.x, Mistral, Gemma 2, DeepSeek, Qwen 2.5. Tout modèle que votre matériel peut servir fonctionnera.

Cloud (clé API requise)

  • OpenAI : GPT-4o, GPT-4-mini, GPT-3.5-turbo
  • Anthropic : Claude 3 Opus, Sonnet, Haiku
  • Google : Gemini 1.5 Pro, Flash
  • OpenRouter : 100+ modèles avec une seule clé

Le choix du modèle influence significativement la qualité des résultats. Sur le benchmark SimpleQA, GPT-4-mini avec la stratégie d’itération focalisée a atteint 95% de précision. Gemini-2.0-flash a atteint 82%. Les modèles locaux obtiennent des scores inférieurs sur ce benchmark, mais l’écart se réduit significativement pour les recherches spécialisées où les données d’entraînement du modèle sont pertinentes.


Moteurs de recherche pris en charge

C’est là que LDR se distingue genuinement des alternatives propriétaires. Vous pouvez configurer exactement ce qui est recherché :

Bases de données académiques

  • arXiv — prépublications en physique, informatique, mathématiques, économie
  • PubMed — littérature biomédicale
  • Semantic Scholar — recherche académique assistée par IA
  • NASA ADS — astrophysique et sciences spatiales
  • Zenodo — données de recherche ouvertes et publications

Web général

  • SearXNG (auto-hébergé) — agrégateur respectueux de la vie privée qui interroge Google, Bing, DuckDuckGo et d’autres sans compte individuel sur aucun moteur
  • Wikipedia — contenu encyclopédique structuré, excellente densité de citations
  • Wayback Machine — versions archivées de pages web
  • Google via SerpAPI / PSE — si vous avez des clés

Spécialisés

  • GitHub — code source, READMEs, issues
  • OpenClaw — jurisprudence
  • Elasticsearch — vos propres collections de documents indexés

Options premium

  • Tavily — API de recherche web optimisée pour l’IA avec une haute qualité d’extraction
  • Brave Search — index indépendant, sans dépendance à Google
  • The Guardian — journalisme et contenu long format

Retrievers LangChain (personnalisés)

FAISS, Chroma, Pinecone, Weaviate et tout autre store vectoriel compatible LangChain peuvent être connectés comme source de recherche. Cela signifie que votre documentation interne, votre base de code ou votre base de connaissances propriétaire devient une source de recherche de premier plan aux côtés du web public.

Scoring de qualité des revues

LDR intègre plus de 212 000 sources indexées via OpenAlex et DOAJ pour le scoring de réputation des revues. Les résultats de recherche provenant de revues prédatrices ou de sources de faible qualité peuvent être filtrés ou signalés.


Installation

Docker Compose est la méthode recommandée. Il regroupe LDR, Ollama et SearXNG en une seule commande :

curl -O https://raw.githubusercontent.com/LearningCircuit/local-deep-research/main/docker-compose.yml
docker compose up -d

Ouvrez http://localhost:5000 après environ 30 secondes.

C’est le démarrage rapide complet. Ollama sert les modèles locaux. SearXNG gère la recherche web sans nécessiter de clés API externes. Toute la pile est autonome.

pip install (configuration développeur)

Si vous souhaitez intégrer LDR dans un projet Python ou personnaliser le code :

pip install local-deep-research

Fonctionne sous Windows, macOS et Linux. Les bibliothèques de chiffrement sont pré-compilées — aucune compilation manuelle nécessaire.

Unraid

LDR dispose d’un guide de déploiement dédié pour Unraid destiné aux configurations homelab où Docker Compose n’est pas le workflow principal.


Configuration

Paramètres du modèle de langage

Dans l’interface web (Paramètres → LLM), configurez :

  • Fournisseur : Ollama, OpenAI, Anthropic, etc.
  • Nom du modèle : llama3.2, gpt-4o-mini, claude-3-5-sonnet-20241022, etc.
  • Clé API et URL du point d’accès pour les fournisseurs non locaux
  • Température, tokens maximum, délai d’expiration des requêtes

Paramètres de recherche

Par moteur de recherche, configurez :

  • Activation/désactivation par type de recherche
  • Limitation de débit et comportement de nouvelle tentative
  • Clés API pour les moteurs premium (Tavily, SerpAPI, Brave)
  • URL de l’instance SearXNG personnalisée si vous hébergez la vôtre

Paramètres de recherche approfondie

  • Stratégie par défaut (rapide / détaillée / itération-focalisée / agent LangGraph)
  • Format de citation
  • Format d’export (PDF, Markdown)
  • Seuil de filtrage de qualité des revues

L’API REST et le serveur MCP

LDR expose une API REST complète avec authentification par utilisateur et support WebSocket pour les mises à jour de progression en temps réel. Cela le rend utilisable comme service backend dans des workflows plus larges — déclencher un job de recherche par programmation, diffuser la progression et collecter les résultats.

L’intégration du serveur MCP (Model Context Protocol) vous permet de connecter LDR directement à Claude Desktop ou Claude Code. Une fois connecté, vous pouvez invoquer des recherches depuis une conversation Claude :

OutilDuréeCe qu’il fait
search5–30 secondesRecherche sur un seul moteur, sans traitement LLM
quick_research1–5 minutesRéponse citée rapide
detailed_research5–15 minutesSynthèse multi-sources
generate_report10–30 minutesRapport structuré complet
analyze_documents30 sec–2 minInterroger votre bibliothèque locale

L’outil search sans traitement LLM est particulièrement utile pour les cas d’usage de surveillance — vous pouvez interroger des moteurs spécifiques par programmation sans consommer de tokens.


Architecture de confidentialité et de sécurité

Chiffrement

LDR utilise SQLCipher avec AES-256 — le même standard de chiffrement que Signal — pour le stockage de la base de données locale. Des bases de données isolées par utilisateur sans clé de déchiffrement principale permettent une conception zéro-connaissance : l’application ne peut pas déchiffrer les données d’un autre utilisateur même si elle le voulait.

Zéro télémétrie

  • Pas d’analytique, pas de traçage, pas d’appels vers l’extérieur
  • Activité réseau uniquement lorsque vous initiez une recherche
  • Aucun script externe chargé dans l’interface
  • Les métriques d’utilisation restent dans votre base de données locale chiffrée

La documentation est transparente sur la seule limitation : les identifiants conservés en mémoire de processus pendant une session active ne peuvent pas être chiffrés. C’est « une réalité acceptée dans l’industrie » partagée par les gestionnaires de mots de passe, les navigateurs et les clients API. Atténuation : durées de vie des identifiants limitées à la session et exclusion des core dumps.

Analyse de sécurité

Le pipeline CI exécute CodeQL, Semgrep, DevSkim et Bearer pour l’analyse statique. OWASP ZAP pour les tests dynamiques. Dockle, Hadolint et Checkov pour la sécurité des conteneurs. Gitleaks et OSV-Scanner pour la recherche de dépendances et de secrets. Les images Docker sont signées avec Cosign et livrées avec la provenance SLSA. Pour un outil axé sur la confidentialité, la posture de sécurité est inhabituellement rigoureuse.


Comparaison avec les alternatives propriétaires

LDRPerplexityChatGPT Deep Research
ConfidentialitéOption entièrement locale, zéro télémétrieCloud, analytiqueCloud
Choix du modèleN’importe quel modèle de langagePropriétaireGPT-4 uniquement
CoûtGratuit + coûts API optionnelsAbonnementNiveau Plus
Transparence des citationsSources + raisonnement visiblesSources affichéesSources affichées
Auto-hébergéOuiNonNon
API RESTREST complète + SDK PythonIndirectIndirect
Contrôle des moteurs de recherche20+ moteurs configurablesSélection propriétaireSélection propriétaire
Bases de données académiquesarXiv, PubMed, Semantic ScholarLimitéesLimitées
Documents locauxOui (bibliothèque chiffrée)NonNon

Les chiffres de référence soutiennent une parité de performance réelle pour les bonnes tâches : 95% de précision sur SimpleQA avec GPT-4-mini et la stratégie d’itération focalisée. C’est la position de référence que Perplexity et ChatGPT Deep Research occupent en tête des évaluations indépendantes.


Performances attendues

Le temps de recherche évolue avec la profondeur et la vitesse du modèle :

ModeDurée typique
Résumé rapide30 secondes – 3 minutes
Recherche détaillée5 – 15 minutes
Génération de rapport complet10 – 30 minutes

La vitesse du modèle local est la variable dominante. Un modèle 7B bien quantifié sur un GPU moderne est assez rapide pour une recherche détaillée confortable. Un modèle de 70B ou une inférence CPU lente se retrouvera vers les plages supérieures de ces durées.


Pour qui est-ce fait

Chercheurs et académiciens — revue de littérature sur arXiv, PubMed et Semantic Scholar en une seule requête, avec les résultats téléchargés dans une bibliothèque personnelle grandissante. Pas d’abonnement. Pas de limites de requêtes.

Journalistes et investigateurs — recherche avec attribution de sources et accès à la Wayback Machine pour le contenu archivé. Tout est local, rien n’est journalisé à l’extérieur.

Équipes d’entreprise — combinez un Elasticsearch privé ou un store vectoriel de documents internes avec une recherche web en direct. LDR interroge les deux simultanément. L’API REST s’intègre dans les workflows existants.

Particuliers soucieux de leur vie privée — tout faire tourner sur du matériel local avec un modèle local. Aucune requête ne quitte votre machine, sauf les recherches web que vous configurez explicitement.

Déploiements sensibles aux coûts — logiciel gratuit plus les coûts API que vous choisissez d’engager. Pas de frais par requête, pas de tarification par siège, pas de restrictions de niveau.


Le système de nouvelles et d’abonnements

LDR inclut un système de surveillance de sujets filtré par IA. Définissez des sujets à surveiller, configurez une planification, et LDR lance périodiquement des recherches et filtre les résultats via le modèle de langage pour ne faire remonter que les mises à jour genuinement pertinentes. Cela fonctionne sans consommer de tokens LLM à l’étape de recherche elle-même — les résultats bruts sont vérifiés en premier, et le modèle de langage ne traite que les résultats qui passent un filtre de pertinence initial.


Démarrage rapide

# Docker Compose (recommandé — inclut Ollama et SearXNG)
curl -O https://raw.githubusercontent.com/LearningCircuit/local-deep-research/main/docker-compose.yml
docker compose up -d
# → http://localhost:5000

# pip (utilisation développeur/intégration)
pip install local-deep-research

Le projet est sous licence MIT. La communauté est active sur Discord et r/LocalDeepResearch. Le classement des benchmarks est sur Hugging Face si vous souhaitez comparer les configurations avant de vous engager sur un choix de matériel ou de modèle.


Dépôt : github.com/LearningCircuit/local-deep-research

Questions fréquentes

De quoi parle Local Deep Research : lancez une recherche approfondie de niveau Perplexity entièrement sur votre machine ?

Local Deep Research (LDR) est un assistant de recherche IA open source qui interroge le web, les bases de données académiques et vos propres documents — puis synthétise tout en rapports cités. Entièrement local, zéro télémétrie, n'importe quel modèle de langage.

À qui s’adresse cet article ?

Cet article s’adresse aux ingénieurs, responsables techniques et équipes data travaillant sur IA Locale, Recherche Approfondie, Ollama.

Comment utiliser cet article ?

Utilisez-le comme référence pratique pour les décisions AI Tools, les arbitrages d’architecture et les workflows de production.

Article complet

Lire la version anglaise integrale

La version anglaise contient tout le detail de l’analyse, y compris les explications techniques, les exemples et les points de comparaison.

Ouvrir l’article anglais
Autres articles

Parcourir les autres resumes et articles du blog.

Projets

Voir les outils, datasets et bibliotheques publies.

Contact

Discuter d’un projet de donnees, d’IA ou d’architecture.