Neel Shah
Responsable technique · Ingenieur senior en donnees
Profil
Responsable technique et ingenieur senior en donnees avec plus de 10 ans d\'experience dans la livraison de systemes PySpark a grande echelle au sein de deux secteurs fortement reglementes et critiques : l\'infrastructure nationale de sante et le risque de credit en services financiers. A l\'ICIS, il dirige l\'ingenierie de pipelines traitant plus d\'un milliard de points de donnees de sante canadiennes pour des clients gouvernementaux et OBNL. Auparavant chez EXL / Goldman Sachs, il a construit des plateformes PySpark de risque de credit gerant les portefeuilles Apple Card, Walmart Card et GM Card a hauteur de 1 million de transactions par heure, avec plus de 10 millions de dollars d\'impact client. Expertise cloud sur Azure, AWS et Databricks, double master, chercheur publie avec 89+ citations et createur open source avec 3M+ telechargements.
Outils IA
- Claude (Anthropic)
- OpenAI / GPT-4
- Gemini
- Perplexity
- Conception de system prompts
- Workflows multi-tours
- Developpement accelere par l'IA
- Claude Agent SDK
- Orchestration multi-agents
- Tool use / function calling
- Pipelines de donnees agentiques
- LLM locaux (Ollama)
Competences techniques
Parcours professionnel
- A dirige la transformation du produit phare de R-D "CMG Grouper" de SAS vers Python et PySpark, avec un traitement allant jusqu'a 24 millions d'enregistrements et plus de 200 parametres en moins de 60 minutes.
- A concu et deploye un pipeline ETL de bout en bout pour Pop Grouper, integrant des donnees heterogenes provenant des hopitaux canadiens a l'echelle populationnelle, soit plus d'un milliard de points de donnees entre registres, diagnostics et jeux pharmaceutiques.
- Travaille avec des clients gouvernementaux, provinciaux et des OBNL du secteur de la sante, en pilotant la collecte des besoins, la relation client et la livraison sur plusieurs mandats paralleles.
- Encadre une equipe d'ingenierie pluridisciplinaire sur l'ensemble du cycle SDLC : architecture, developpement, revue de code, tests, deploiement et maintenance continue en environnement agile.
- Pilote les feuilles de route de projet et la communication avec les parties prenantes, avec responsabilite directe sur les jalons, la qualite et les resultats du programme.
- A concu et possede le moteur central de politiques cartes de credit avec Python, PySpark et FastAPI, couvrant les portefeuilles fraude et risque de credit Apple Card, Walmart Card et GM Card.
- A dessine des systemes de politiques fraude et credit capables de traiter un million de transactions financieres par heure avec conformite PII complete et pistes d'audit reglementaires.
- A architecture une API REST de gestion du risque de credit a grande echelle traitant plus de 1 000 demandes par minute avec une latence inferieure a la seconde.
- A resolu plusieurs incidents de production P0, avec des resultats ayant permis d'eviter au moins 10 millions de dollars d'exposition au risque cumulee pour les clients.
- A construit un cadre d'automatisation des tests Python et py-unit qui a reduit de 60 % le temps des tests de bout en bout.
- A mene la collecte des besoins techniques, l'evaluation de la pile technologique et des decisions cles de recrutement pour le mandat Goldman Sachs.
- A mene l'equipe web dans une transformation complete du mode cascade vers l'agile, en ameliorant l'efficacite de livraison et la qualite produit sur 42 sites de l'entreprise.
- A concu et deploye un microservice a haut debit avec Python, FastAPI, Docker et AWS, capable de traiter 100 000 requetes par heure.
- A developpe la virtualisation AEM des environnements developpement et production pour les 42 sites avec Docker, Python et AWS, generant 5 millions USD d'economies annuelles.
- A cree un outil d'analyse d'accessibilite WCAG couvrant l'ensemble des 42 sites via Python, API REST et SQL, pour assurer la conformite et ameliorer l'experience utilisateur.
- A defini les modeles de donnees et APIs de suivi KPI avec Python 3, API REST et MongoDB pour l'ensemble de l'ecosysteme numerique Canopy Growth.
- A diagnostique et resolu plusieurs incidents d'infrastructure, améliorant la stabilite et la disponibilite des systemes au-dela de 99 %.
- A construit, maintenu et fait evoluer une infrastructure cloud Azure de plus de 1 800 serveurs Windows et Linux avec un SLA de 99,99 %.
- A developpe des scripts d'automatisation pour la supervision, le patching et la maintenance des serveurs avec Python, API REST et Azure.
- A cree des tableaux de bord Power BI en temps reel pour l'infrastructure Azure, donnant a l'equipe d'operations une visibilite continue sur plus de 1 800 serveurs.
- A developpe et maintenu des scripts Python pour l'environnement de calcul distribue AXIS et Moody's, reduisant les couts operationnels de 5 %.
- A automatise le pipeline CI/CD avec Python, Docker et Git, en reduisant de 45 minutes le temps de debogage grace a des tests automatises des environnements Azure.
- A concu et developpe un systeme analytique aeroportuaire en temps reel integrant LiDAR et materiel camera avec Python et programmation reactive, pour offrir une conscience operationnelle en direct.
- A pilote la migration d'une base de code Python 2 a grande echelle vers Python 3, en modernisant des systemes centraux sans interruption de service.
- A transforme un systeme monolithique legacy en architecture microservices cloud sur Azure, avec des gains significatifs de scalabilite et de fiabilite.
- A reduit de 30 minutes le temps des tests backend en integrant l'automatisation dans le pipeline CI.
- A construit une plateforme globale de visualisation Power BI pour l'analyse des lignes produits Azure, permettant des decisions pilotees par la donnee a l'echelle de l'organisation.
- A publie 3 articles scientifiques evalués par les pairs sur le TALN, l'analyse de sante publique et les systemes distribues, pour plus de 89 citations, avec financement NSERC de 7 000 dollars par an.
- A concu et developpe un cluster Elasticsearch de 20 noeuds capable de rechercher 330 millions de tweets par seconde pour des analyses de sante publique sur les reseaux sociaux.
- A construit un pipeline ETL complet et une plateforme analytique sur AWS servant de source de donnees principale pour Sante Canada et les equipes internes de recherche.
- A developpe un modele TALN Random Forest atteignant 93,4 % de precision pour la classification de sante publique a l'echelle populationnelle.
- A construit une API analytique asynchrone pour chatbots capable de traiter des milliers de requetes par seconde.
- A developpe plus de 5 tableaux de bord temps reel sur AWS pour l'analyse semantique et l'extraction de sujets de conversations chatbot.
- A concu un algorithme de clustering pour des systemes d'aide a la decision conversationnels.
- A cree des outils Python et Bash pour l'automatisation de centres d'appels, la conversion de donnees et l'integration API REST, JSON et CRUD.
- A construit un systeme d'analyse en temps reel des couts produits bruts et de la logistique transport avec SAP et Python.
- A developpe un modele de prevision des ventes par series temporelles pour les lignes de glaces avec une efficacite de prediction de 71 %.
- A concu une logique ETL et un pipeline de generation de rapports pour les donnees ventes, couts et stocks dans plusieurs formats, dont Excel, CSV et PDF.
- A collabore avec les responsables data warehouse pour evaluer et revoir l'architecture ETL, en ameliorant le debit et la maintenabilite des pipelines.