Neel Shah

Responsable technique · Ingenieur senior en donnees

Profil

Responsable technique et ingenieur senior en donnees avec plus de 10 ans d\'experience dans la livraison de systemes PySpark a grande echelle au sein de deux secteurs fortement reglementes et critiques : l\'infrastructure nationale de sante et le risque de credit en services financiers. A l\'ICIS, il dirige l\'ingenierie de pipelines traitant plus d\'un milliard de points de donnees de sante canadiennes pour des clients gouvernementaux et OBNL. Auparavant chez EXL / Goldman Sachs, il a construit des plateformes PySpark de risque de credit gerant les portefeuilles Apple Card, Walmart Card et GM Card a hauteur de 1 million de transactions par heure, avec plus de 10 millions de dollars d\'impact client. Expertise cloud sur Azure, AWS et Databricks, double master, chercheur publie avec 89+ citations et createur open source avec 3M+ telechargements.

10+
Annees d'experience
1B+
Points de donnees de sante
1M/h
Transactions
$10M+
Impact client
89+
Citations
3M+
Telechargements OSS

Outils IA

Ingenierie de prompts
  • Claude (Anthropic)
  • OpenAI / GPT-4
  • Gemini
  • Perplexity
  • Conception de system prompts
  • Workflows multi-tours
  • Developpement accelere par l'IA
Creation d'agents
  • Claude Agent SDK
  • Orchestration multi-agents
  • Tool use / function calling
  • Pipelines de donnees agentiques
  • LLM locaux (Ollama)

Competences techniques

Langages
Python · SQL · R · Rust · Go · Kotlin · JavaScript · Bash
Big Data
PySpark · Apache Spark · Databricks · Elasticsearch · ETL · Data lakes
Cloud
Azure · AWS · Databricks · Docker · CI/CD · GitHub Actions
API et web
FastAPI · Flask · REST · MongoDB · PostgreSQL · Microservices
Data et ML
Pandas · NumPy · SciPy · scikit-learn · Random Forest · TALN · NLTK
Visualisation
Power BI · Kibana · Tableaux de bord temps reel
Pratiques
Agile · Scrum · TDD · Revue de code · Leadership technique · SDLC
Secteurs
Sante · Services financiers · Risque de credit · PII / PIPEDA · Gouvernement et OBNL

Parcours professionnel

Institut canadien d'information sur la sante (ICIS)
Responsable technique
Juillet 2023 - aujourd'hui
Ottawa, ON
PySparkPythonETLAzureDonnees de santeAgile
  • A dirige la transformation du produit phare de R-D "CMG Grouper" de SAS vers Python et PySpark, avec un traitement allant jusqu'a 24 millions d'enregistrements et plus de 200 parametres en moins de 60 minutes.
  • A concu et deploye un pipeline ETL de bout en bout pour Pop Grouper, integrant des donnees heterogenes provenant des hopitaux canadiens a l'echelle populationnelle, soit plus d'un milliard de points de donnees entre registres, diagnostics et jeux pharmaceutiques.
  • Travaille avec des clients gouvernementaux, provinciaux et des OBNL du secteur de la sante, en pilotant la collecte des besoins, la relation client et la livraison sur plusieurs mandats paralleles.
  • Encadre une equipe d'ingenierie pluridisciplinaire sur l'ensemble du cycle SDLC : architecture, developpement, revue de code, tests, deploiement et maintenance continue en environnement agile.
  • Pilote les feuilles de route de projet et la communication avec les parties prenantes, avec responsabilite directe sur les jalons, la qualite et les resultats du programme.
EXL Service (mandat chez Goldman Sachs)
Consultant principal
Mai 2022 - Juillet 2023
Ottawa, ON
PySparkPythonFastAPIRisque de creditServices financiers
  • A concu et possede le moteur central de politiques cartes de credit avec Python, PySpark et FastAPI, couvrant les portefeuilles fraude et risque de credit Apple Card, Walmart Card et GM Card.
  • A dessine des systemes de politiques fraude et credit capables de traiter un million de transactions financieres par heure avec conformite PII complete et pistes d'audit reglementaires.
  • A architecture une API REST de gestion du risque de credit a grande echelle traitant plus de 1 000 demandes par minute avec une latence inferieure a la seconde.
  • A resolu plusieurs incidents de production P0, avec des resultats ayant permis d'eviter au moins 10 millions de dollars d'exposition au risque cumulee pour les clients.
  • A construit un cadre d'automatisation des tests Python et py-unit qui a reduit de 60 % le temps des tests de bout en bout.
  • A mene la collecte des besoins techniques, l'evaluation de la pile technologique et des decisions cles de recrutement pour le mandat Goldman Sachs.
Canopy Growth Corporation
Architecte systemes web
Juillet 2021 - Avril 2022
Ottawa, ON
PythonFastAPIDockerAWSMongoDBMicroservices
  • A mene l'equipe web dans une transformation complete du mode cascade vers l'agile, en ameliorant l'efficacite de livraison et la qualite produit sur 42 sites de l'entreprise.
  • A concu et deploye un microservice a haut debit avec Python, FastAPI, Docker et AWS, capable de traiter 100 000 requetes par heure.
  • A developpe la virtualisation AEM des environnements developpement et production pour les 42 sites avec Docker, Python et AWS, generant 5 millions USD d'economies annuelles.
  • A cree un outil d'analyse d'accessibilite WCAG couvrant l'ensemble des 42 sites via Python, API REST et SQL, pour assurer la conformite et ameliorer l'experience utilisateur.
  • A defini les modeles de donnees et APIs de suivi KPI avec Python 3, API REST et MongoDB pour l'ensemble de l'ecosysteme numerique Canopy Growth.
  • A diagnostique et resolu plusieurs incidents d'infrastructure, améliorant la stabilite et la disponibilite des systemes au-dela de 99 %.
Manuvie
Developpeur Python senior
Aout 2020 - Juillet 2021
Waterloo, ON
AzurePythonPower BICI/CDInfrastructure cloud
  • A construit, maintenu et fait evoluer une infrastructure cloud Azure de plus de 1 800 serveurs Windows et Linux avec un SLA de 99,99 %.
  • A developpe des scripts d'automatisation pour la supervision, le patching et la maintenance des serveurs avec Python, API REST et Azure.
  • A cree des tableaux de bord Power BI en temps reel pour l'infrastructure Azure, donnant a l'equipe d'operations une visibilite continue sur plus de 1 800 serveurs.
  • A developpe et maintenu des scripts Python pour l'environnement de calcul distribue AXIS et Moody's, reduisant les couts operationnels de 5 %.
  • A automatise le pipeline CI/CD avec Python, Docker et Git, en reduisant de 45 minutes le temps de debogage grace a des tests automatises des environnements Azure.
SITA
Developpeur Python
Septembre 2019 - Juin 2020
Montreal, QC
PythonAzureMicroservicesPower BISystemes temps reel
  • A concu et developpe un systeme analytique aeroportuaire en temps reel integrant LiDAR et materiel camera avec Python et programmation reactive, pour offrir une conscience operationnelle en direct.
  • A pilote la migration d'une base de code Python 2 a grande echelle vers Python 3, en modernisant des systemes centraux sans interruption de service.
  • A transforme un systeme monolithique legacy en architecture microservices cloud sur Azure, avec des gains significatifs de scalabilite et de fiabilite.
  • A reduit de 30 minutes le temps des tests backend en integrant l'automatisation dans le pipeline CI.
  • A construit une plateforme globale de visualisation Power BI pour l'analyse des lignes produits Azure, permettant des decisions pilotees par la donnee a l'echelle de l'organisation.
Lakehead University
Assistant de recherche et developpeur Python
Novembre 2017 - Mai 2019
Thunder Bay, ON
PythonElasticsearchAWSETLTALNRecherche
  • A publie 3 articles scientifiques evalués par les pairs sur le TALN, l'analyse de sante publique et les systemes distribues, pour plus de 89 citations, avec financement NSERC de 7 000 dollars par an.
  • A concu et developpe un cluster Elasticsearch de 20 noeuds capable de rechercher 330 millions de tweets par seconde pour des analyses de sante publique sur les reseaux sociaux.
  • A construit un pipeline ETL complet et une plateforme analytique sur AWS servant de source de donnees principale pour Sante Canada et les equipes internes de recherche.
  • A developpe un modele TALN Random Forest atteignant 93,4 % de precision pour la classification de sante publique a l'echelle populationnelle.
Datalog.ai
Developpeur Python
Janvier 2017 - Aout 2017
A distance
PythonAWSAPIsTALNChatbot
  • A construit une API analytique asynchrone pour chatbots capable de traiter des milliers de requetes par seconde.
  • A developpe plus de 5 tableaux de bord temps reel sur AWS pour l'analyse semantique et l'extraction de sujets de conversations chatbot.
  • A concu un algorithme de clustering pour des systemes d'aide a la decision conversationnels.
  • A cree des outils Python et Bash pour l'automatisation de centres d'appels, la conversion de donnees et l'integration API REST, JSON et CRUD.
Panchamrut Dairy
Developpeur Python et analyste de donnees
Juillet 2014 - Decembre 2016
Godhra, Gujarat, Inde
PythonSAPSeries temporellesETLPower BI
  • A construit un systeme d'analyse en temps reel des couts produits bruts et de la logistique transport avec SAP et Python.
  • A developpe un modele de prevision des ventes par series temporelles pour les lignes de glaces avec une efficacite de prediction de 71 %.
  • A concu une logique ETL et un pipeline de generation de rapports pour les donnees ventes, couts et stocks dans plusieurs formats, dont Excel, CSV et PDF.
  • A collabore avec les responsables data warehouse pour evaluer et revoir l'architecture ETL, en ameliorant le debit et la maintenabilite des pipelines.

Formation

M.Sc. Informatique
Lakehead University
GPA 3,9 / 4,0 · 2017-2019
Thunder Bay, ON, Canada
Finance par le CRSNG
M.Sc. Technologies de l'information
Gujarat Technology University
CGPA 8,73 / 10 · 2014-2016
Vadodara, Inde
B.Eng. Informatique
Gujarat Technology University
CGPA 7,23 / 10 · 2010-2014
Vadodara, Inde
1er rang - certificat d'excellence

Recherche et publications

3 articles evalues par les pairs 89+ citations Subvention de decouverte CRSNG - 7 000 $/an
A Framework for Social Media Data Analytics using Elasticsearch and Kibana
64 citations
Shah N., Willick D.L., Mago V.K. · Wireless Networks, Springer (2018)
DOI: 10.1007/s11276-018-01896-2
Assessing Canadians Health Activity and Nutritional Habits Through Social Media
25 citations
Shah N., Srivastava G., Savage D.W., Mago V. · Frontiers in Public Health (2020)
DOI: 10.3389/fpubh.2019.00400
The Analysis of Canada's Health Through Social Media Using Machine Learning
Shah N. · Lakehead University Knowledge Commons (2019)

Open source notable

Langues

Anglais Langue maternelle / bilingue
Hindi Langue maternelle / bilingue
Gujarati Langue maternelle / bilingue
Francais Niveau elementaire
Sanskrit Niveau limite