Adel
EL HADDAD
Contact
Articles
Data Engineer
Qu'est-ce qu'un Data Engineer ?
Que fait-il ?
1. Identification des exigences
1. Comprendre le problème métier et les objectifs
2. Comprendre les utilisateurs et leurs besoins
3. Explorer les sources de données
4. Définir les spécifications techniques
2. Découverte et analyse des données
PostgreSQL (Commands, Snippets ...)
3. Conception de l’architecture
PostgreSQL (Commands, Snippets ...)
4. Implémentation des pipelines
5. Tests et déploiement
6. Documentation et communication
Combien gagne-t-il ?
Comment débuter ?
Data Analyst
Qu'est-ce qu'un Data Analyst ?
Que fait-il ?
Combien gagne-t-il ?
Comment débuter ?
Bases de Python
Where X=Python
SQL
Git
Linux
Boite à outils
Intelligence artificielle (IA)
Ollama
getting-started-with-docker-dockerfile
RAG
Databases
Sqlite
Sqlite est toujours vivant !
Postgresql
Génération mot de passe SCHA-256
Gestion des rôles
Gestion des utilisateurs
Optimisation des performances
Remonter et tracer les erreurs
Programming language
Python
Java
CLOUD
AWS
Infrastructure as code
Terraform
Automation engine
Ansible
Ansible - Create directory
Virtualization
Docker
Les instructions d’un Dockerfile
Kubernetes
OS
Linux
Linux - Commands
Linux - CHILD
MacOS
WSL2
Windows
Un mélange de tout
Autres
Générateur de UUID aléatoire
Générateur de mot de passe aléatoire
Adel EL HADDAD
DATA ENGINEER
06 23 58 53 97
[email protected]
Python (Django, FastAPI, Flask)
PostgreSQL
PL/SQL
Awk
Bash
DBT
NoSQL (MongoDB)
Redshift
Sentry
Apache Superset
Spark
Kafka
Embulk
Airflow
Grafana (Prometheus)
Java
Dash
MySQL
AWS
EC2
S3
Athena
Lambda
GitLab CI/CD
Apache Spark
Apache Kafka
Apache NIFI
Redis
Fail2ban
Ansible
Pandas
BeautifulSoup
Selenium
openpyxl
matplotlib
Seaborne
NumPy
EXPÉRIENCE
Sully Group
Conseil National de l’Ordre des Médecins (CNOM)
Depuis Septembre 2024
Déploiement de
Superset 4
, assurant des analyses dynamiques et fiables, intégrée à des flux de données automatisés via DBT, GitLab CI/CD, et sécurisée avec Keycloak.
Migration des données MySQL Server vers PostgreSQL, avec transformation et nettoyage automatisés grâce à
DBT
,
Bash
, et
Python (Pandas)
et déploiement de Superset pour la visualisation des données, la création de tableaux de bord interactifs et filtres avancés.
Intégration de
Keycloak
pour l'authentification centralisée avec gestion fine des rôles et des permissions, adaptée aux besoins métier spécifiques.
Mise en place d'une chaîne
CI/CD GitLab
pour automatiser les déploiements et les tests.
Formation des utilisateurs à l’utilisation de Superset, avec un focus sur l’autonomie dans l’exploration et l’analyse des données.
Impact :
Solution retenue après évaluation comparative avec Power BI.
Technologies :
Docker, Superset, Keycloak, PostgreSQL, Nginx, CI/CD Gitlab.
Sully Group
Ministère de l’Education Nationale
Depuis Septembre 2024
Révision complète de l’architecture pour améliorer la maintenabilité, la performance et la sécurité. du projet HERGE
Dockerisation du projet et migration des bibliothèques Python avec correction des incompatibilités dans le code avec migration vers Django 5 et PostgreSQL 15.
Tunning et Implémentation d’une gestion fine des permissions dans PostgreSQL, avec une amélioration net des performances.
Réfactorisation des modules ArcGIS et JavaScript et optimisation des performances.
Mise en place d'une chaîne CI/CD GitLab pour automatiser les déploiements et les tests.
Suivi et support technique de l’équipe de développement.
Impact :
Solution retenue après évaluation comparative avec Power BI.
Technologies :
Docker, Superset, Keycloak, PostgreSQL, Nginx, CI/CD Gitlab.
Sully Group
Santé Publique France
SUMEAU
Depuis Septembre 2024
Mise en place du système de surveillance microbiologique des eaux usées (SUMEAU)
Conception et optimisation des pipelines d’ingestion batch quotidiennes, intégrant l’analyse, le nettoyage et l’agrégation des données. Orchestration des traitements avec Airflow, incluant la mise à jour à la demande des référentiels via une communication avec un serveur Flask. Gestion des données issues des laboratoires, ingérées quotidiennement sous forme de fichiers plats via des DAGs Airflow.
Maintenance corrective, diagnostic des anomalies techniques (astreintes incluses).
Revue de code et accompagnement technique des développeurs.
Impact :
Autonomie des équipes métier dans la gestion des pipelines sous Airflow, avec un suivi précis de la qualité des données et leur visualisation via Grafana.
Technologies :
Docker, Airflow, Grafana, Python, Bash.
Sully Group
Réserve Sanitaire
RSPO
Depuis Septembre 2024
Développement d'une pipline “Compteur de jours mobilisés”, pour remplacer plusieurs fichiers Excel devenu inefficace face à la volumétrie croissante des données. permettant le suivi des jours mobilisés par les réservistes, réduisant ainsi le travail manuel.
Gestion des fichiers Excel (.xlsx) massifs avec extraction, nettoyage, et calcul des indicateurs (dépassements, alertes).
Développement d’un processus pour le movement et la traçabilité des fichiers, avec logs détaillés et notifications.
Implémentation de règles complexes sous Excel et intégration d’une supervision avancée.
Impact :
Traitement
97%
plus rapide.
Technologies :
Docker, Python, Bash, Automatisation de processus, Excel avancé (Openpyxl).
Sully Group
Santé Publique France
COVID-19
SIDEP
VACSI
SIVIC
PROTOCOLES
Depuis Septembre 2024
Afin de répondre à la forte demande des épidémiologistes et data scientists durant la pandémie, Santé Publique France a sollicité l’expertise de Sully Group pour le traitement et le croisement des données de santé publique
Développement d’algorithmes avancés pour la détection de clusters COVID-19 et l’analyse des tendances épidémiologiques, en collaboration avec les épidémiologistes.
Conception et implémentation d’algorithmes avancés pour la détection de clusters COVID-19 et l’agrégation de données massives, en partenariat avec les épidémiologistes et data scientists, pour l’identification rapide des tendances critiques.
Développement de protocoles spécifiques permettant l’analyse des variants de COVID-19 les plus virulents et l’évaluation de l’efficacité des vaccins, en exploitant des données issues de multiples sources et formats.
Nettoyage, normalisation et agrégation de données massives (SIDEP, VACSI, SIVIC, CONTACT COVID) pour une exploitation efficace.
Maintenance de la cohérence entre le data warehouse et les data marts, tout en assurant la disponibilité et la qualité des données pour l’open data.
Surveillance de la qualité des données, avec application de correctifs et de patchs pour résoudre les incohérences et garantir leur fiabilité.
Préparation des données pour leur publication en open data, dans le respect des standards et des contraintes réglementations des données de santé (RGPD, CNIL).
Analyse des besoins métier, estimation des charges et rédaction des spécifications techniques.
Mise en place de socles techniques adaptés aux contraintes applicatives.
Conception, développement et optimisation de services REST, modules et pipelines de données (Batch & Stream).
Réalisation de tests unitaires/intégration, documentation technique et fonctionnelle.
Préparation des livrables, déploiement des nouvelles versions et diagnostic des anomalies (astreintes incluses).
Revue de code, pair-programming et accompagnement des développeurs.
Impact :
Traitement 82 % plus rapide.
Technologies :
Docker, Python, Bash, Automatisation de processus, Excel avancé (Openpyxl).
Balance due:
USD $434.00