Le/la Data Engineer interviendra au cœur des pipelines de données en production, avec un fort impact sur la fiabilité, la performance et l’évolutivité des traitements.
Technologies principales :
Python (niveau avancé) : traitement de données à grande échelle, pandas, normalisation de textes multilingues
PostgreSQL (niveau avancé) : optimisation de requêtes complexes, utilisation de ARRAY, JSONB, analyse de plans d’exécution
ETL / ELT : conception et maintenance de pipelines robustes (idempotence, gestion des erreurs en cascade)
Prefect en production (ou Airflow) : pilotage de 4 flux critiques interdépendants (priorité majeure)
Cloud AWS : S3, EFS, Aurora, EC2
ClickHouse : migration et tests de performance en cours
Master ou diplôme d’ingénieur
A partir de 5 ans d’expérience en Python
Expérience sur Airflow (ou Perfect Production)
Expérience sur un Cloud AWS, GCP, Azure…
Refonte et fiabilisation de pipelines ETL legacy en production
Mise en place de pratiques de data quality engineering : validations automatiques, monitoring (Grafana), alertes (Slack)
Gestion de volumes de données importants (>10M de lignes) avec des contraintes fortes de performance
Culture des tests : pytest, CI/CD, couverture significative
Expérience en startup ou scale-up : autonomie, pragmatisme, sens des priorités
BigQuery : migration, optimisation des coûts ou des performances
ClickHouse : POC ou implémentations orientées performance
IA / LLM : intégration d’API dans des pipelines data
Computer Vision : classification d’images (produits, mode)
Traitement de texte : regex, matching de mots-clés, normalisation multilingue
Rencontrez Mikael, Business Developer & Recruiter
Rencontrez Marion, Team Manager
Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.