Référent des données (data engineer/Data steward)

CDI
Paris
Télétravail fréquent
Salaire : Non spécifié

Health Data Hub
Health Data Hub

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

Le pôle des référents données de la Plateforme des Données de Santé joue un rôle clé pour garantir la qualité et l’exploitation des données de santé. Ses objectifs sont :

Assurer la qualité du patrimoine de données en garantissant leur fiabilité, leur interopérabilité et leur conformité réglementaire avant mise à disposition.

Mutualiser l’expertise technique pour orienter les développements de la plateforme et contribuer à des évolutions adaptées aux besoins des utilisateurs.

Accompagner les porteurs de projets afin de faciliter l’appropriation de l’environnement technique et optimiser l’usage des données.

Activités du poste :

#1 Analyse et préparation des données

  • Collaborer avec la Direction des Projets et Services aux Utilisateurs pour comprendre les objectifs des projets accompagnés : découverte fonctionnelle et technique des jeux de données, rédaction de la documentation associée et définition des règles de vérification automatisée.

  • Manipuler de grands volumes de données (~To) en utilisant et enrichissant les ressources existantes (packages internes, scripts Python/PySpark) pour traiter des formats variés (tabulaires, texte libre, images, JSON) dans les délais impartis.

  • Préparer et transformer les données (reformatage, jointure, transformation parquet) en garantissant leur intégrité et conformité.

  • Cibler et extraire les données depuis les bases du catalogue du SNDS en assurant performance et standardisation et la qualité attendue.

#2 Gestion des flux et conformité

  • Vérifier l’anonymisation des imports/exports en lien avec les producteurs et les chercheurs.

#3 Support et accompagnement utilisateur

  • Fournir un support technique expert (exemples de code, bonnes pratiques) lors des permanences pour faciliter l’usage des données par les utilisateurs.

#4 Amélioration continue et innovation

  • Concevoir des solutions techniques ad-hoc pour des cas d’usage spécifiques, participer activement à la qualification (tests/recette) des nouvelles fonctionnalités de la plateforme.

  • Contribuer à la documentation et aux bonnes pratiques de développement collaboratif (Git).

  • Remonter les besoins pour faire évoluer les librairies et outils internes afin d’optimiser la qualité et la rapidité des opérations.

Ces missions sont essentielles pour garantir la fiabilité des recherches menées sur la plateforme technologique. Elles impliquent de relever des défis majeurs liés à la diversité des données (données médico-administratives, imagerie médicale, compte-rendus médicaux) et des efforts nécessaires pour les rendre exploitables.

Cette liste est non exhaustive; le collaborateur pourra appuyer sa (ses) direction(s) dans d’autres missions.

Le poste s’appuie sur une stack moderne orientée traitement de données à grande échelle et collaboration :

  • Python comme langage de programmation principal (notebooks Jupyter, pandas, PySpark) pour le développement et la manipulation des données.

  • Spark / PySpark pour le traitement de données volumineuses.

  • R comme langage d’analyse statistique et de support aux études.

  • SQL pour l’extraction, le ciblage et l’optimisation des requêtes.

  • Outils de versioning et de collaboration (GitLab, Gitea).

  • Infrastructure cloud dédiée au stockage et au requêtage de données volumineuses (Microsoft Azure).

  • dbt pour l’exécution des pipelines de transformation des données (SNDS → OMOP).

  • Suite Google pour la bureautique et la collaboration (Docs, Sheets, etc.).


Profil recherché

Au-delà de l’expertise technique, nous recherchons un profil polyvalent et curieux, motivé par la résolution de défis techniques inédits, qu’il s’agisse de maîtriser des volumétries massives, de s’approprier des packages internes existants ou de décrypter des standards de données encore inconnus. Vous possédez une véritable « sensibilité data ».

Compétences indispensables

  • Python : Bonne maîtrise exigée (langage principal pour les traitements).

  • R : Niveau intermédiaire ou connaissances de base acceptées.

  • SQL : Maîtrise des langages de manipulation de données (agrégations, jointures, optimisation).

  • Calcul distribué : Solide connaissance des environnements et moteurs de calcul distribués (ex. Hive, Spark, Snowflake, etc.).

  • Modélisation de données : Bonne connaissance des concepts et méthodes de modélisation est un atout.

  • Git : Utilisation courante requise (commandes fondamentales, workflow collaboratif)

  • Bon relationnel : capacité à interagir avec les partenaires externes de la PDS  (startups, institutions publiques, etc.).

  • Curiosité et appétence pour la compréhension des cas d’usage de la plateforme, en lien avec les besoins et retours des utilisateurs.

  • Esprit critique et sens de la donnée : capacité à détecter des anomalies non techniques (incohérences métier) et à comprendre les enjeux d’exploitation pour les chercheurs.

  • Autonomie dans la résolution de problèmes techniques ; capacité à documenter et partager ses solutions.

  • Capacité à prioriser ses tâches et à faire preuve d’agilité lors des aléas projets.

Compétences additionnelles recherchées

  • Expérience d’environnements cloud.

  • Connaissances de base en Machine Learning / IA (modèles pré-entraînés, reconnaissance d’entités).

  • Connaissance des outils de transformation et de modélisation de données (ex. dbt).

  • Expérience avec des formats de données complexes (DICOM, JSON complexes, CSV de très grande taille, etc.).


Déroulement des entretiens

Après avoir postulé, le recrutement se déroulera de la manière suivante : 

  • Un premier entretien avec un membre de l’équipe

  • Une mise en situation à réaliser chez soi

  • Un entretien avec le manager basé sur la mise en situation

  • Une rencontre RH

Envie d’en savoir plus ?

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.

Voir toutes les offres