Le pôle des référents données de la Plateforme des Données de Santé joue un rôle clé pour garantir la qualité et l’exploitation des données de santé. Ses objectifs sont :
Assurer la qualité du patrimoine de données en garantissant leur fiabilité, leur interopérabilité et leur conformité réglementaire avant mise à disposition.
Mutualiser l’expertise technique pour orienter les développements de la plateforme et contribuer à des évolutions adaptées aux besoins des utilisateurs.
Accompagner les porteurs de projets afin de faciliter l’appropriation de l’environnement technique et optimiser l’usage des données.
Activités du poste :
#1 Analyse et préparation des données
Collaborer avec la Direction des Projets et Services aux Utilisateurs pour comprendre les objectifs des projets accompagnés : découverte fonctionnelle et technique des jeux de données, rédaction de la documentation associée et définition des règles de vérification automatisée.
Manipuler de grands volumes de données (~To) en utilisant et enrichissant les ressources existantes (packages internes, scripts Python/PySpark) pour traiter des formats variés (tabulaires, texte libre, images, JSON) dans les délais impartis.
Préparer et transformer les données (reformatage, jointure, transformation parquet) en garantissant leur intégrité et conformité.
Cibler et extraire les données depuis les bases du catalogue du SNDS en assurant performance et standardisation et la qualité attendue.
#2 Gestion des flux et conformité
#3 Support et accompagnement utilisateur
#4 Amélioration continue et innovation
Concevoir des solutions techniques ad-hoc pour des cas d’usage spécifiques, participer activement à la qualification (tests/recette) des nouvelles fonctionnalités de la plateforme.
Contribuer à la documentation et aux bonnes pratiques de développement collaboratif (Git).
Remonter les besoins pour faire évoluer les librairies et outils internes afin d’optimiser la qualité et la rapidité des opérations.
Ces missions sont essentielles pour garantir la fiabilité des recherches menées sur la plateforme technologique. Elles impliquent de relever des défis majeurs liés à la diversité des données (données médico-administratives, imagerie médicale, compte-rendus médicaux) et des efforts nécessaires pour les rendre exploitables.
Cette liste est non exhaustive; le collaborateur pourra appuyer sa (ses) direction(s) dans d’autres missions.
Le poste s’appuie sur une stack moderne orientée traitement de données à grande échelle et collaboration :
Python comme langage de programmation principal (notebooks Jupyter, pandas, PySpark) pour le développement et la manipulation des données.
Spark / PySpark pour le traitement de données volumineuses.
R comme langage d’analyse statistique et de support aux études.
SQL pour l’extraction, le ciblage et l’optimisation des requêtes.
Outils de versioning et de collaboration (GitLab, Gitea).
Infrastructure cloud dédiée au stockage et au requêtage de données volumineuses (Microsoft Azure).
dbt pour l’exécution des pipelines de transformation des données (SNDS → OMOP).
Suite Google pour la bureautique et la collaboration (Docs, Sheets, etc.).
Au-delà de l’expertise technique, nous recherchons un profil polyvalent et curieux, motivé par la résolution de défis techniques inédits, qu’il s’agisse de maîtriser des volumétries massives, de s’approprier des packages internes existants ou de décrypter des standards de données encore inconnus. Vous possédez une véritable « sensibilité data ».
Compétences indispensables
Python : Bonne maîtrise exigée (langage principal pour les traitements).
R : Niveau intermédiaire ou connaissances de base acceptées.
SQL : Maîtrise des langages de manipulation de données (agrégations, jointures, optimisation).
Calcul distribué : Solide connaissance des environnements et moteurs de calcul distribués (ex. Hive, Spark, Snowflake, etc.).
Modélisation de données : Bonne connaissance des concepts et méthodes de modélisation est un atout.
Git : Utilisation courante requise (commandes fondamentales, workflow collaboratif)
Bon relationnel : capacité à interagir avec les partenaires externes de la PDS (startups, institutions publiques, etc.).
Curiosité et appétence pour la compréhension des cas d’usage de la plateforme, en lien avec les besoins et retours des utilisateurs.
Esprit critique et sens de la donnée : capacité à détecter des anomalies non techniques (incohérences métier) et à comprendre les enjeux d’exploitation pour les chercheurs.
Autonomie dans la résolution de problèmes techniques ; capacité à documenter et partager ses solutions.
Capacité à prioriser ses tâches et à faire preuve d’agilité lors des aléas projets.
Compétences additionnelles recherchées
Expérience d’environnements cloud.
Connaissances de base en Machine Learning / IA (modèles pré-entraînés, reconnaissance d’entités).
Connaissance des outils de transformation et de modélisation de données (ex. dbt).
Expérience avec des formats de données complexes (DICOM, JSON complexes, CSV de très grande taille, etc.).
Après avoir postulé, le recrutement se déroulera de la manière suivante :
Un premier entretien avec un membre de l’équipe
Une mise en situation à réaliser chez soi
Un entretien avec le manager basé sur la mise en situation
Une rencontre RH
Rencontrez Louis, Directeur Technique
Rencontrez Tim, Coordinateur du pôle expertise SNDS
Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.