Cette offre n’est plus disponible.

Référent des données / Data Engineer H/F

CDI
Paris
Salaire : Non spécifié
Télétravail fréquent
Expérience : > 3 ans
Éducation : Bac +5 / Master

Health Data Hub
Health Data Hub

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

Direction des données : Pour mener à bien les missions qui lui ont été confiées, le Health Data Hub a formé la direction des données dont les objectifs principaux sont de :

  • Définir des stratégies novatrices sur la gestion, l’exploitation et le partage de données de santé, permettant de réaliser la vision du HDH ;

  • Partager et mutualiser les outils et les connaissances nécessaires à l’analyse des données de santé, dans le cadre d’une démarche open source.

  • Gérer et mettre à disposition les données qui lui sont confiées aux porteurs de projet au sein de la plateforme technologique du Health Data Hub ;

  • Soutenir les projets d’intérêt public que le HDH accompagne, aussi bien sur la compréhension des données de santé que sur leur exploitation via des experts des données de santé, des data scientists et des data engineers.

Pôle “Gestion des données” :

Pour répondre à la troisième mission qui lui a été conférée et définir une approche claire pour l’écosystème de la santé, la direction des données s’est dotée d’un pôle “Gestion des données”. Ce pôle est responsable de l’intégralité du cycle de vie des données, et se structure autour des chantiers suivants :

  • Traitement des données de santé massives et diverses transmises par les porteurs de projet à la plateforme technologique du Health Data Hub ;

  • Gestion et mise en qualité des données de santé stockées dans la plateforme technologique du Health Data Hub ;

  • Développement de librairies en Python ou R pour faciliter, automatiser et systématiser les traitements des données cités précédemment ;

  • Analyses exploratoires de nouvelles fonctionnalités et applications (e.g., cluster spark, lecteur d’images spécifiques au secteur de la santé) à intégrer à la plateforme technologique du Health Data Hub.

Ces missions sont essentielles pour garantir la fiabilité des recherches menées sur la plateforme technologique et présentent d’importants défis au regard du caractère hétérogène des données manipulées (e.g., données médico-administratives, imagerie médicale, compte-rendus médicaux) et des efforts nécessaires pour les rendre utilisables.

Activités du poste : En tant que data engineer ayant le rôle de “référent des données”, au sein du pôle “Gestion des données”, vous aurez pour missions de : réaliser les traitements nécessaires pour la bonne gestion du parcours des données présentes sur la plateforme technologique du Health Data Hub :

  • collaborer conjointement avec la Direction Projets et Services utilisateurs et prendre connaissance du protocole scientifique et des buts premiers de chacun des projets accompagner. Cette phase s’accompagne d’une découverte du ou des jeu(x) de données complet(s) tant au niveau fonctionnel qu’au niveau technique;

  • documenter et définir les conditions d’import des données sur la plateforme, en relation avec des acteurs externes (producteurs de données, porteurs de projets de recherche) ;

  • travailler dans la plateforme technologique du Health Data Hub ;

  • utiliser les librairies existantes et les compléter pour développer des scripts Python et PySpark permettant de manipuler des grande quantite de données (~To) sous différentes formats (e.g., tabulaires, texte libre, images, JSON) reçues sur la plateforme technologique.

  • vérifier l’intégrité, confidentialité et conformité à certains critères de qualité définis en amont ainsi que de de les préparer pour leur mise à disposition (e.g., reformatage, jointure, transformation) ;

  • contribuer à la documentation de ces opérations.

  • développer et gérer les outils logiciels internes à la direction des données : définir l’architecture des librairies logicielles servant à automatiser les étapes de traitement des données ;

développer, documenter, tester et maintenir ces librairies ;

  • optimiser le traitement de jeux de données de grande taille (plusieurs téraoctets) pour minimiser les coûts et délais de traitement ;

  • adapter les librairies pour permettre de traitement de données diverses (comptes-rendus médicaux, images d’IRM, bases hospitalières, bases nationales) ;

  • collaborer avec le reste du pôle en suivant la méthodologie Agile-scrum (gestion d’un backlog, rituels scrum, etc.) en s’appuyant sur des pratiques de développement à l’état de l’art (notamment, intégration continue via GitLab).

développer et gérer les outils à destination des utilisateurs de la plateforme

  • accompagner l’équipe produit dans l’identification ou l’étude de nouvelles fonctionnalités à intégrer à la plateforme technologique auprès des utilisateurs (e.g., producteurs de données, porteurs de projets, équipe des référents des données) pour garantir un service adapté, et inscrire les demandes de nouveaux développements ou rapports de bugs dans le backlog produit ;

  • tester, via le développement de prototypes, de nouvelles technologies à intégrer à l’offre technologique de la plateforme pour répondre aux mieux aux besoins des utilisateurs, en collaboration avec les équipes Produit et Plateforme du Health Data Hub ;

  • configurer, une fois le prototype validé, la technologie avant son intégration dans la plateforme technologique par la Direction technique du Health Data Hub.

La tech stack (pile de technologies) utilisée pour ces missions sera principalement :

  • Python comme langage de programmation généraliste notebooks Jupyter pour accéder à la plateforme et organiser la documentation d’utilisation (tutoriels) pandas pour l’analyse des données CSV de petite taille et Spark / pyspark pour les données volumineuses pytest pour les tests de librairies

  • Gitlab pour la gestion du développement et l’intégration continue

  • Microsoft Azure pour le stockage et le requêtage de données volumineuses

  • Suite Google pour la bureautique (Google Docs, Google Sheets, etc.)

Pour les besoins des utilisateurs externes, certaines librairies sont également développées et maintenues en R / sparklyR.

Dans le cadre des projets d’accompagnement du HDH auprès de nos partenaires, vous pourrez être amené(e) à vous rendre disponible et vous mettre à disposition selon les besoins auprès d’institutions du domaine de la recherche médicale en région parisienne.


Profil recherché

Compétences indispensables

  • Excellente maîtrise du langage Python

  • Bonne maîtrise de SQL et de gestion de bases de données

  • Bonne maîtrise des librairies de traitement de données (e.g., pandas, dask, dplyr) Connaissance des différents paradigmes de développement de librairies et applicatif (e.g., orienté objet, fonctionnel)

  • Connaissance des outils en ligne de travail collaboratif type Git (GitHub ou GitLab)

  • Capacités rédactionnelles Bon relationnel : capacité à interagir avec les partenaires externes du HDH (startups, institutions publiques, etc.)

Compétences additionnelles recherchées

  • Maîtrise des frameworks de calcul distribué (Spark)

  • Maîtrise de R

  • Maîtrise d’environnements cloud (notamment Azure)

  • Expérience avec des formats de données complexes (par exemple : images DICOM, JSON complexes, CSV de très grande taille etc.)

  • Connaissance des approches de développement (notamment CI/CD et DevOps)

  • Connaissance de la méthodologie Agile/scrum

  • Une expérience dans le domaine de la recherche médicale est un plus.

POURQUOI CHOISIR LE HEALTH DATA HUB ? Vous êtes motivé(e) à rejoindre une équipe impliquée dans un projet ambitieux, qui a du sens et une finalité d’intérêt public ? Rejoignez-nous ! Notre récente structure a besoin de talents créatifs, autonomes et proactifs pour continuer de grandir ! Ensemble, nous nous sommes engagés à : Accompagner les porteurs de projet visant à analyser les données de santé pour le bien commun. Construire et opérer une plateforme technologique pour leur offrir les meilleurs outils avec un très haut niveau de sécurité à respecter. Réunir et mettre en forme les données au plus grand potentiel pour la recherche et l’innovation. Promouvoir le partage des connaissances, des expertises et du savoir et diffuser une culture de la donnée de santé auprès de tous.

Bon à savoir: 💪 Rejoindre le HDH c’est surtout participer à un projet enrichissant humainement qui a du sens, avec un fort impact sociétal 🏆 Au HDH on favorise la prise d’initiative, dans une ambiance de challenge perpétuel 😎 Ici la bonne humeur et l’esprit d’équipe règnent


Déroulement des entretiens

Après avoir postulé, voilà comment se déroulera le recrutement:

  • Un premier entretien avec un membre de l’équipe
  • Une mise en situation à préparer chez soi
  • Un entretien technique, basé sur la mise en situation, avec un membre de l’équipe et le Directeur Data
  • Un entretien avec la directrice du Health Data Hub
  • Un entretien de formalité RH

Envie d’en savoir plus ?

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.

Voir toutes les offres