Cette offre n’est plus disponible.

Référent des données / Data Engineer (2)

CDI
Paris
Télétravail fréquent
Salaire : Non spécifié
Expérience : > 3 ans

Health Data Hub
Health Data Hub

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

Direction des données :

Pour mener à bien les missions qui lui ont été confiées, le Health Data Hub a formé la direction des données dont les objectifs principaux sont de :

  1. Définir des stratégies novatrices sur la gestion, l’exploitation et le partage de données de santé, permettant de réaliser la vision du HDH ;

  2. Partager et mutualiser les outils et les connaissances nécessaires à l’analyse des données de santé, dans le cadre d’une démarche open source.

  3. Gérer et mettre à disposition les données qui lui sont confiées aux porteurs de projet au sein de la plateforme technologique du Health Data Hub ;

  4. Soutenir les projets d’intérêt public que le HDH accompagne, aussi bien sur la compréhension des données de santé que sur leur exploitation via des experts des données de santé, des data scientists et des data engineers.

Pôle “Gestion des données” :

Pour répondre à la troisième mission qui lui a été conférée et définir une approche claire pour l’écosystème de la santé, la direction des données s’est dotée d’un pôle “Gestion des données”. Ce pôle est responsable de l’intégralité du cycle de vie des données, et se structure autour des chantiers suivants :

  1. Traitement des données de santé massives et diverses transmises par les porteurs de projet à la plateforme technologique du Health Data Hub ;

  2. Gestion et mise en qualité des données de santé stockées dans la plateforme technologique du Health Data Hub ;

  3. Application de librairies en Python ou R pour faciliter, automatiser et systématiser les traitements des données cités précédemment ;

  4. Analyses exploratoires de nouvelles fonctionnalités et applications (e.g., cluster spark, lecteur d’images spécifiques au secteur de la santé) à intégrer à la plateforme technologique du Health Data Hub.

Ces missions sont essentielles pour garantir la fiabilité des recherches menées sur la plateforme technologique et présentent d’importants défis au regard du caractère hétérogène des données manipulées (e.g., données médico-administratives, imagerie médicale, compte-rendus médicaux) et des efforts nécessaires pour les rendre utilisables.

Activités du poste :

Au sein du pôle “Gestion des données”, vous réaliserez en particulier les traitements nécessaires (1) pour l’ingestion des données dans la plateforme et (2) pour la bonne gestion et la mise en qualité des données présentes sur la plateforme technologique du Health Data Hub. A ce titre, les principales missions seront les suivantes :

  • Collaborer conjointement avec la Direction Projets et Services utilisateurs et prendre connaissance du protocole scientifique et des buts premiers de chacun des projets accompagnés. Cette phase s’accompagne d’une découverte du ou des jeu(x) de données complet(s) tant au niveau fonctionnel qu’au niveau technique, ainsi que de la rédaction d’une documentation de ce(s) dernier(s) afin (1) de s’assurer en amont du bon respect des règles de pseudonymisation et (2) effectuer des opérations de vérifications des données en aval de façon automatique ;

  • Vérifier le caractère anonymisé des demandes d’import et d’export des données ou codes sur la plateforme, en relation avec des acteurs externes (producteurs de données, porteurs de projets de recherche) ;

  • Travailler dans la plateforme technologique du Health Data Hub ;

    • Utiliser les librairies existantes et les compléter pour développer des  scripts Python et PySpark permettant de manipuler des grande quantité de données (~To) sous différents formats (e.g., tabulaires, texte libre, images, JSON) reçues sur la plateforme technologique.

    • Vérifier l’intégrité, confidentialité et conformité à certains critères de qualité définis en amont ainsi que de de les préparer pour leur mise à disposition (e.g., reformatage, jointure, transformation parquet, etc.) ;

    • Remonter les besoins permettant l’évolution des librairies et outils existants afin d’améliorer la qualité et la rapidité des opérations,

    • Contribuer à la documentation des opérations,

  • Assurer un premier niveau de support technique aux utilisateurs externes pour l’utilisation de leurs projets par exemple avec des exemples de code utilisant leurs données.

La tech stack (pile de technologies) utilisée pour ces missions sera principalement :

  • Python comme langage de programmation généraliste :

    - notebooks Jupyter pour accéder à la plateforme et organiser la documentation d’utilisation (tutoriels)

    - pandas pour l’analyse des données CSV de petite taille et Spark / pyspark pour les données volumineuses

  • Gitlab et gitea pour l’utilisation et la synchronisation avec les librairies existantes,

  • Microsoft Azure pour le stockage et le requêtage de données volumineuses,

  • Suite Google pour la bureautique (Google Docs, Google Sheets, etc.)

Cette liste est non exhaustive; le collaborateur pourra appuyer sa (ses) direction(s) dans d’autres missions.


Profil recherché

Compétences indispensables

  • Bonne maîtrise du langage  Python

  • Bonne maîtrise de SQL et de gestion de bases de données

  • Bonne maîtrise des  librairies de traitement de données (e.g., pandas, dplyr)

  • Connaissance des outils en ligne de travail collaboratif type Git (GitHub ou GitLab)

  • Capacités rédactionnelles

  • Bon relationnel : capacité à interagir avec les partenaires externes du HDH (startups, institutions publiques, etc.)

Compétences additionnelles recherchées

  • Maîtrise des frameworks de calcul distribué (Spark, Dask)

  • Maîtrise de R

  • Maîtrise d’environnements cloud (notamment Azure Blob Storage pour le stockage de données)

  • Expérience avec des formats de données complexes (par exemple : images DICOM, SVS, JSON complexes, CSV de très grande taille etc.)

POURQUOI CHOISIR LE HEALTH DATA HUB ?

Vous êtes motivé(e) à rejoindre une équipe impliquée dans un projet ambitieux, qui a du sens et une finalité d’intérêt public ? Rejoignez-nous !

Notre récente structure, d’une centaine de collaborateurs/trices, a besoin de talents créatifs, autonomes et proactifs pour continuer de grandir ! Ensemble, nous nous sommes engagés à :

  • Accompagner les porteurs de projet visant à analyser les données de santé pour le bien commun.

  • Construire et opérer une plateforme technologique pour leur offrir les meilleurs outils avec un très haut niveau de sécurité à respecter.

  • Réunir et mettre en forme les données au plus grand potentiel pour la recherche et l’innovation.

  • Promouvoir le partage des connaissances, des expertises et du savoir et diffuser une culture de la donnée de santé auprès de tous.

Bon à savoir

💪 Rejoindre le HDH c’est surtout participer à un projet enrichissant humainement qui a du sens, avec un fort impact sociétal

🏆 Au HDH on favorise la prise d’initiative, dans une ambiance de challenge perpétuel

😎 Ici la bonne humeur et l’esprit d’équipe règnent


Déroulement des entretiens

Après avoir postulé, voilà comment se déroulera le recrutement: 

  • Un premier entretien avec le directeur de l’équipe Data

  • Un test technique à réaliser chez soi

  • Un entretien technique, basé sur le test, avec des membres de l’équipe Data

  • Un entretien final avec la directrice du Health Data Hub

Envie d’en savoir plus ?

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.

  • Mistral Ai

    Applied AI, Technical Lead, Forward Deployed AI Engineer - EMEA

    Mistral Ai
    Mistral Ai
    CDI
    Paris
    Télétravail fréquent
    Intelligence artificielle / Machine Learning, IT / Digital
    280 collaborateurs

  • Lead dev - IA / ML Engineer

    Rizoa
    Rizoa
    CDI
    Paris
    Télétravail fréquent
    Intelligence artificielle / Machine Learning, Big Data
    3 collaborateurs

  • Artefact

    Junior Data Analyst (m/f/d)

    Artefact
    Artefact
    CDI
    Paris
    Télétravail fréquent
    Intelligence artificielle / Machine Learning, Digital Marketing / Data Marketing
    1 500 collaborateurs

  • Modeo

    Data Engineer, stage de fin d’études

    Modeo
    Modeo
    CDI
    Paris
    Télétravail occasionnel
    Salaire : 1,3K € par mois
    Intelligence artificielle / Machine Learning, SaaS / Cloud Services
    20 collaborateurs

  • muchbetter.ai

    Senior AI Engineer (CDI)

    muchbetter.ai
    muchbetter.ai
    CDI
    Paris
    Télétravail occasionnel
    Salaire : 60K à 80K €
    Logiciels, Intelligence artificielle / Machine Learning
    15 collaborateurs

  • Doctrine

    Data Operations Engineer

    Doctrine
    Doctrine
    CDI
    Paris
    Télétravail fréquent
    Logiciels, Intelligence artificielle / Machine Learning
    190 collaborateurs

Voir toutes les offres