L'envoi d'un CV est-il obligatoire pour postuler à cette offre ?

Pour postuler à cette offre, l'envoi de votre CV est obligatoire.

Le télétravail est-il possible pour ce poste ?

Le télétravail est autorisé pour ce poste.

Quel est le type de contrat pour ce poste ?

Le contrat pour ce poste est de type {contract_type}.

Une lettre de motivation est-elle obligatoire pour postuler à cette offre ?

La lettre de motivation est obligatoire pour postuler à cette offre.

Référent des données (data engineer/Data steward) - Health Data Hub

Health Data Hub

Référent des données (data engineer/Data steward)

CDI

Paris

Télétravail fréquent

Salaire : Non spécifié

il y a 6 heures

Health Data Hub

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

Le pôle des référents données de la Plateforme des Données de Santé joue un rôle clé pour garantir la qualité et l’exploitation des données de santé. Ses objectifs sont :

Assurer la qualité du patrimoine de données en garantissant leur fiabilité, leur interopérabilité et leur conformité réglementaire avant mise à disposition.

Mutualiser l’expertise technique pour orienter les développements de la plateforme et contribuer à des évolutions adaptées aux besoins des utilisateurs.

Accompagner les porteurs de projets afin de faciliter l’appropriation de l’environnement technique et optimiser l’usage des données.

Activités du poste :

#1 Analyse et préparation des données

Collaborer avec la Direction des Projets et Services aux Utilisateurs pour comprendre les objectifs des projets accompagnés : découverte fonctionnelle et technique des jeux de données, rédaction de la documentation associée et définition des règles de vérification automatisée.
Manipuler de grands volumes de données (~To) en utilisant et enrichissant les ressources existantes (packages internes, scripts Python/PySpark) pour traiter des formats variés (tabulaires, texte libre, images, JSON) dans les délais impartis.
Préparer et transformer les données (reformatage, jointure, transformation parquet) en garantissant leur intégrité et conformité.
Cibler et extraire les données depuis les bases du catalogue du SNDS en assurant performance et standardisation et la qualité attendue.

#2 Gestion des flux et conformité

Vérifier l’anonymisation des imports/exports en lien avec les producteurs et les chercheurs.

#3 Support et accompagnement utilisateur

Fournir un support technique expert (exemples de code, bonnes pratiques) lors des permanences pour faciliter l’usage des données par les utilisateurs.

#4 Amélioration continue et innovation

Concevoir des solutions techniques ad-hoc pour des cas d’usage spécifiques, participer activement à la qualification (tests/recette) des nouvelles fonctionnalités de la plateforme.
Contribuer à la documentation et aux bonnes pratiques de développement collaboratif (Git).
Remonter les besoins pour faire évoluer les librairies et outils internes afin d’optimiser la qualité et la rapidité des opérations.

Ces missions sont essentielles pour garantir la fiabilité des recherches menées sur la plateforme technologique. Elles impliquent de relever des défis majeurs liés à la diversité des données (données médico-administratives, imagerie médicale, compte-rendus médicaux) et des efforts nécessaires pour les rendre exploitables.

Cette liste est non exhaustive; le collaborateur pourra appuyer sa (ses) direction(s) dans d’autres missions.

Le poste s’appuie sur une stack moderne orientée traitement de données à grande échelle et collaboration :

Python comme langage de programmation principal (notebooks Jupyter, pandas, PySpark) pour le développement et la manipulation des données.
Spark / PySpark pour le traitement de données volumineuses.
R comme langage d’analyse statistique et de support aux études.
SQL pour l’extraction, le ciblage et l’optimisation des requêtes.
Outils de versioning et de collaboration (GitLab, Gitea).
Infrastructure cloud dédiée au stockage et au requêtage de données volumineuses (Microsoft Azure).
dbt pour l’exécution des pipelines de transformation des données (SNDS → OMOP).
Suite Google pour la bureautique et la collaboration (Docs, Sheets, etc.).

Profil recherché

Au-delà de l’expertise technique, nous recherchons un profil polyvalent et curieux, motivé par la résolution de défis techniques inédits, qu’il s’agisse de maîtriser des volumétries massives, de s’approprier des packages internes existants ou de décrypter des standards de données encore inconnus. Vous possédez une véritable « sensibilité data ».

Compétences indispensables

Python : Bonne maîtrise exigée (langage principal pour les traitements).
R : Niveau intermédiaire ou connaissances de base acceptées.
SQL : Maîtrise des langages de manipulation de données (agrégations, jointures, optimisation).
Calcul distribué : Solide connaissance des environnements et moteurs de calcul distribués (ex. Hive, Spark, Snowflake, etc.).
Modélisation de données : Bonne connaissance des concepts et méthodes de modélisation est un atout.
Git : Utilisation courante requise (commandes fondamentales, workflow collaboratif)
Bon relationnel : capacité à interagir avec les partenaires externes de la PDS (startups, institutions publiques, etc.).
Curiosité et appétence pour la compréhension des cas d’usage de la plateforme, en lien avec les besoins et retours des utilisateurs.
Esprit critique et sens de la donnée : capacité à détecter des anomalies non techniques (incohérences métier) et à comprendre les enjeux d’exploitation pour les chercheurs.
Autonomie dans la résolution de problèmes techniques ; capacité à documenter et partager ses solutions.
Capacité à prioriser ses tâches et à faire preuve d’agilité lors des aléas projets.

Compétences additionnelles recherchées

Expérience d’environnements cloud.
Connaissances de base en Machine Learning / IA (modèles pré-entraînés, reconnaissance d’entités).
Connaissance des outils de transformation et de modélisation de données (ex. dbt).
Expérience avec des formats de données complexes (DICOM, JSON complexes, CSV de très grande taille, etc.).

Déroulement des entretiens

Après avoir postulé, le recrutement se déroulera de la manière suivante :

Un premier entretien avec un membre de l’équipe
Une mise en situation à réaliser chez soi
Un entretien avec le manager basé sur la mise en situation
Une rencontre RH

Envie d’en savoir plus ?

Rencontrez Tim, Coordinateur du pôle expertise SNDS

Découvrez l'entreprise

Explorez la vitrine de l’entreprise ou suivez-la pour savoir si elle vous correspond vraiment !

Explorer l’entreprise

Ils sont sociables

L'entreprise

Health Data Hub

Intelligence artificielle / Machine Learning, Santé

110 collaborateurs

Créée en 2019

Âge moyen : 32 ans

62%

38%

Qui sont-ils ?

L’objectif du Health Data Hub est de permettre d’accéder de manière facilitée, unifiée, transparente et sécurisée à un catalogue de bases de données de santé françaises pour des projets de recherche d’intérêt public. Nous accompagnons des porteurs de projets innovants qui contribuent à trouver les solutions de demain pour améliorer la santé de tous les citoyens.

Comment ?

Le Health Data Hub a mis en place une plateforme technologique qui met à disposition des porteurs de projets d’intérêt public, dans un environnement technologique sécurisé et à l’état de l’art, les données de santé pseudonymisées des français. Ces porteurs de projets vont mobiliser des sources de données très volumineuses, les croiser entre elles, et utiliser une puissance de calcul pour faire tourner des algorithmes de recherche complexes. Il s’agit par exemple de projets de start-up pour améliorer des logiciels d’aide au professionnel de santé, de projets permettant d’améliorer la prise en charge des patients en comparant l’efficacité de prise en charge, de projets portés par les administrations pour éclairer les politiques publiques.

Les avantages salariés

Entre 1-2 jours de télétravail
Prime de cooptation
Team building

Voir tous les avantages

Le lieu de travail

9 Rue Georges Pitard, 75015 Paris, France

Besoin de plus d’infos ?

Vie d’entreprise, ambiance, réalisations... On a encore plein de choses à vous dire !

Découvrir

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.

Machine Learning Engineer
Modjo
CDI
Paris
Télétravail fréquent
Salaire : 50K à 90K €
Intelligence artificielle / Machine Learning, IT / Digital
60 collaborateurs
il y a 4 heures
Applied Scientist / Research Engineer - Edge Devices and Quantization - EMEA
Mistral Ai
CDI
Paris
Télétravail fréquent
Intelligence artificielle / Machine Learning, IT / Digital
280 collaborateurs
avant-hier
ML Ops/Engineer
SkillCorner
CDI
Paris
Télétravail fréquent
Logiciels, Intelligence artificielle / Machine Learning
100 collaborateurs
avant-hier
Senior Data Scientist / AI Engineer
Mendo
CDI
Paris
Télétravail fréquent
Intelligence artificielle / Machine Learning, SaaS / Cloud Services
35 collaborateurs
il y a 3 jours
Member of technical staff - Research - Environment and data
H Company
CDI
Paris
Télétravail non autorisé
Logiciels, Intelligence artificielle / Machine Learning
75 collaborateurs
il y a 3 jours
Lead AI Engineer - CDI Paris - Theodo Data & AI
Theodo Data & AI
CDI
Paris
Télétravail fréquent
Intelligence artificielle / Machine Learning, IT / Digital
70 collaborateurs
il y a 3 jours