L'envoi d'un CV est-il obligatoire pour postuler à cette offre ?

Pour postuler à cette offre, l'envoi de votre CV est obligatoire.

Le télétravail est-il possible pour ce poste ?

Le télétravail est autorisé pour ce poste.

Quel est le type de contrat pour ce poste ?

Le contrat pour ce poste est de type {contract_type}.

Une lettre de motivation est-elle obligatoire pour postuler à cette offre ?

La lettre de motivation est obligatoire pour postuler à cette offre.

Data Engineer - Scala & Spark - APHP DSN - CDD / Temporaire à Paris

APHP DSN

Data Engineer - Scala & Spark

Résumé du poste

CDD / Temporaire(12 à 36 mois)

Paris

Salaire : 40K à 60K €

Télétravail fréquent

Expérience : > 3 ans

Éducation : Bac +5 / Master

Compétences & expertises

Intégration de technologies

Gestion de bases de données

Hadoop

Java

Kubernetes

il y a 13 jours

APHP DSN

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

En tant que Data Engineer, vous serez intégré au sein de l’équipe Big Data de l’Entrepôt de Données de Santé (EDS) de l’AP-HP. Cette équipe est composée d’une dizaine de Data Engineer travaillant à la conception et au développement de la base de données standardisée et centralisée de l’EDS. Cette base contient des données aggrégées provenant de divers applicatifs de l’AP-HP avec des typologies très différentes (données structurées, non-structurées, imagerie, voix, signaux physiologiques, etc.) qui nécessitera la mise en oeuvre d’outils spécifiques à leur intégration et leurs traitements.

Contribuer à la définition des besoins techniques et à l’accompagnement des Datas Scientists, chercheurs, et médecins lors de la réalisation de projets de recherche impliquant de nouvelles sources de données
Analyser les différents sources de données d’un point de vue technique (acquisition, stockage, transformation, exploitation, …)
Développer, industrialiserez et maintiendrez des traitements de données (extraction, sélection, collecte, intégration et aggrégation) dans un contexte Big Data (développements en Spark/Scala/Python)
Intégration d’algorithmes spécifiques (ML, NLP, etc.) co-développés avec l’équipe Data Science de l’EDS
Contribuer à l’utilisation de ces nouvelles typologies de données (extraction, sélection, collecte et intégration) via des connecteurs spécifiques développés en Java/Scala & Python
Aider à l’implémentation de standards et normes de mise à disposition des données (OMOP/FHIR)
Industrialiser le code de génération du flux de données et assurer sa performance globale
Optimiser la performance des outils dans un contexte Big Data (Hadoop / Spark)
Développer des méthodologies standardisées pour l’intégration de nouvelles données
Metter en place des outils les processus de tests unitaires, de recette et de qualification des données
Développer des solutions permettant la mise à disposition des données dans les espaces des projets de recherche
Développer des solutions pour monitorer les différents processus en production ainsi que la qualité des données
Travailler en collaboration avec des partenaires industriels dans le cadre des différents projets de recherche

Vous serez force de proposition pour améliorer la qualité des développements, notamment en réalisant une veille continue sur les outils et technologies, en proposant des algorithmes pouvant resoudre des problématiques fonctionnelles et techniques.

Avantages

Technique :

un cluster Hadoop de +30 serveurs
une infrastructure Kubernetisée conséquente (+100 serveurs) opérée par une équipe voisine
un ordinateur portable i7/32Go

Quotidien :

Cantine
Télétravail (max 3 jours par semaine)
25 Congés payés et environ 22 RTT
Salaire de cadre dans la fonction publique (40 000,00€ à 60 000,00€ par an) imposé à 15% contre 25% dans le privé

N’hésitez pas à vous envoyer votre CV pour un premier entretien pour en découvrir + sur le poste, et peut-être par la suite venir nous rencontrer dans le 12e arrondissement !

Profil recherché

Bac+5/Master
3 ans d’expériences en tant que Data Engineer

Technologies et compétences requises :

Environnement UNIX (ou Windows selon préférence)
Scala / Java & Python
Traitement des données massives et des technologies Big Data (Hadoop, Kafka, Spark, Elastic Search, NoSQL, etc.)
Bases de données SQL (Postgres, Apache Hive, LevelDB, etc.)
DevOps (CI/CD, Docker, scripting, bash, etc.)
Qualité de code (Tests, veille, code reviews, etc.)
Excellent relationnel et expression personnelle

Au moins un des points suivants :

Industrialisation d’application ou de flux de traitement de données massives de manière distribuée
Administration de cluster Hadoop
Pipelines CI/CD | Kubernetes / Helm charts
Connaissance des standards d’interopérabilité du domaine de la santé (FHIR, OMOP, CDA, HL7, CIM, Snomed, LOINC, etc.)

Déroulement des entretiens

Déroulé des entretiens (susceptible de varier en fonction du profil du candidat) :

1 premier entretien en visio avec des membres de l’équipe
1 second entretien sur place (75012 - Campus Picpus) avec possibilité d’échanges avec les membres de l’équipe (recommandé)
1 dernier entretien avec le directeur de la Plateforme Big Data (N+2)

Envie d’en savoir plus ?

Rencontrez Roman, Alternance en Cyber Sécurité

Découvrez l'entreprise

Explorez la vitrine de l’entreprise ou suivez-la pour savoir si elle vous correspond vraiment !

Explorer l’entreprise

Ils sont sociables

L'entreprise

APHP DSN

Intelligence artificielle / Machine Learning, Big Data, Santé

540 collaborateurs

Créée en 2020

Âge moyen : 46 ans

Turnover : 14%

30%

70%

Qui sont-ils ?

L’ Assistance Publique - Hôpitaux de Paris (AP-HP) est un établissement public de santé et le centre hospitalier universitaire - CHU - de la région Ile-de-France, reconnu mondialement pour sa recherche. Le département Innovation & Données (I&D) s’inscrit au sein de sa Direction des Systèmes d’Information.

🎯 Sa mission ? Réaliser les projets numériques innovants au contact du monde hospitalier.

🚀 Ses projets phares ?

Construire le plus large entrepôt public de données de santé en Europe ! Le projet vise à valoriser les données produites à l’AP-HP pour la recherche, l’innovation et le pilotage des soins, tout en protégeant les données patient. L’Entrepôt de Données de Santé, c’est déjà +13 millions de patients dont les données sont structurées et référencées sur une plateforme Big Data dédiée. Notre objectif est de créer une base de données standardisée et centralisée à partir d’une multitude de sources de données (données textuelles, images, radiographies, examens, analyses biologiques, signaux physiologiques, etc..).
Faciliter le quotidien des patients! Le domaine gère notamment toutes les applications mobiles et tous les téléservices de l’AP-HP, dont par exemple le “Portail Patient”.
Monter une plateforme Bio-Informatique centrale pour assister les pôles de biologie de l’AP-HP dans leurs besoins informatiques (gestion du séquençage, déploiement de ressources de calcul).
Développer et déployer au niveau national les outils de collecte et d’analyse épidémiologique des données relatives aux maladies rares.

📊 Quelles statistiques :

L’Entrepôt de Données de Santé (EDS) de l’AP-HP accueille aujourd’hui plus de 170 projets de recherche médicale sur données : https://eds.aphp.fr/recherches-en-cours
L’EDS intègre des données administratives et médicales de plus de 13 millions de patients hospitalisés ou venus en consultation au sein des 39 établissements de l’AP-HP (40 millions de dossiers médicaux, plus de 45 millions de diagnostics, 2.5 milliards de résultats de laboratoires…). Cet entrepôt permet d’améliorer le pilotage de l’activité hospitalière et de faire avancer la recherche scientifique dans le domaine de la santé en favorisant la réalisation d’études sur données, la mise en place d’essais cliniques et le développement d’algorithmes d’aide à la décision.
L’EDS de l’AP-HP compte actuellement +30 machines pour le cluster Hadoop (5To RAM, +850 Cores, 2Po d’espace disque), de machines GPU (80 Nvidia P40, V100 et A100), plus de 20 machines dédiées aux environnements Jupyter pour l’analyse de données, et de nombreuses autres machines applicatives.

Le lieu de travail

33 Boulevard de Picpus, 75012 Paris, France

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.

APHP DSN
Data Engineer - Imagerie Médicale
Paris
CDD / Temporaire
Télétravail fréquent
38K à 55K €
hier
CEA
Ingénieur Chercheur en IA (SHM) - CDD 24 mois H/F
Saclay
CDD / Temporaire
32K à 62K €
il y a 22 jours