Data Engineer - Scala & Spark

Résumé du poste
CDD / Temporaire(12 à 36 mois)
Paris
Salaire : 40K à 60K €
Télétravail fréquent
Expérience : > 3 ans
Éducation : Bac +5 / Master
Compétences & expertises
Intégration de technologies
Gestion de bases de données
Hadoop
Java
Kubernetes
+9

APHP DSN
APHP DSN

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

En tant que Data Engineer, vous serez intégré au sein de l’équipe Big Data de l’Entrepôt de Données de Santé (EDS) de l’AP-HP. Cette équipe est composée d’une dizaine de Data Engineer travaillant à la conception et au développement de la base de données standardisée et centralisée de l’EDS. Cette base contient des données aggrégées provenant de divers applicatifs de l’AP-HP avec des typologies très différentes (données structurées, non-structurées, imagerie, voix, signaux physiologiques, etc.) qui nécessitera la mise en oeuvre d’outils spécifiques à leur intégration et leurs traitements.

  • Contribuer à la définition des besoins techniques et à l’accompagnement des Datas Scientists, chercheurs, et médecins lors de la réalisation de projets de recherche impliquant de nouvelles sources de données
  • Analyser les différents sources de données d’un point de vue technique (acquisition, stockage, transformation, exploitation, …)
  • Développer, industrialiserez et maintiendrez des traitements de données (extraction, sélection, collecte, intégration et aggrégation) dans un contexte Big Data (développements en Spark/Scala/Python)
  • Intégration d’algorithmes spécifiques (ML, NLP, etc.) co-développés avec l’équipe Data Science de l’EDS
  • Contribuer à l’utilisation de ces nouvelles typologies de données (extraction, sélection, collecte et intégration) via des connecteurs spécifiques développés en Java/Scala & Python
  • Aider à l’implémentation de standards et normes de mise à disposition des données (OMOP/FHIR)
  • Industrialiser le code de génération du flux de données et assurer sa performance globale
  • Optimiser la performance des outils dans un contexte Big Data (Hadoop / Spark)
  • Développer des méthodologies standardisées pour l’intégration de nouvelles données
  • Metter en place des outils les processus de tests unitaires, de recette et de qualification des données
  • Développer des solutions permettant la mise à disposition des données dans les espaces des projets de recherche
  • Développer des solutions pour monitorer les différents processus en production ainsi que la qualité des données
  • Travailler en collaboration avec des partenaires industriels dans le cadre des différents projets de recherche

Vous serez force de proposition pour améliorer la qualité des développements, notamment en réalisant une veille continue sur les outils et technologies, en proposant des algorithmes pouvant resoudre des problématiques fonctionnelles et techniques.

Avantages

Technique :

  • un cluster Hadoop de +30 serveurs
  • une infrastructure Kubernetisée conséquente (+100 serveurs) opérée par une équipe voisine
  • un ordinateur portable i7/32Go

Quotidien :

  • Cantine
  • Télétravail (max 3 jours par semaine)
  • 25 Congés payés et environ 22 RTT
  • Salaire de cadre dans la fonction publique (40 000,00€ à 60 000,00€ par an) imposé à 15% contre 25% dans le privé

N’hésitez pas à vous envoyer votre CV pour un premier entretien pour en découvrir + sur le poste, et peut-être par la suite venir nous rencontrer dans le 12e arrondissement !


Profil recherché

  • Bac+5/Master
  • 3 ans d’expériences en tant que Data Engineer

Technologies et compétences requises :

  • Environnement UNIX (ou Windows selon préférence)
  • Scala / Java & Python
  • Traitement des données massives et des technologies Big Data (Hadoop, Kafka, Spark, Elastic Search, NoSQL, etc.)
  • Bases de données SQL (Postgres, Apache Hive, LevelDB, etc.)
  • DevOps (CI/CD, Docker, scripting, bash, etc.)
  • Qualité de code (Tests, veille, code reviews, etc.)
  • Excellent relationnel et expression personnelle

Au moins un des points suivants :

  • Industrialisation d’application ou de flux de traitement de données massives de manière distribuée
  • Administration de cluster Hadoop
  • Pipelines CI/CD | Kubernetes / Helm charts
  • Connaissance des standards d’interopérabilité du domaine de la santé (FHIR, OMOP, CDA, HL7, CIM, Snomed, LOINC, etc.)

Déroulement des entretiens

Déroulé des entretiens (susceptible de varier en fonction du profil du candidat) :

  • 1 premier entretien en visio avec des membres de l’équipe
  • 1 second entretien sur place (75012 - Campus Picpus) avec possibilité d’échanges avec les membres de l’équipe (recommandé)
  • 1 dernier entretien avec le directeur de la Plateforme Big Data (N+2)

Envie d’en savoir plus ?

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.