Une équipe de data scientists et de data engineers se constitue pour aider au pilotage de la crise sanitaire covid19 à l’échelle de l’AP-HP. Cette équipe, qui sera composée d’un noyau de 5 personnes d’ici quelques semaines, réalise les analyses et tableaux de bord demandés par la cellule de crise de l’AP-HP. Elle travaille en particulier sur l’Entrepôt des Données de Santé (EDS) de l’AP-HP qui centralise les données collectées à l’AP-HP dans le cadre de soin, et les met à disposition de la recherche et du pilotage.
L’EDS contient aujourd’hui les données médicales de plus de 12 millions de patients (20 millions de dossiers médicaux, plus de 10 millions de diagnostics, 181 millions de résultats de laboratoire etc.). Les données structurées et non-structurées qui sont collectées à l’APHP sont intégrées et mises à jour quotidiennement. Un travail important de standardisation des données a été engagé afin de s’aligner sur les standards internationaux et assurer une interopérabilité maximale (OMOP, FHIR et les terminologies médicales de référence LOINC, CIM etc.). Une plateforme technique d’analyse est actuellement mise à disposition de plus de 40 projets de recherche, avec un cluster Hadoop (distribution Hortonworks avec les briques Hive, Spark2, Solr, Phoenix, Hbase, HDFS, Zookeper, Ambari etc.), une base de données PostgreSQL et des outils d’exploitation de données (Jupyter Lab, i2b2, Cognos, Cohort360).
Les missions du plateau technique ‘data’ mis en place pour la gestion de crise sont:
Pour cela, le plateau technique pourra s’appuyer sur:
Au sein du plateau technique de gestion de crise covid19, vous aurez pour mission de proposer et de développer des modèles statistiques et indicateurs répondant aux attentes de la cellule de crise covid19 de l’AP-HP.
Après vous être familiarisé.e avec les différentes bases de données pouvant être mises à contribution, dont celle de l’EDS, vous contribuerez à l’effort transversal afin d’améliorer la qualité des données intégrées, leur documentation et leur exploitation. Vous serez amené.e à développer des scripts de data management ou des librairies python de pre-processing. Pour enrichir la base de données par des données structurées, vous contribuerez au développement et à la mise en production de modèles de NLP qui extrairont des comptes rendus médicaux des variables d’intérêt.
Votre travail se fera en interaction avec de nombreux acteurs gravitant autour de l’EDS : l’équipe technique en charge de la Plateforme Méga Données pour la mise en production des modèles et librairies développés, les différentes équipes de recherche de l’AP-HP, les datascientists de l’AP-HP et partenaires externes (INRIA, Sorbonne Université etc.). Vous interviendrez dans le cadre de groupes de travail pluridisciplinaires.
Vos missions principales seront: