DATA SCIENTIST / ML ENGINEER – PLATEFORME DATA SCIENCE (H/F)

CDD / Temporaire
Paris
Télétravail occasionnel
Salaire : Non spécifié
Début : 13 août 2025
Expérience : > 1 an
Éducation : Bac +5 / Master
Postuler

Institut Imagine
Institut Imagine

Cette offre vous tente ?

Postuler
Questions et réponses sur l'offre

Le poste

Descriptif du poste

Dans le cadre d’un projet visant à reconstituer l’histoire clinique de patients, l’équipe Data Science recrute un Data Scientist/ML Engineer H/F.

L’objectif du projet est d’extraire, depuis des comptes rendus médicaux (texte libre), des informations sur l’état des patients et de les associer à un repère temporel (date ou indication de temps) afin de caractériser finement l’évolution clinique des patients. 

Cette approche vise à produire des profils patients détaillés, pour aider au diagnostic, à l’orientation thérapeutique et à une meilleure compréhension des maladies rares étudiées.

Une application concrète de l’outil développé sera d’évaluer sa pertinence pour caractériser deux cohortes de patients atteints de maladies rares : ciliopathies et épilepsies rares, deux contextes cliniques où l’évolution temporelle joue un rôle central. 

À terme, un pipeline complet sera produit et partagé, incluant l’utilisation de modèles de langage généralistes (e.g. LLMs) non entraînés sur des données patients. 

Au sein de l’institut, la plateforme Data Science est particulièrement responsable du développement: 

  • De bases de données pour les équipes de recherche : constitution de cohortes de patients et analyse des données

  • D’un entrepôt de données biomédicales : moteur de recherche et fouille de données

  • De méthodes de data mining et d’extractions d’information par des méthodes d’intelligence artificielle (Traitement automatique du langage, traitements des images)

  • D’applications pour aider les médecins et scientifiques dans leurs recherches

Dans le cadre de ce projet, le futur Data Scientist / ML engineer H/F sera chargé de:

  • Faire de la veille méthodologique et technique sur le sujet (aspects données et médicaux en collaboration avec les spécialistes)

  • Participer au choix méthodologiques effectués

  • Développer des pipelines d’extraction de relations temporelles depuis des comptes rendus cliniques et de chronologies depuis des dossiers patients

  • Mettre en place des procédures d’évaluation et de comparaison de modèles / pipelines candidats

  • Participer au contrôle qualité, à la création et mise en forme des données d'entraînement

  • Effectuer l’analyse des données collectées

  • Participer à l’industrialisation des pipelines développés en collaboration avec des membres de la plateforme

  • Communiquer les résultats obtenus (présentations, rapports, participation à la rédaction d’articles scientifiques)

  • Collaborer avec les équipes techniques, métiers et analytiques


Profil recherché

À la croisée des chemins entre Data Scientist et ML Engineer, vous : 

  • Êtes capable d’analyser des données, d’évaluer des approches méthodologiques en fonction de l’objectif du projet, et d’échanger à ce sujet avec les responsables scientifiques. 

  • Avez l’habitude d’évoluer dans un environnement interdisciplinaire, en interaction avec des médecins, chercheurs, ingénieurs et spécialistes en maladies rares. 

  • Savez communiquer vos résultats, vos avancées, ainsi que les éventuelles difficultés rencontrées de manière claire, quel que soit l’interlocuteur. 

  • Concentrez votre travail sur la compréhension fine de la tâche à accomplir, et utilisez les méthodologies (NLP, machine learning, deep learning, statistiques…) comme outils au service de cette tâche

  • Êtes à la fois curieux(se), proactif(ve) et à l’écoute : vous savez faire preuve d’autonomie tout en intégrant les retours et choix des responsables de projet et partenaires. 

  • Les documents traités étant en français, une excellente compréhension écrite du français est indispensable. Vous serez impliqué(e) dans la production et le contrôle qualité des données textuelles annotées

Compétences et expérience 

  • Formation Bac+5, doctorat ou diplôme d’école d’ingénieur. 

  • Expérience de 2 ans sur des projets similaires souhaitable. 

  • Maîtrise des techniques de traitement du langage naturel (NLP), d’analyse de données et de développement de modèles de machine learning et deep learning

  • Maîtrise des environnement linux 

  • Bonne connaissance des frameworks courants : huggingface/transformers, PyTorch, scikit-learn, etc. 

Contrat 

  • CDD 

  • Prise de fonction: fin 2025/début 2026 

  • Localisation : Institut Imagine - 24 boulevard du Montparnasse 75015 PARIS 

  • Télétravail possible 2j/semaine 

  • Accès aux associations sportives et culturelles 

  • Salaire selon profil et expérience. 

Envie d’en savoir plus ?

Postuler