Codoc recherche d’un stagiaire Data Scientist dans l’équipe R&D. Tu participeras à l’optimisation des algorithmes de pseudonymisation et à leur intégration dans des projets nationaux, tels que Meditwin.
Tes missions :
Test des outils de pseudonymisation non supervisés : Tu développeras un outil de pseudonymisation basé sur des méthodes automatisées et non supervisées pour assurer la suppression des données sensibles dans les comptes-rendus hospitaliers (informations des médecins et des patients dans les entêtes et dans le corps du texte).
Enrichissement d’une base de données de test : Tu seras chargé d’alimenter une base de données de test pour pouvoir tester tes modèles. La création de documents fictifs se basera sur des méthodes combinant LLM et connaissances experts.
Optimisation des méthodes de NLP : Tu participeras aux projets d’amélioration de l’extraction des concepts médicaux dans les comptes-rendus et de leur standardisation aux classifications médicales.
Veille technologique : Tu assureras la veille bibliographique sur les méthodes de pseudonymisation référencées dans le littérature scientifique. Tu seras chargé de partager ces informations au reste de l’équipe et à proposer des améliorations sur ce sujet.
Mise en production : Accompagner des équipes codoc, tu pourras permettre la mise en production de l’algorithme en fonction des résultats.
Rejoindre codoc c’est :
Donner du sens à ton travail en participant à la croissance d’une entreprise qui a du sens dans la santé
Contribuer à apporter une solution avec un fort impact pour la communauté scientifique et médicale
Un environnement de travail bienveillant qui encourage la créativité
Avantages :
Des moments conviviaux en équipe réguliers
Un jour de congé par mois.
Des tickets-restaurants
Mac
Transport (50%)
Conditions du stage :
Durée du stage: 6 mois
Lieu: 34 boulevard Sébastopol, Paris
Date de début: Entre le 9 mars et le 30 mars en fonction de tes disponibilités
Télétravail: autorisé ponctuellement à partir de deux mois de stage
Si tu te reconnais dans au moins cinq de ces points, n’hésite pas à nous contacter pour ce poste.
Master 2 en école d’ingénieur ou en cursus Data Science
Une appétence pour les enjeux liés aux données de santé et leur impact sur la recherche et l’innovation médicale
Excellente capacité de communication orale et écrite
Connaissance du traitement de langage naturel (NLP)
Connaissance en recherche bibliographique et veille technologique
Maitrise des langages de programmation en particulier Python et ses bibliothèques NLP
Esprit analytique, rigueur et autonomie
Processus de recrutement :
Nous essayons d’éviter les processus lourds qui s’étendent sur plusieurs mois, mais pour nous il est important qu’il y ait un vrai fit avec l’équipe, ce qui induit de prendre un peu de temps :
Validation de ta candidature et échange par visio (30 minutes)
Rencontre avec l’équipe et cas d’usage (1h)
Débrief détaillé
Proposition de stage
Rencontrez Nicolas, Co-fondateur de codoc et Responsable Data Science à l'Institut Imagine
Rencontrez Margaux, Lead data
Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.