Notre équipe de recherche Neuro-AI développe des modèles fondateurs et génératifs entraînés sur des données neuroscientifiques complexes (EEG, IRM, fMRI). Nous passons à l’industrialisation pour bâtir notre modèle multimodal de nouvelle génération.
Votre mission est critique : Être le Founding Engineer de notre infrastructure ML. Vous concevez et implémentez les systèmes complets — de la donnée brute structurée au déploiement distribué en production — permettant à l’équipe de challenger et de lancer notre premier modèle fondamental multimodal. Ce rôle hybride, à mi-chemin entre recherche et engineering, vous donne l’autonomie de façonner nos pratiques Machine Learning.
Vos responsabilités sont structurées autour de la construction d’un socle technique fiable et performant.
Pipeline Data Unifiée : Concevoir et construire des pipelines ELT/ETL robustes pour agréger et homogénéiser des datasets hétérogènes.
Gouvernance MLOps : Mettre en place la validation, le versioning des datasets et le suivi d’expériences (tracking) avec des outils comme MLflow ou équivalent.
Qualité Critique : Garantir la propreté, la normalisation et les Data Tests pour sécuriser la phase critique de pré-entraînement massif. Vous créez et maintenez notre leaderboard interne pour le suivi de performance vs SOTA.
Vous garantissez l’efficacité et la performance de notre cluster GPU.
Code de Production : Refactoriser et optimiser le code prototype (PyTorch) en code production-grade, propre et modulaire.
Expertise GPU : Déployer, configurer et optimiser les pipelines de pré-entraînement distribué. Maîtriser les concepts avancés (FSDP, DeepSpeed, Model Parallelism) pour l’efficacité et la résolution des goulots d’étranglement.
Gestion de Cluster : Être le référent pour l’orchestration des ressources de calcul, y compris l’usage avancé de systèmes comme Slurm.
Nous recherchons un Ingénieur.e de 3 à 4+ années d’expérience capable d’allier expertise en scaling de l’IA avec une passion pour la construction d’infrastructures de données fiables.
Must-Haves :
Data Foundation : Expérience prouvée dans le versioning de datasets, les Data Tests. Vous trouvez une satisfaction technique à rendre les fondations fiables.
PyTorch & Training Distribué : Maîtrise avancée de PyTorch et expérience concrète dans le scaling de charges de travail complexes sur clusters GPU/nœuds.
Software Engineering de Qualité : Vous écrivez du code testé, maintenable, et vous êtes l’acteur du refactoring.
Expérience dans le pré-entraînement de modèles fondation et l’IA générative.
Nice-to-Haves :
Rencontrez Paul, Head of Talent Acquisition
Estas empresas también contratan para el puesto de "{profesión}".