Échantillonnage de données par bandits pour l’entrainement des LLMs F/H
Positionnement
L’allocation optimale de l’effort d’entraînement entre plusieurs jeux de données est aujourd’hui un enjeu central pour l’apprentissage des LLMs. De récents travaux (Ye et al., 2024 ; Zhu et al., 2025 ; Belenki et al., 2025 ; Liu et al., 2025) ont montré que l’optimisation automatique de ces mélanges, via des modèles prédictifs ou régressifs, permet d’améliorer significativement les résultats, tout en révélant la complexité des interactions entre domaines. Cependant, ces méthodes d’estimation de poids sont généralement a priori (avant l’entraînement) et via des proxys des modèles (et non les réels modèles destinés à être entraînés). Les dynamiques d’apprentissage, notamment inhérente au modèle réel, ne sont pas prises en compte.
Votre rôle :
Vous participerez à un projet de recherche appliquée visant à optimiser l’échantillonnage de données pour l’entraînement de grands modèles de langage (LLMs).
Votre mission consistera à :
. Étudier les approches connexes dans la littérature scientifique
. Formaliser le problème d’allocation adaptative de l’effort d’entraînement entre plusieurs jeux de données dans le cadre des approches de bandits
. Analyser les limitations du cadre bandit classique (exploration coûteuse, feedback biaisé, non-stationnarité, interactions entre sources, etc.)
. Développer et tester des algorithmes d’échantillonnage adaptatif, en commençant par des cas relaxés sur données synthétiques et des modèles de faible dimension, puis en montant en complexité (jeux de données images, puis corpus textuels pour LLM)
Votre profil :
Vous préparez un Bac+5 en Machine learning / Mathématiques appliquées et recherchez un stage de 6 mois à temps plein à partir de février / mars 2026.
(Pour information, nous ne proposons pas de stage alterné.)
Vos compétences techniques
. Solide formation en mathématiques appliquées, probabilités/statistiques et optimisation
. Maîtrise de Python et des librairies de data science (NumPy, PyTorch…)
. Connaissances en apprentissage automatique et deep learning
Vos qualités personnelles
. Intérêt pour la recherche appliquée et la validation expérimentale
. Curiosité scientifique, rigueur et autonomie
. Goût pour le travail en équipe et la communication de résultats
. Esprit d’initiative et capacité d’adaptation à des problématiques complexes
Rencontrez Antoine, Consultant data science
Rencontrez Mireia, Consultante data expert
Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.