Contexte :
Offre de stage de recherche de master d’une durée de 4 à 6 mois, débutant en automne 2025. Ce document liste les possibles directions pour le stage, qui seront ajustées au fil du stage. Le stage aura lieu au sein du centre de recherche d’Artefact à Paris.
L’objectif est d'étudier les modèles à base d’arbre dans un cadre où l’on souhaite avoir une distribution en sortie du modèle identique pour plusieurs sous-groupes de population présent dans les données.
Présentation d’Artefact :
Artefact est une société internationale de services autour de la data, spécialisée dans le conseil en transformation data, dont la mission est de transformer la donnée en délivrant des résultats tangibles sur l’ensemble de la chaîne de valeur des entreprises. L’approche unique d’Artefact, qui fait le pont entre la donnée et le business, permet à nos clients d’atteindre leurs objectifs business de façon dédiée et efficace. Nos 1000 employés allient leurs compétences pluridisciplinaires au profit de l’innovation business des entreprises. Nos technologies de pointe en Intelligence Artificielle, nos méthodes agiles garantissent le succès des projets IA de nos clients, de la conception au déploiement, jusqu’à la formation et l’accompagnement au changement.
Sujet :
Le machine learning comporte de nombreuses applications en entreprise, avec un grand nombre de problèmes qui s’expriment avec des données tabulaires, indiquant typiquement l’âge, le genre, ou le pays de clients. Pour cette structure de données, les modèles à base d’arbres, tels que les forêts aléatoires ou les adaptations du gradient boosting (XGboost [1], LightGBM [2], Catboost [3]), sont régulièrement choisis et déployés dans des projets industriels impliquant du machine learning. Ceci s’explique avant tout par leur performance prédictive observée dans les tâches supervisées, et une facilité “prêt à l’emploi” qui ne requiert pas ou peu de préparation des données.
Certains cas d’usage industriels nécessitent un contrôle absolu du comportement du modèle. En effet, il est parfois imposé ou recommandé de ne pas discriminer une partie de la population. Ce risque est particulièrement présent dans le cas d’apprentissage statistique, où l’objectif est souvent purement de maximiser la précision sur le jeu d’apprentissage. La discrimination se retrouve ainsi présente dans le modèle final, par exemple par reproduction de schémas de discrimination présents dans les données. Cet enjeu est un domaine de recherche actuel, dénommé fairness, et est particulièrement dynamique, avec la réglementation des modèles d’IA qui évolue, comme par exemple avec l’AI Act de l’Union Européenne.
Durant ce stage, le/la stagiaire aura comme sujet d’explorer les méthodes de réduction des biais, autrement dit des discriminations, pour un modèle à base d’arbre (XGBoost [1], LightGBM [2], GradientBoosting[4]). Cela commencera par une implémentation des méthodes existantes listées dans les références [5-18], et d’établir un protocole robuste pour comparer ces méthodes et de comprendre leurs limites. Dans un second temps, le stage se concentrera sur l’invention et l’expérimentation de nouvelles méthodes de réduction de biais pour ces modèles. Pour cela, le/la stagiaire pourra partir de packages open source, comme scikit-learn ou LightGBM, pour implémenter de nouvelles méthodologies, et ainsi rester dans un cadre de code scalable et facile à adopter.
Pré-requis
Le profil recherché pour ce poste est le suivant :
Références
Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.