Les données issues des logs et des systèmes d’information d’Orange présentent des caractéristiques très particulières : Elles sont le plus souvent temporelles et multi-tables. Elles présentent aussi beaucoup de redondance (certains mots clés ou codes apparaissant très fréquemment dans les logs), mais elles opèrent sur de longues fenêtres temporelles.
Les transformers classiques ont montré leur efficacité dans bien des domaines, mais ils ne sont pas forcément adaptés à ce type de données.
Ce stage vise à développer, adapter et évaluer des modèles de fondation (pretraining et fine-tuning) sur des données temporelles et multi-tables issues de cas d’utilisation Orange.
Il s’agira :
- D’adapter les modèles déjà développés dans l’équipe via l’ajout :
— de transformers linéaires ou hiérarchiques pour traiter efficacement des données temporelles longues
— d’encodages positionnels et de masquages spécifiques pour traiter efficacement des données multi-tables.
- De mettre en oeuvre des stratégies de pré-entraînement (pretraining) sur des logs et données temporelles pour apprendre des représentations générales.
- D’évaluer ces modèles sur des tâches supervisées (classification, détection d’anomalies, etc.) en réalisant du fine-tuning.
Rencontrez Antoine, Consultant data science
Rencontrez Mireia, Consultante data expert
Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.