Cette offre n’est plus disponible.

Stage - Data scientist d'embeddings spécialisés aux télécommunications F/H

Stage(6 mois)
Lannion
Salaire : Non spécifié
Télétravail non autorisé
Expérience : < 6 mois
Éducation : Bac +5 / Master

Orange
Orange

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

Le traitement des données textuelles est un point central de l’analyse de conversations. La représentation de ces données passe par l’utilisation de modèles de langue, comme première étape avant l’application d’autres méthodes de Machine Learning et de Deep Learning. Du TF-IDF à BERT en passant par Word2Vec, la représentation de texte a subit dans les 10 dernières années des changements drastiques et a entraîné une amélioration des performances sur de nombreuses tâches, notamment grâce aux versions dites “pré-entraînées” des modèles à l’état de l’art. Ces versions généralistes ont l’avantage de pouvoir être appliquées sur de nombreux sujets sans aucun ajustement nécessaire.
Néanmoins, ces modèles, capables de représenter des mots ou des phrases, ne donnent pas forcément des résultats optimaux dans les situations où le domaine est restreint et le vocabulaire spécifique. En effet, s’il est relativement facile pour ces méthodes de différencier une question sur une voiture d’une demande de résolution de problème TV, il leur est en revanche plus compliqué de distinguer les subtilités entre deux problèmes TV distincts.

L’objectif principal de ce stage est d’élaborer un modèle de langue spécifique au domaine des télécommunications et de le comparer aux méthodes plus généralistes de l’état de l’art sur une sélection de tâches réelles (ex: clustering/classification de phrases, classification de dialogues).
Les étapes de ce stage se décomposent de la façon suivante. Dans un premier temps, une prise en main de l’environnement sera réalisée : état de l’art des modèles pour la représentation du texte et des conversations, présentation des tâches et baselines, manipulation des librairies associées.
Ensuite, le travail se portera sur l’adaptation d’un ou plusieurs modèles sur des données spécifiques au domaine des télécommunication, en utilisant notamment les techniques de finetuning. Chaque expérience devra se comparer rigoureusement aux baselines précédentes.


Profil recherché

Vous êtes étudiant.e en master 2, et vous vous retrouvez dans le profil suivant, en terme de compétences et connaissances :
Compétences requises
- Intelligence artificielle, machine/deep learning
- Python (numpy, pandas, sklearn), shell
- Connaissances en NLP
Les plus :
- Transformers, PyTorch
- Travail sur GPU

Envie d’en savoir plus ?