Stage - Data scientist d'embeddings spécialisés aux télécommunications F/H
Orange

Orange

Stage - Data scientist d'embeddings spécialisés aux télécommunications F/H

  • Stage (6 mois)
  • Lannion, 22300
  • Éducation : Bac +5 / Master
  • Expérience : < 6 mois

L'entreprise

Orange

Orange

  • Objets connectés, Big Data, Electronique / Télécommunications
  • > 2000 salariés

Le poste

Stage - Data scientist d'embeddings spécialisés aux télécommunications F/H

  • Stage (6 mois)
  • Lannion, 22300

  • Éducation : Bac +5 / Master
  • Expérience : < 6 mois

Cette offre a été pourvue !

Qui sont-ils ?

Le Big Data et l’intelligence artificielle constituent aujourd’hui de puissants leviers pour le groupe Orange, permettant à la fois de réinventer la relation client mais également d’optimiser et d’automatiser la gestion de nos réseaux, d’améliorer l’expérience client et d’apporter un avantage différenciant vis-à-vis de nos clients.

Orange développe ainsi des produits et des services à base d’intelligence artificielle autour de technologies du traitement du langage naturel, du dialogue et des agents conversationnels, de la reconnaissance de formes ou de l’analyse prédictive. L’ambition est aujourd’hui d’accélérer la diffusion des savoir-faire technologiques, aussi bien sur les applications que sur les algorithmes et outils, avec l’ensemble des filiales et directions métier du groupe.

Dans ce cadre, la direction Data & AI a pour principale mission de faire d’Orange une entreprise « data driven », qui définit les standards du Groupe en matière de Data & AI, et qui facilite le développement des cas d’usage, des produits et services de données. Cette direction est appelée à accompagner l’ensemble du groupe Orange.

Orange
Envie d’en savoir plus sur Orange ?Culture d'entreprise, stack technique, offres d'emplois... C’est parti pour l’immersion !
Visiter le profil

Descriptif du poste

Le traitement des données textuelles est un point central de l’analyse de conversations. La représentation de ces données passe par l’utilisation de modèles de langue, comme première étape avant l’application d’autres méthodes de Machine Learning et de Deep Learning. Du TF-IDF à BERT en passant par Word2Vec, la représentation de texte a subit dans les 10 dernières années des changements drastiques et a entraîné une amélioration des performances sur de nombreuses tâches, notamment grâce aux versions dites “pré-entraînées” des modèles à l’état de l’art. Ces versions généralistes ont l’avantage de pouvoir être appliquées sur de nombreux sujets sans aucun ajustement nécessaire.
Néanmoins, ces modèles, capables de représenter des mots ou des phrases, ne donnent pas forcément des résultats optimaux dans les situations où le domaine est restreint et le vocabulaire spécifique. En effet, s’il est relativement facile pour ces méthodes de différencier une question sur une voiture d’une demande de résolution de problème TV, il leur est en revanche plus compliqué de distinguer les subtilités entre deux problèmes TV distincts.

L’objectif principal de ce stage est d’élaborer un modèle de langue spécifique au domaine des télécommunications et de le comparer aux méthodes plus généralistes de l’état de l’art sur une sélection de tâches réelles (ex: clustering/classification de phrases, classification de dialogues).
Les étapes de ce stage se décomposent de la façon suivante. Dans un premier temps, une prise en main de l’environnement sera réalisée : état de l’art des modèles pour la représentation du texte et des conversations, présentation des tâches et baselines, manipulation des librairies associées.
Ensuite, le travail se portera sur l’adaptation d’un ou plusieurs modèles sur des données spécifiques au domaine des télécommunication, en utilisant notamment les techniques de finetuning. Chaque expérience devra se comparer rigoureusement aux baselines précédentes.

Profil recherché

Vous êtes étudiant.e en master 2, et vous vous retrouvez dans le profil suivant, en terme de compétences et connaissances :
Compétences requises
- Intelligence artificielle, machine/deep learning
- Python (numpy, pandas, sklearn), shell
- Connaissances en NLP
Les plus :
- Transformers, PyTorch
- Travail sur GPU

Orange

Orange

Cette offre vous tente ?

Questions et réponses sur l'offre
  • Partager sur Linkedin
  • Partager sur Facebook
  • Partager sur Twitter