Thèse 'Codage audio multicanal par réseau de neurones' F/H

Résumé du poste
CDD / Temporaire(36 mois)
Cesson-Sévigné
Salaire : Non spécifié
Télétravail non autorisé
Expérience : < 6 mois
Éducation : Bac +5 / Master
Compétences & expertises
Compétences en recherche
Compréhension des architectures réseau
Ingénierie du son
Pytorch
Python
Postuler

Orange
Orange

Cette offre vous tente ?

Postuler
Questions et réponses sur l'offre

Le poste

Descriptif du poste

Votre rôle est d’effectuer un travail de thèse sur le codage audio multicanal par réseaux de neurones.
Contexte global et problématique du sujet
Après MPEG-H pour le streaming, le standard 3GPP IVAS (Immersive Voice and Audio Services)  auquel Orange a contribué inaugure la capacité d’un codec conversationnel à adresser des services immersifs avec même une part d’interaction utilisateur sur le plan spatial. Il y a une convergence avec les téléréunions (en y apportant le naturel des réunions physiques et même plus d’interactivité) et le concept de collaborateur augmenté (incl. réalité augmenté). Les approches de type “ spatial paramétrique ” semblent appropriées aux besoins d’interaction, ainsi que le format High Order Ambisonics (HOA).
Ces dernières années et encore tout récemment, les approches neuronales appliquées au codage audio monocanal ont fait des progrès énormes en termes de rapport qualité-débit. Ce sont en particulier les réseaux antagonistes génératifs (GAN) qui ont permis un tel gain de performances. Ces derniers ont parfois une complexité algorithmique trop importante pour être utilisés en pratique.
En revanche, les travaux sur le codage audio spatial (multicanal) en neuronal de bout-en-bout sont encore balbutiant.
Le codage de la voix et de l’audio est dans l’ADN d’Orange, la qualité de ses services en dépend.
Objectif scientifique - résultats et verrous à lever
L’objectif de la thèse est de concevoir un codeur audio spatialisé basé sur un réseau de neurones offrant des possibilités de restitution interactive.
Pour obtenir de l’interactivité au décodage, il est nécessaire de progresser dans la conception de réseaux de neurones interprétables. Pour cela, il est envisagé de croiser des tâches généralement séparées jusqu’à présent : codage, séparation de sources, rehaussement, analyse spatiale, déréverbération. C’est une pratique courante en neuronal mais encore trop partiellement appliquée sur ces tâches.
Il faudra exploiter ou concurrencer des modèles représentatifs de l’état de l’art, tout en visant une complexité / consommation réduite.
Un aspect critique de la thèse est l’exploitation (voire la constitution) des bases de données audio 3D pour l’apprentissage et l’évaluation des algorithmes développés.


Profil recherché

Compétences (scientifiques et techniques) et qualités personnelles exigées par le posteMaitrise des techniques d’apprentissage automatique, réseaux de neurones profonds
Maitrise des techniques de traitement du signal, audio. Compréhension des propriétés spatiales de l’acoustique
Connaissance des principes du codage
Autonomie et prise d’initiatives
Capacité de synthèse et vulgarisation
Formation demandée (master, diplôme d’ingénieur, doctorat, domaine scientifique et technique …)Diplôme niveau bac+5 (master, diplôme d’ingénieur, etc.) dans le domaine du traitement du signal ou de l’apprentissage automatique ou de l’acoustique.
Une connaissance du domaine de l’audio est un plus
Connaissance du langage Python (bibliothèque Pytorch)
 Expériences souhaitées (stages, …)

Envie d’en savoir plus ?

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.

Postuler