Votre rôle est d’effectuer un travail de Post doc sur : “ Séparation de sources par IA générative appliquée à des contenus ambisoniques”. Ces travaux seront menés dans le cadre du projet ANR DEESSE “Deep Generative Spatial Source Separation”, lancé début 2025.
Contexte global et problématique du sujet
La prise de son mains-libres utilisée par certains services de communication vocale offre l’avantage de l’ergonomie en libérant les mains de l’utilisateur. En contrepartie, ce type de prise de son souffre d’arfacts liés à l’éloignement du locuteur : bruit ambiant, écho, interférences… Afin de rendre à la voix son intelligibilité, des techniques de rehaussement sont appliquées.
Dernièrement, les technologies de séparation ont bénéficié de la démocratisation des antennes de microphones des devices. Avec les informations spatiales, ces traitements multicanals sont plus performants que les versions monocanales. La généralisation du deep learning au traitement du signal audio est incontournable avec des résultats excellents (par exemple challenge Sound Demixing 2023)
Cependant, ces méthodes ont des limites traités dans le projet ANR DEESSE :
l’approche discriminative retenue, qui consiste à appliquer un masque temps-fréquences, génère des artefacts audibles comme des résidus d’interférences ou une voix dégradée,
les réseaux, entraînés sur des bases de données synthétiques, fonctionnent mal en situations réelles, du fait du caractère rudimentaire des moteurs de simulation acoustique.
Objectif scientifique - résultats et verrous à lever
L’objectif du travail de postdoc consiste à développer des méthodes de séparation de sources audio multicanal robustes en condition réelle.
Dans ce travail, les données multicanal seront au format Ambisonique : de nombreuses antennes du marché encodent dans ce format,devenu le format générique de représentation pour les contenus VR et supporté par les plus récents codeurs audio comme IVAS du 3GPP. Plus précisément, on désire dans ce post-doc investiguer comment des architectures causales de type encodeur-décodeur monocanal comme DAC peuvent répondre à notre problématique de séparation de sources. On s’intéressera à la façon de représenter les données spatiales au format Ambisonique et à la manière de conditionner le réseau pour extraire de la source d’intérêt identifiée par sa position. Enfin, pour répondre à la problématique de généralisation, on investiguera les approches de type GAN (Generative Adversarial Network).
Compétences (scientifiques et techniques) et qualités personnelles exigées par le poste
Maitrise des techniques d’apprentissage automatique, réseaux de neurones profonds
Maitrise des techniques de traitement du signal, audio.
Connaissances approfondies en Python, Bash etc.
Rigueur et créativité
Notions de propriété intellectuelle
Formation demandée (master, diplôme d’ingénieur, doctorat, domaine scientifique et technique …)
Diplôme niveau bac+8 (Thèse et Master ou école d’ingénieur en Informatique et réseaux) dans le domaine du traitement du signal ou acoustique ET de l’apprentissage automatique.
Une connaissance du domaine de l’audio est impérative
Expériences souhaitées (stages,projets, TPs …)
Thèse dans le domaine du traitement du signal et de l’apprentissage automatique
Expérience en apprentissage automatique, notamment réseaux de neurones profonds (DNN), framework PyTorch
Expérience en traitement du signal audio (filtrage, réduction de bruit, codage)
Rencontrez Antoine, Consultant data science
Rencontrez Mireia, Consultante data expert
Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.