ORANGE SA : THÈSE 'CODAGE AUDIO MULTICANAL PAR RÉSEAU DE NEURONES' (F/H)

Poste
Thèse (36 mois) - Cadre
Niveau d'étude
Bac+5 (Master / Ingénieur)
Univers
Informatique, web et numérique
Métier
Systèmes d'informations - Télécom
Localisation
Cesson-Sévigné (35, Ille-et-Vilaine)

Inscrivez-vous !

En vous inscrivant sur Engagement Jeunes, recevez les offres qui vous correspondent et rendez vous visible des recruteurs.

Présentation de la société : ORANGE SA

L'ambition de la Division Innovation est de porter plus loin l'innovation d'Orange et de renforcer son leadership technologique, en mobilisant nos capacités de recherche pour nourrir une innovation responsable au service de l'humain, éclairer les choix stratégiques du Groupe à long terme et influencer l'écosystème digital mondial.
Nous formons les expertes et les experts des technologies d'aujourd'hui et de demain, et veillons à une amélioration continue de la performance de nos services et de notre efficacité. La division Innovation rassemble, dans le monde, 6000 salariés dédiés à la recherche et l'innovation dont 740 chercheurs. Porteurs d'une vision globale avec une grande diversité de profils (chercheurs, ingénieurs, designers, développeurs, data scientists, sociologues, graphistes, marketeurs, experts en cybersécurité…) , les femmes et les hommes de Innovation sont à l'écoute et au service des pays, des régions et des business units pour faire d'Orange un opérateur multiservices de confiance.

Au sein d'Innovation, vous serez intégré(e) dans une équipe à la pointe de l'innovation et de l'expertise sur les systèmes de télécommunications audio (prise de son, débruitage, analyse de scène, spatialisation, codage/compression etc.) . Vous ferez partie d'un écosystème de recherche côtoyant des chercheurs et ingénieurs permettant la mise en oeuvre concrète des concepts, ainsi que des systèmes audio à l'état de l'art pour la prise de son, la diffusion et la transmission

Missions

Votre rôle est d'effectuer un travail de thèse sur le codage audio multicanal par réseaux de neurones.
Contexte global et problématique du sujet
Après MPEG-H pour le streaming, le standard 3GPP IVAS (Immersive Voice and Audio Services) auquel Orange a contribué inaugure la capacité d'un codec conversationnel à adresser des services immersifs avec même une part d'interaction utilisateur sur le plan spatial. Il y a une convergence avec les téléréunions (en y apportant le naturel des réunions physiques et même plus d'interactivité) et le concept de collaborateur augmenté (incl. réalité augmenté) . Les approches de type " spatial paramétrique " semblent appropriées aux besoins d'interaction, ainsi que le format High Order Ambisonics (HOA) .
Ces dernières années et encore tout récemment, les approches neuronales appliquées au codage audio monocanal ont fait des progrès énormes en termes de rapport qualité-débit. Ce sont en particulier les réseaux antagonistes génératifs (GAN) qui ont permis un tel gain de performances. Ces derniers ont parfois une complexité algorithmique trop importante pour être utilisés en pratique.
En revanche, les travaux sur le codage audio spatial (multicanal) en neuronal de bout-en-bout sont encore balbutiant.
Le codage de la voix et de l'audio est dans l'ADN d'Orange, la qualité de ses services en dépend.
Objectif scientifique
  • résultats et verrous à lever
L'objectif de la thèse est de concevoir un codeur audio spatialisé basé sur un réseau de neurones offrant des possibilités de restitution interactive.
Pour obtenir de l'interactivité au décodage, il est nécessaire de progresser dans la conception de réseaux de neurones interprétables. Pour cela, il est envisagé de croiser des tâches généralement séparées jusqu'à présent : codage, séparation de sources, rehaussement, analyse spatiale, déréverbération. C'est une pratique courante en neuronal mais encore trop partiellement appliquée sur ces tâches.
Il faudra exploiter ou concurrencer des modèles représentatifs de l'état de l'art, tout en visant une complexité / consommation réduite.
Un aspect critique de la thèse est l'exploitation (voire la constitution) des bases de données audio 3D pour l'apprentissage et l'évaluation des algorithmes développés

Profil recherché

Compétences (scientifiques et techniques) et qualités personnelles exigées par le posteMaitrise des techniques d'apprentissage automatique, réseaux de neurones profonds
Maitrise des techniques de traitement du signal, audio. Compréhension des propriétés spatiales de l'acoustique
Connaissance des principes du codage
Autonomie et prise d'initiatives
Capacité de synthèse et vulgarisation
Formation demandée (master, diplôme d'ingénieur, doctorat, domaine scientifique et technique …) Diplôme niveau bac+5 (master, diplôme d'ingénieur, etc.) dans le domaine du traitement du signal ou de l'apprentissage automatique ou de l'acoustique.
Une connaissance du domaine de l'audio est un plus
Connaissance du langage Python (bibliothèque Pytorch)
Expériences souhaitées (stages, …)