Soutenance de thèse d'Alice Cohen-Hadria

Éditer

« Estimations de descriptions musicales et sonores par apprentissage profond »

Éditer

Contenu :
En Music Information Retrieval (MIR, ou recherche d'information musicales) et en traitement de la parole, les outils d’apprentissage automatique deviennent de plus en plus standard. En particulier, de nombreux systèmes état de l'art reposent désormais sur l'utilisation des réseaux de neurones. Nous présenterons le travail effectué pour résoudre quatre tâches de traitement de la musique ou de la parole, en utilisant de réseaux de neurones. Plus précisément, nous utiliserons des réseaux de neurones convolutionnels, dont l'utilisation a permis de nombreuses avancées notamment en traitement d'image. La première tâche présentée sera l'estimation de structure musicale. Pour cette tâche, nous montrerons à quel point le choix de la représentation en entrée des réseaux de neurones convolutionnels peut être critique pour l’estimation de structure. La deuxième tâche présentée sera la détection de la voix chantée. Dans cette partie, nous expliquerons comment utiliser un modèle de détection de la voix afin d’aligner automatiquement des paroles et des pistes audio. La séparation de voix chantée sera  la troisième tâche présentée. Pour cette tâche, nous présenterons une stratégie d’augmentation de données, un moyen d’augmenter considérablement la taille d’un ensemble d’entraînement. Enfin, nous aborderons l'anonymisation vocale dans des enregistrements urbains. Nous présenterons une méthode d'anonymisation qui masque le contenu et floute l'identité du locuteur, tout en préservant la scène acoustique restante. Alice Cohen-Hadria soutiendra sa thèse de doctorat réalisée au sein de l'équipe <a href="https://www.stms-lab.fr/team/analyse-et-synthese-des-sons/" target="_blank">Analyse et synthèse des sons</a> (STMS - CNRS/Ircam/Sorbonne Université). Le jury sera composé de : Emmanuel Vincent, rapporteur, INRIA Nancy Simon Dixon, rapporteur, Université Queen Mary, Londres Isabelle Bloch, Télécom Paris Jimena Royo Letelier, Deezer, Paris Carlos Agon, Université Paris VI Juan Pablo Bello, Université de New York Axel Roebel, STMS -  Ircam/CNRS/Sorbonne Université Geoffroy Peeters, Télécom Paris

En Music Information Retrieval (MIR, ou recherche d'information musicales) et en traitement de la parole, les outils d’apprentissage automatique deviennent de plus en plus standard. En particulier, de nombreux systèmes état de l'art reposent désormais sur l'utilisation des réseaux de neurones.

Nous présenterons le travail effectué pour résoudre quatre tâches de traitement de la musique ou de la parole, en utilisant de réseaux de neurones. Plus précisément, nous utiliserons des réseaux de neurones convolutionnels, dont l'utilisation a permis de nombreuses avancées notamment en traitement d'image.

La première tâche présentée sera l'estimation de structure musicale. Pour cette tâche, nous montrerons à quel point le choix de la représentation en entrée des réseaux de neurones convolutionnels peut être critique pour l’estimation de structure. La deuxième tâche présentée sera la détection de la voix chantée. Dans cette partie, nous expliquerons comment utiliser un modèle de détection de la voix afin d’aligner automatiquement des paroles et des pistes audio. La séparation de voix chantée sera la troisième tâche présentée. Pour cette tâche, nous présenterons une stratégie d’augmentation de données, un moyen d’augmenter considérablement la taille d’un ensemble d’entraînement. Enfin, nous aborderons l'anonymisation vocale dans des enregistrements urbains. Nous présenterons une méthode d'anonymisation qui masque le contenu et floute l'identité du locuteur, tout en préservant la scène acoustique restante.

Alice Cohen-Hadria soutiendra sa thèse de doctorat réalisée au sein de l'équipe Analyse et synthèse des sons (STMS - CNRS/Ircam/Sorbonne Université).

Le jury sera composé de :

Emmanuel Vincent, rapporteur, INRIA Nancy
Simon Dixon, rapporteur, Université Queen Mary, Londres
Isabelle Bloch, Télécom Paris
Jimena Royo Letelier, Deezer, Paris
Carlos Agon, Université Paris VI
Juan Pablo Bello, Université de New York
Axel Roebel, STMS - Ircam/CNRS/Sorbonne Université
Geoffroy Peeters, Télécom Paris

Éditer