Recherche
Actualité

Soutenance de thèse de Philippe Cuvillier

« Modèles probabilistes temporellement cohérents pour l'alignement audio-sur-partition »

Thèse de doctorat, réalisée au sein de l'équipe Représentations musicales à l'Ircam (STMS - CNRS/Ircam/UPMC).

Jeudi 15 décembre 2016, 14h30
Ircam, salle Stravinsky

Résumé

Cette thèse porte sur l'alignement automatique d'une performance musicale avec sa partition de musique correspondante. Ce problème est apparenté à d’autres tâches de Music Information Retrieval (MIR) telles que l'estimation de fréquences fondamentales, la segmentation automatique ou la détection d’onset. À cet effet, l’approche par modèles probabilistes génératifs consiste à décrire l'évolution temporelle a priori de l'information à estimer par un processus stochastique, et ce afin de régulariser l'analyse fréquentielle à court terme. Mais quels processus choisir pour bien modéliser l'évolution de la position sur la partition ? Comment trouver les bons paramètres autrement que par des heuristiques ou une phase d’apprentissage ?

Pour y répondre, nous partons d'une spécificité de l'alignement musical : une partition attribue à chaque événement musical une durée nominale (noire, croche, etc.). Grâce à cette information a priori, nous proposons une démarche axiomatique en introduisant plusieurs critères de « cohérence temporelle » d’un algorithme d'alignement. Bien que forts répandus, les modèles de Markov cachés (HMM) se révèlent incohérents ; mais avec une généralisation des HMM appelée modèles de semi-Markov cachés (HSMM), la cohérence peut s’obtenir sous des conditions mathématiques particulières. Celles-ci sont inspirées par deux domaines étrangers à celui du MIR : les processus de Lévy (utilisés en finance), et la positivité totale d'ordre deux (utilisée en théorie de la fiabilité). Par ailleurs, ces garanties théoriques s’accompagnent de bienfaits pratiques tels que l'amélioration de l'algorithme d'alignement temps réel du logiciel Antescofo développé par l'équipe-projet Mutant/équipe Représentations musicales.

D'un certain point de vue, la démarche de cette thèse peut rappeler les recherches, menées notamment à l'Ircam, sur la formalisation des structures mathématiques inhérentes à la musique. Grâce à sa géométrie riche et protéiforme, l’espace des hauteurs de note a peut-être inspiré davantage de travaux que cette simple droite unidimensionnelle qu'est le temps – si l'on excepte les études sur les pavages rythmiques et autres structures périodiques. Pourtant, le temps musical n'est pas dénué de structures intéressantes ; par exemple, l’ambivalence de sa nature, à la fois discrète et continue. Avoir cherché à formaliser ces particularités et les intégrer dans la conception d'algorithmes de reconnaissance a été l'idée la plus féconde pour ces trois années de doctorat.

Jury

Yann Guédon, Rapporteur - Cirad/Université de Montpellier II
Sophie Mercier, Rapporteur - Université de Pau et des Pays de l’Adour
Olivier Cappé, Examinateur - CNRS/Télécom ParisTech
Christopher Raphael, Examinateur - Indiana University Bloomington
Arshia Cont, Directeur de thèse - Ircam