Soutenance de thèse de Luc Ardaillon

Éditer

Contenu :
Luc Ardaillon soutiendra sa thèse de doctorat réalisée au sein de l’<a href="https://www.ircam.fr/recherche/equipes-recherche/anasyn/" target="_blank">équipe Analyse et Synthèse des Sons</a> (STMS - CNRS/IRCAM/UPMC), intitulée : « Synthèse et transformation expressive de la voix chantée » La soutenance de thèse se fera, en anglais. <h3>Résumé</h3> Les systèmes de synthèse de voix chantée actuels sont déjà capables de synthétiser des voix avec une qualité raisonnable, permettant une utilisation dans le cadre de productions musicales. Mais beaucoup d’efforts sont encore nécessaires afin d’obtenir une qualité comparable à celle d’un réel chanteur professionnel. Le but de cette thèse était de conduire des recherches sur la synthèse et transformation expressive de voix chantée, en vue de pouvoir développer un synthétiseur de haute qualité capable de générer automatiquement un chant naturel et expressif à partir d’une partition et d’un texte donnés. Du fait de la grande variabilité du signal vocal, tant du point de vue de son contrôle que de son timbre, cela implique de considérer des aspects variés. Trois directions de recherches principales peuvent être identifiées : les méthodes de modélisation du signal afin de générer automatiquement une voix intelligible et naturelle à partir d’un texte donné ; le contrôle de la synthèse, afin de produire une interprétation d’une partition donnée tout en transmettant une certaine expressivité liée à un style de chant spécifique ; la transformation du signal vocal afin de le rendre plus naturel et plus expressif, en faisant varier le timbre en adéquation avec la hauteur, l’intensité et la qualité vocale. Cette thèse apporte diverses contributions dans chacune de ces trois directions. Tout d’abord, un système de synthèse complet a été développé, basé sur la concaténation de diphones, que nous supposons être jusqu’à aujourd’hui l’approche capable de produire les résultats de la plus haute qualité. L’architecture modulaire de ce système permet d’intégrer et de comparer différent modèles de signaux. Ensuite, la question du contrôle est abordée, comprenant la génération automatique de la f0, de l’intensité, et des durées des phonèmes. Une limite particulière des approches de l’état de l’art est le manque de contrôles fournis au compositeur pour modifier l’expression de la voix synthétisée. Afin de résoudre ce problème, une importante contribution de cette thèse a été le développement d’un nouveau modèle de f0 paramétrique intégrant des contrôles intuitifs. La modélisation de styles de chant spécifiques a également été abordée par l’apprentissage des variations expressives des paramètres de contrôle modélisés à partir d’enregistrements commerciaux de chanteurs célèbres, afin de les appliquer à la synthèse de nouvelles partitions. Enfin, des investigations sur diverses transformations expressives du timbre ont été conduites, en vue d’une future intégration dans notre synthétiseur. Cela concerne principalement des méthodes liées à la transformation de l’intensité, considérant les effets liés à la source glottique et au conduit vocal, et la modélisation de la raucité vocale. <h3>Jury</h3> Thierry Dutoit, rapporteur – <a href="https://portail.umons.ac.be/FR/infossur/intranet/numediart/Pages/default.aspx" target="_blank">Institut Numediart</a> / <a href="http://www.umons.ac.be" target="_blank">Université de Mons</a> Nathalie Henrich, rapporteur – <a href="http://www.gipsa-lab.fr/" target="_blank">Gipsa-lab</a> / <a href="https://www.univ-grenoble-alpes.fr/" target="_blank">Université de Grenoble</a> - <a href="http://www.cnrs.fr/" target="_blank">CNRS</a> Jordi Bonada, examinateur – MTG / <a href="https://www.upf.edu" target="_blank">Université Pompeu Fabra</a>, Barcelone Olivier Adam, examinateur – <a href="http://www.dalembert.upmc.fr/" target="_blank">Institut Jean Le Rond d’Alembert</a> - <a href="http://www.lam.jussieu.fr/" target="_blank">LAM</a> / <a href="http://www.upmc.fr/" target="_blank">UPMC</a>, Paris Christophe d’Alessandro, examinateur – <a href="http://www.dalembert.upmc.fr/" target="_blank">Institut Jean Le Rond d’Alembert</a> - <a href="http://www.lam.jussieu.fr/" target="_blank">LAM</a> / <a href="http://www.upmc.fr/" target="_blank">UPMC</a>, Paris - <a href="http://www.cnrs.fr/" target="_blank">CNRS</a> Axel Roebel, directeur de thèse – Ircam

Luc Ardaillon soutiendra sa thèse de doctorat réalisée au sein de l’équipe Analyse et Synthèse des Sons (STMS - CNRS/IRCAM/UPMC), intitulée :
« Synthèse et transformation expressive de la voix chantée »
La soutenance de thèse se fera, en anglais.

Résumé

Les systèmes de synthèse de voix chantée actuels sont déjà capables de synthétiser des voix avec une qualité raisonnable, permettant une utilisation dans le cadre de productions musicales. Mais beaucoup d’efforts sont encore nécessaires afin d’obtenir une qualité comparable à celle d’un réel chanteur professionnel. Le but de cette thèse était de conduire des recherches sur la synthèse et transformation expressive de voix chantée, en vue de pouvoir développer un synthétiseur de haute qualité capable de générer automatiquement un chant naturel et expressif à partir d’une partition et d’un texte donnés.

Du fait de la grande variabilité du signal vocal, tant du point de vue de son contrôle que de son timbre, cela implique de considérer des aspects variés. Trois directions de recherches principales peuvent être identifiées : les méthodes de modélisation du signal afin de générer automatiquement une voix intelligible et naturelle à partir d’un texte donné ; le contrôle de la synthèse, afin de produire une interprétation d’une partition donnée tout en transmettant une certaine expressivité liée à un style de chant spécifique ; la transformation du signal vocal afin de le rendre plus naturel et plus expressif, en faisant varier le timbre en adéquation avec la hauteur, l’intensité et la qualité vocale. Cette thèse apporte diverses contributions dans chacune de ces trois directions.

Tout d’abord, un système de synthèse complet a été développé, basé sur la concaténation de diphones, que nous supposons être jusqu’à aujourd’hui l’approche capable de produire les résultats de la plus haute qualité. L’architecture modulaire de ce système permet d’intégrer et de comparer différent modèles de signaux.
Ensuite, la question du contrôle est abordée, comprenant la génération automatique de la f0, de l’intensité, et des durées des phonèmes. Une limite particulière des approches de l’état de l’art est le manque de contrôles fournis au compositeur pour modifier l’expression de la voix synthétisée. Afin de résoudre ce problème, une importante contribution de cette thèse a été le développement d’un nouveau modèle de f0 paramétrique intégrant des contrôles intuitifs. La modélisation de styles de chant spécifiques a également été abordée par l’apprentissage des variations expressives des paramètres de contrôle modélisés à partir d’enregistrements commerciaux de chanteurs célèbres, afin de les appliquer à la synthèse de nouvelles partitions.
Enfin, des investigations sur diverses transformations expressives du timbre ont été conduites, en vue d’une future intégration dans notre synthétiseur. Cela concerne principalement des méthodes liées à la transformation de l’intensité, considérant les effets liés à la source glottique et au conduit vocal, et la modélisation de la raucité vocale.

Jury

Thierry Dutoit, rapporteur – Institut Numediart / Université de Mons
Nathalie Henrich, rapporteur – Gipsa-lab / Université de Grenoble - CNRS
Jordi Bonada, examinateur – MTG / Université Pompeu Fabra, Barcelone
Olivier Adam, examinateur – Institut Jean Le Rond d’Alembert - LAM / UPMC, Paris
Christophe d’Alessandro, examinateur – Institut Jean Le Rond d’Alembert - LAM / UPMC, Paris - CNRS
Axel Roebel, directeur de thèse – Ircam

Éditer