MoVE
Dans un contexte où les assistants personnels et les interactions avec les machines deviennent une réalité quotidienne pour l’être humain, la voix s’est imposée comme une modalité privilégiée de l’interaction avec la machine. En particulier, la synthèse vocale a réalisé d’énormes progrès ces dernières années, notamment par l’utilisation de l’apprentissage profond et de grandes bases de données multi-locuteurs. Les limitations principales sont d’une part une faible expressivité : le comportement de l’agent est encore souvent monomodale (voix, comme les assistants Alexa ou Google Home) et demeure très monotone, ce qui limite grandement l’acceptabilité, la durée et la qualité de l’interaction; et d’autre part le comportement de l’agent est peu ou pas adapté à l’interlocuteur ou à la situation d’interaction, ce qui diminue sa compréhension de l’information et son temps de réaction à l’information transmise.
Le projet MoVE développera des algorithmes d’apprentissage neuronaux permettant d’adapter le style de parole d’une voix de synthèse pour l’adapter à une situation d’interaction spécifique, avec par exemple un focus sur des attitudes de la voix de synthèse (cordiale, souriante, autoritaire, etc.). La meilleure adaptation du style de la voix permettra d’améliorer la compréhension de l’information communiquée par l’agent et de réduire le temps de réaction de l’humain aux informations communiquées (par exemple en situation d’urgence).
Équipe Ircam : Analyse et synthèse des sons