Traitement par Vocodeur de phase

Éditer

Contenu :
La recherche sur les vocodeurs pour la transformation de la musique et de la parole est un des sujets clés de l’équipe. Au début (depuis 1995) les recherches étaient concentrées sur le vocodeur de phase, l’une des techniques les plus performantes pour l’analyse et la transformation des sons. Ces recherches sont à la base du logiciel SuperVP, qui permet par exemple de transposer, d’étirer ou de raccourcir des sons, de les filtrer pratiquement sans limitation, etc. Pour la parole également, la qualité sonore des signaux transformés atteint un excellent niveau. De très nombreuses améliorations et extensions y ont été apportées. Citons par exemple : <ul> <li>L’estimation d’enveloppe spectrale par «true envelope» ;</li> <li>La transposition avec préservation d’enveloppe spectrale ;</li> <li>La transposition de la voix avec modèle «shape invariant» ;</li> <li>La synthèse croisée généralisée qui permet de synthétiser des sons hybrides ;</li> <li>La détection et le traitement séparé des zones temps-fréquence sinusoïdales, non-sinusoïdales et transitoires.</li> </ul> Ces différents modules d’analyse, de synthèse et de traitement sont utilisés dans plusieurs logiciels commerciaux. À partir de 2009 un nouveau type de vocodeur, fondé sur la gestion des impulsions glottique a été envisagé. Issu de ses recherches, le vocodeur PaN « Pulse and Noise » a été intégré dans le logiciel de synthèse de chant ISiS (disponible via le Forum de l’Ircam). Depuis 2017, le succès des techniques d’apprentissage profond dans le domaine de la synthèse de la parole a motivé une nouvelle direction de recherche sur la transformation de la parole avec des vocodeurs neuronaux, qui actuellement est en cours d’étude notamment dans le projet ARS. Équipe Ircam : <a href="/recherche/equipes-recherche/anasyn/">Analyse et synthèse des sons</a>

La recherche sur les vocodeurs pour la transformation de la musique et de la parole est un des sujets clés de l’équipe. Au début (depuis 1995) les recherches étaient concentrées sur le vocodeur de phase, l’une des techniques les plus performantes pour l’analyse et la transformation des sons. Ces recherches sont à la base du logiciel SuperVP, qui permet par exemple de transposer, d’étirer ou de raccourcir des sons, de les filtrer pratiquement sans limitation, etc. Pour la parole également, la qualité sonore des signaux transformés atteint un excellent niveau. De très nombreuses améliorations et extensions y ont été apportées. Citons par exemple :

L’estimation d’enveloppe spectrale par «true envelope» ;
La transposition avec préservation d’enveloppe spectrale ;
La transposition de la voix avec modèle «shape invariant» ;
La synthèse croisée généralisée qui permet de synthétiser des sons hybrides ;
La détection et le traitement séparé des zones temps-fréquence sinusoïdales, non-sinusoïdales et transitoires.

Ces différents modules d’analyse, de synthèse et de traitement sont utilisés dans plusieurs logiciels commerciaux. À partir de 2009 un nouveau type de vocodeur, fondé sur la gestion des impulsions glottique a été envisagé. Issu de ses recherches, le vocodeur PaN « Pulse and Noise » a été intégré dans le logiciel de synthèse de chant ISiS (disponible via le Forum de l’Ircam).
Depuis 2017, le succès des techniques d’apprentissage profond dans le domaine de la synthèse de la parole a motivé une nouvelle direction de recherche sur la transformation de la parole avec des vocodeursneuronaux, qui actuellement est en cours d’étude notamment dans le projet ARS.

Équipe Ircam : Analyse et synthèse des sons

Éditer