REVOLT

Éditer

Contenu :
Aussi puissant soit-il, le cerveau humain s'écarte souvent de la rationalité lorsqu'il raisonne sur les autres. Ce phénomène, connu sous le nom de biais social, se produit lorsque nous favorisons/défavorisons involontairement ou délibérément certains individus en raison de leur appartenance à un groupe social spécifique, un modèle de comportement qui peut souvent se produire de manière inconsciente tout en influençant les groupes sociaux . Étant donné que l'effet des préjugés sociaux est lié aux multiples facteurs contextuels qui influencent les interactions sociales, il est extrêmement difficile de les étudier de manière expérimentale. Par exemple, il est difficile de contrôler que la seule perception d'un participant expérimental comme faisant partie d'un groupe social spécifique suffit à influencer les comportements des autres, indépendamment de toutes les autres caractéristiques de ce participant. Pour ce faire, il faudrait pouvoir manipuler de manière non perceptible la façon dont un participant donné est perçu par les autres (par exemple, homme ou femme, jeune ou âgé), à leur insu - ce qui, jusqu'à récemment, <a href="https://www.youtube.com/watch?v=CgX4uJSj00Y" target="_blank">relevait de la science-fiction</a>. Cela nécessite la réalisation d'algorithmes de manipulation vocale hautement réalistes, capables de transformer les attributs de la voix en temps réel. Le projet REVOLT vise à dépasser cette barrière méthodologique. Pour ce faire, nous nous appuierons sur les réalisations récentes et spectaculaires dans le domaine de la synthèse vocale et des transformations de la voix, pour mettre en &oelig;uvre des architectures neuronales capables de transformer efficacement les attributs vocaux avec une latence suffisamment faible pour assurer une interaction fluide, tout en préservant les standars de qualité élevés des algorithmes de synthèse et de transformation existants. Cette avancée permettra de concevoir des expériences de sciences cognitives dans lesquelles nous transformerons les attributs vocaux des participants (par exemple le genre) au cours d'interactions entre humains, afin de déduire les liens de causalité entre la perception de ces indices et les modèles de comportement qui en découlent. Du point de vue du traitement des signaux, le développement de telles transformations vocales en temps-réel fera progresser de manière significative l'état de l'art en matière de conversion neuronale de la voix, ouvrant la voie à des simulations audio-visuelles réalistes. Du point de vue des sciences cognitives, l'utilisation de ces algorithmes dans le contexte de l'étude expérimentale des interactions homme-homme constituera un changement de paradigme dans la manière d'étudier la dynamique qui régit la cognition sociale humaine.

Aussi puissant soit-il, le cerveau humain s'écarte souvent de la rationalité lorsqu'il raisonne sur les autres. Ce phénomène, connu sous le nom de biais social, se produit lorsque nous favorisons/défavorisons involontairement ou délibérément certains individus en raison de leur appartenance à un groupe social spécifique, un modèle de comportement qui peut souvent se produire de manière inconsciente tout en influençant les groupes sociaux .

Étant donné que l'effet des préjugés sociaux est lié aux multiples facteurs contextuels qui influencent les interactions sociales, il est extrêmement difficile de les étudier de manière expérimentale. Par exemple, il est difficile de contrôler que la seule perception d'un participant expérimental comme faisant partie d'un groupe social spécifique suffit à influencer les comportements des autres, indépendamment de toutes les autres caractéristiques de ce participant. Pour ce faire, il faudrait pouvoir manipuler de manière non perceptible la façon dont un participant donné est perçu par les autres (par exemple, homme ou femme, jeune ou âgé), à leur insu - ce qui, jusqu'à récemment, relevait de la science-fiction. Cela nécessite la réalisation d'algorithmes de manipulation vocale hautement réalistes, capables de transformer les attributs de la voix en temps réel.

Le projet REVOLT vise à dépasser cette barrière méthodologique. Pour ce faire, nous nous appuierons sur les réalisations récentes et spectaculaires dans le domaine de la synthèse vocale et des transformations de la voix, pour mettre en œuvre des architectures neuronales capables de transformer efficacement les attributs vocaux avec une latence suffisamment faible pour assurer une interaction fluide, tout en préservant les standars de qualité élevés des algorithmes de synthèse et de transformation existants. Cette avancée permettra de concevoir des expériences de sciences cognitives dans lesquelles nous transformerons les attributs vocaux des participants (par exemple le genre) au cours d'interactions entre humains, afin de déduire les liens de causalité entre la perception de ces indices et les modèles de comportement qui en découlent. Du point de vue du traitement des signaux, le développement de telles transformations vocales en temps-réel fera progresser de manière significative l'état de l'art en matière de conversion neuronale de la voix, ouvrant la voie à des simulations audio-visuelles réalistes.

Du point de vue des sciences cognitives, l'utilisation de ces algorithmes dans le contexte de l'étude expérimentale des interactions homme-homme constituera un changement de paradigme dans la manière d'étudier la dynamique qui régit la cognition sociale humaine.

Éditer

Détails du projet

Programme

Émergences de Sorbonne Université

Début

1 janvier 2021

Fin

31 décembre 2023

Statut

Participants

Partenaires

équipes (Ircam)

Ircam - Analyse et synthèse des sons
Ircam - Perception et design sonores