Nicolas Obin

Je suis maître de conférences à la Faculté des sciences et d'ingénierie de Sorbonne Université et chercheur dans l'équipe analyse et synthèse des sons du laboratoire Sciences et Technologies de la Musique et du Son (Ircam, CNRS, Sorbonne Université). Je suis titulaire d'une thèse de doctorat en informatique et télécommunications sur la modélisation de la prosodie de la parole et du style de parole pour la synthèse texte-parole (2011), pour laquelle j'ai a obtenu le prix de la meilleure thèse de doctorat de La Fondation Des Treilles en 2011. Passionné par le son, les ondes, les vibrations et par la théorie de l'information et de la communication., j'ai développé au fil des années, un vif intérêt sur l'étude et la modélisation du comportement et de la communication entre les humains, les animaux et les robots. Mes activités de recherche couvrent le traitement du signal audio, l'intelligence artificielle, et la modélisation statistique des signaux sonores avec une spécialisation sur le traitement de la parole et de la communication humaine. Mon principal domaine de recherche est la modélisation générative structurée de productions humaines complexes telles que la parole, le chant et la musique avec diverses applications dans la synthèse et la transformation de la parole, l'animation d'agents virtuels multimodales et la robotique humanoïde, et les deep fakes. Je suis auteur de 50+ publications dans des conférences ou des revues internationales et je participe de nombreux projets de recherche collaborative académique et industrielle. Je suis membre du GdR TAL et de l'initiative française du Voice Lab pour la promotion de la langue française et la souveraineté numérique dans les technologies vocales.

Je suis responsable à Sorbonne Université du Master Ingénierie des Systèmes Intelligents (ISI) au sein duquel j'enseigne le traitement numérique du signal audio, le deep learning, et la biométrie suis co-responsable de la formation professionnelle Deep Learning par la Pratique délivrée par Sorbonne Université, Je donne régulièrement des conférences et entretiens pour de prestigieuses écoles, institutions et médias audiovisuels français (Collège de France, Ecole Normale Supérieure, Science Po, CNIL, Les Napoléons, Le Monde, Télérama, TF1, France Culture, France 5, Arte).  Je suis le fondateur de DeepVoice, Paris (depuis 2020) l'événement parisien annuel sur les technologies vocales et l'intellingence artificielle, de SophIA (2021) : l'association étudiante de Sorbonne Université pour l'Intelligence Artificielle en collaboration avec le Centre d'Intelligence Artificielle de la Sorbonne (SCAI), et des Fast-Forward  (2022) les rencontres informelles et expérimentales des sciences et technologies et du sound design au cinéma.


Dans le cadre de mon engagement artistique à l'Ircam, je suis très impliqué dans la promotion des sciences et technologies numériques pour les arts, la culture et le patrimoine, et j'ai collaboré avec des musiciens et artistes de renom, tels que : Eric Rohmer, Philippe Parreno, Roman Polansky, Leos Carax, George Aperghis, ou Alexander Schubert.

Mon CV en ligne est disponible ici en pdf.

CV nicolas obin

Courriel : Nicolas.Obin (at) ircam.fr


Artistic Production

[ 2022 ] Anima, par l'artiste Alexander Schubert, Festival Manifeste, Centre-Pompidou.

[ 2021 ] Annette, film du réalisateur Léos Carax, avec le sound designer Erwan Kerzanet

[ 2019 ]Lullaby experience, par le compositeur Pascal Dusapin, Frankfurter Positionen festival (Frankfurt) et Théâtre 104 (Paris).


[ 2018 ]Les guerriers de l'ombre, documentaire réalisé par Frédéric Schoendoerffer, Canal+. Anonymisation réaliste de voix d'agents secrets.

[ 2014-2015 ]Pourquoi j'ai pas mangé mon père, film de Jamel Debbouze. Recréation de la voix de Louis de Funès par la technologie de conversion d'identité de la voix

[ 2014-2015 ]Juger Pétain,  films documentaires de Richard Saada, Planète, France 5. Recréation de la voix du maréchal Pétain et de protagonistes de son procès par la technologie de conversion d'identité de la voix

[ 2013 ]Aliados, opéra composé par Sebastian Rivas, Ircam Manifeste festival.

[ 2012-2013 ]Marilyn,  film de Philippe Parreno, Fondation Beyeler (2012) et Palais de Tokyo (2013) avec le sound designer Nicolas Becker. Recréation de la voix de Marilyn Monroe par la technologie de conversion d'identité de la voix

[ 2011 ]Luna Park, théâtre musical composé par Georges Aperghis, festival Agora (Paris).

[ 2010 ]Escort Girl, première partie du cycle de documentaires "L'Europe judiciaire" réalisé par Olivier Ballande, Maha Productions, France Télévision. Anonymisation réaliste de voix de protagonistes impliqués dans des enquêtes judiciaires.

[ 2009 ]Hypermusic Prologue, opéra du compositeur Hector Parra, festival Agora (Paris).


Communication

Une sélection non-exhaustive de mes récentes interventions publiques

Conférences

La manipulation dans le discours politique, Gouverner, Les Napoléons, Val d'Isère, 14 janvier 2022

Deep fakes audio : entre manipulation et créativité, Voice Tech, Paris, 23-24 Novembre 2020

Trucages, deepfake, clonage vocal : en 2020, ne croyez plus vos yeux et vos oreilles. Futurapolis, Toulouse, 16 novembre 2019. Avec Vincent Nozick, maître de conférences à l’Université Paris-Est Marne la Vallée, et Guerric Poncet, journaliste au Point

Voix artificielle et sound design : concepts, pratiques, enjeux (avec N. Misdariis, de l'équipe Perception et Design Sonore, Ircam), HyperVoix : enjeux de conception des interfaces conversationnelles, Journée d'étude organisée par la Fing, Le Square, Paris, 15 avril 2019.

AI and creativity: can AI be creative?, Changing IP in Changing Europe, Trilateral Seminar of the French, German and Polish Groups of AIPPI, Paris, France, 05 avril 2019.

La voix à l’ère du numérique et de l'IA, CNIL, Paris, France, 15 février 2019

La voix et l'IA, Parcours Innovateur ignorant, Sciences Po, Paris, France, 19 octobre 2018.

Marilyn: histoire de la recréation de la voix d'une icône, Ecole Normale Supérieure, Paris-Saclay, France, 9 octobre 2018

Les voix du numérique pour le design sonore et la création artistique, Festival Vino Voce, Saint-Emilion, France, 8-10 septembre 2017.

Vox ex-machina. La voix et ses doubles numériques, Collège de France, Paris, France, 6 juin 2017.

Revues grand public, journaux

 

A l'Ircam, la voix transformée. Dossier L'industrie trouve sa voix. L'Usine Nouvelle.Juillet 2019.

Les prouesses des assistants vocaux. Dossier Intelligence Artificielle. Ca m'intéresse, février 2019.

Comment fabrique-t-on une voix de synthèse ? La Croix, 22 Janvier 2019.

La voix sacrée, dossier voix et IA, Télérama, 16 Janvier 2019.

Les chanteurs disparus ressuscités par la high-tech, L'express, 21 Décembre 2018.

Des voix de synthèse presque humaines, Pour la Science, Décembre 2016, numéro 470, p. 54-62.

Emissions

Peut-on se laisser séduire par une voix artificielle comme dans HER?, podcast 7ème Science, avec Binge Audio, 13 juillet 2022

Deep fake : le vrai du faux d'une technologie révolutionnaire, le meilleur des mondes, France Culture, 13 mai 2022

A l'Ircam, la salle la plus silencieuse au monde dévoile ses secrets, journal télévisé, 20h,  TF1, 9 septembre 2016.

Donner de la Voix, FutureMag, Arte, 5 décembre 2015.

Petite Histoire de la Synthèse Vocale, France Culture, 12 Août 2014.

On a Volé la Voix d'André Dussolier, Le Monde, 7 Juillet 2014.


Soutenance d'habilitation à diriger des recherches

Nicolas Obin soutient son Habilitation à Diriger des Recherches (HDR) le 12 septembre 2023 à 14h - "De la représentation du signal à l’apprentissage de représentations : modélisation structurée de signaux de parole »

Composition du jury

• M. Thomas HUEBER, Directeur de recherche CNRS, GIPSA lab, Rapporteur
• M. Emmanuel VINCENT, Directeur de recherche INRIA, MultiSpeech, Rapporteur
• M. Bjorn SCHULLER, Professeur, Imperial College London, Rapporteur
• M. Gérard BIAU, Professeur, Sorbonne Université, Examinateur
• M. Jean-François BONASTRE, Directeur de Recherche INRIA, Défense et Sécurité, Examinateur
• Mme Catherine PELACHAUD, Directrice de recherche CNRS, ISIR, Examinatrice
• M. Axel ROEBEL, Directeur de recherche, IRCAM, Examinateur
• Mme Isabel TRANCOSO, Professeure, INESC - Université de Lisbonne, Examinatrice
• Mr Nicolas BECKER, Designer sonore et artiste, Membre Invité

Résumé
Cette habilitation présente mes dix dernières années de recherche sur la modélisation structurée de signaux de parole. La parole, en tant que langage oral, constitue le système de communication le plus élaboré observé à ce jour, caractérisée par une multidimensionnalité à la fois temporelle, paramétrique, et factorielle. Son étude mobilise de nombreux domaines scientifiques tels que le traitement du signal et de l'information, l’apprentissage machine, la linguistique, la psychologie, la sociologie ou l’anthropologie. Outre ses fonctions linguistiques, la parole révèle un grand nombre d'informations sur un individu, de nature biométrique (identité), physiologique (genre/âge, poids/taille, santé, etc...), psychologique (état émotionnel, attitude sociale, personnalité, etc...), stylistique (adaptation à l'audience et au canal de communication), et culturelle (origines géographiques, statut socioprofessionnel). Le problème principal de la modélisation de signaux de parole est que les facteurs de variabilité ne sont pas accessibles directement à l'observation mais sont intriqués de manière complexe et ambiguë dans le signal de parole. L'enjeu du traitement automatique de la parole consiste donc à pouvoir identifier et démêler les facteurs de variabilité dans les signaux de parole, en particulier par l'observation statistique de régularités sur des bases de données.

Ma recherche s'est concentrée sur le problème de l'identification et de la modélisation des facteurs de variabilité liés à la stylistique et à l'expressivité de la communication parlée. J'ai en particulier exploré l'utilisation de l'apprentissage machine pour analyser, modéliser et générer des signaux de parole. L’enjeu principal de ma recherche est de résoudre, par apprentissage à partir d'un nombre limité de données, les ambiguïtés dans le signal de parole, en apprenant de manière structurée les représentations encodant de manière différenciée les informations associés aux facteurs de variabilité considérés (comme l'identité, le style, ou l'expressivité). Cette recherche s'articule autour de trois axes principaux : 1) la cognition, et les représentations mentales de la voix humaine et de leur similarité ; 2) la perception, et la capacité de l'être humain à séparer et localiser des sources sonores ; et enfin 3) la génération, ou comment créer ou manipuler l'identité ou l'expressivité de voix humaines réelles ou artificielles. J’exposerai la transition d'un paradigme signal à un paradigme apprentissage : ce phénomène s’est manifesté dans le domaine de la synthèse de la parole par une évolution en trois temps, depuis la synthèse par sélection d'unités, à la modélisation statistique multi-paramétrique, et à la génération neuronale à partir de représentations compressées et incomplètes. Ce changement de paradigme s'explique par les limitations des modèles de signaux traditionnels pour l'analyse et la synthèse de la parole — en particulier expressive ; et par la limitation historique liée à la dualité du modèle de signal et du modèle d'apprentissage en séparant les modèles de représentation des modèles d’apprentissage. L'apparition des réseaux de neurones profond a permis de dépasser cette dualité en apprenant les représentations au cours de l’apprentissage.

La question des données est primordiale et conditionne l'ensemble des problèmes de l'apprentissage. A une extrémité du spectre, l'abondance des données contrebalance le manque de spécification de connaissances humaines dans les modèles d'apprentissage ; à l'autre extrémité du spectre, certains modèles — par exemple, physique — sont entièrement spécifiés par la connaissance humaine et n'ont pas besoin de données pour l'apprentissage. Entre ces deux pôles, il existe un intermédiaire entre la spécification de connaissances humaines et l'apprentissage machine à partir de données. Les conclusions principales de ma recherche soutiennent l’idée d’une nécessaire coopération entre les deux pôles de la connaissance humaine et de l’apprentissage machine, notamment par la formulation de modèles d’apprentissage structurés à partir de connaissances humaines. En l’occurrence, si la génération de la parole a désormais résolu en grande partie les problèmes de l’intelligibilité et de la naturalité, la parole résiste encore à la connaissance humaine et aux machines et de nouveaux défis s’ouvrent pour la recherche. Les problèmes des fonctions expressives et esthétique de la parole — et par prolongement naturel de l’interprétation —, de la multimodalité parole-geste des comportements humains, de la modélisation de la communication verbale et non verbale, située et en contexte, et plus largement des modèles d’apprentissages économes en ressources matérielle comme algorithmique, et respectueux des données personnelles sont autant de nouvelles voies à explorer.

Cette habilitation sera accompagnée de nombreuses illustrations sonores issues de ma recherche et de ses applications créatives et artistiques.


L'IA au service du sonore ? UNESCO (2024)

Soirée "L'IA au service du sonore?" 18 janvier 2024 Organisée dans le cadre de la 21ème édition de la semaine du son

Nicolas Obin, conférence de presse, UNESCO

Deep Voice, Paris

Deep Voice, Paris est l’événement parisien dédié à la voix et à l’intelligence artificielle dont l’objectif est de réunir expertises scientifique et technique, innovation et entrepreneuriat. Des ateliers techniques - “hands-on” - seront proposés aux participants pour développer leurs compétences dans les domaines du traitement de la parole et du langage naturel. Des moments de rencontres et de réseautage en fin de journée faciliteront les rencontres et l’échange entre les participants en toute décontraction. Deep Voice est un événement co-organisé par l’Ircam, Sorbonne Université, et SCAI dans le cadre du festival ManiFeste 2022.


L'Hôtel du Temps (2022)

Recréation de la voix de Dalida avec de l'intelligence artificielle pour la nouvelle émission de Thierry Ardisson "L'Hôtel du Temps"

Deepfake : le vrai du faux d'une technologie révolutionnaire

Le Meilleur des Mondes, France Culture, 13 Mai 2022 Animé par François Saltiel


Assistants, robots affectifs et réalité virtuelle | Deep Voice, Paris 2021

Comment la simulation des émotions va-t-elle modifier notre rapport affectif aux machines et notre immersion dans un monde social artificiel ? Une table-ronde organisée par le Sorbonne Center for Artificial Intelligence (SCAI) et l'Ircam, animée par Nicolas Obin, chercheur à l'Ircam.


Vox ex-machina

Présentation au Collège de France, 6 juin 2017


On a volé la voix d'André Dussolier

Le Monde, 7 juillet 2014