Sélectionné en 2024 dans le cadre de l’appel Cluster IA avec un financement de 35M€, le projet PostGenAI@Paris, porté par Sorbonne Université et opéré par son Sorbonne Cluster for Artificial Intelligence (SCAI), vise à contribuer à la stratégie française en intelligence artificielle en constituant un pôle d’excellence international dédié à l’IA post-générative. Cette nouvelle ère de l’IA va au-delà de la génération de contenu pour comprendre et interagir de manière plus autonome et contextuellement adaptée à son environnement. PostGenAI@Paris se concentre sur trois domaines principaux : les technologies de rupture, la santé et les sociétés résilientes.
Le programme scientifique de PostGenAI@Paris repose sur deux grands piliers. Le premier est constitué de 21 programmes d’accélération collaboratifs (PACs), qui intègrent recherche, formation et innovation. Ces PACs sont essentiels pour développer la formation par la recherche et promouvoir des collaborations industrielles sur des sujets de pointe. Le second pilier est un programme conçu pour encourager l’interconnexion entre les membres du consortium et garantir l’agilité et l’évolution du cluster.
L’Ircam contribue à PostGenAI@Paris à la fois comme chef de file du PAC AI-MADE (équipe Analyse et synthèse des sons) et participant au PAC TWINNING (équipe Perception et design sonores).
AI-MADE
AI for Music And voice meDia gEneration
AI-MADE vise à développer des modèles génératifs innovants pour la création de contenus audio professionnels, couvrant des applications pour la production musicale, les performances live (en temps réel), le cinéma et les jeux vidéo. Le problème scientifique central à explorer est le contrôle intuitif et précis des propriétés sonores, notamment en ce qui concerne la traduction d’une idée ou d’un concept en son. Les questions liées à la contextualisation, au style, à l’expressivité, ainsi qu’à l’hybridation des sons, sont particulièrement intéressantes.
Pour y parvenir, de nouvelles stratégies de désentrelacement seront mises au point, permettant de représenter le son dans des espaces latents qui exposent directement des paramètres de haut niveau pertinents sur le plan perceptif. Cela évite ainsi la tâche fastidieuse de régler de manière cohérente un grand nombre de paramètres de bas niveau pour obtenir le son souhaité.
Le projet recherchera également des biais inductifs adaptés pour garantir une efficacité à la fois computationnelle et en termes de données. Une préférence sera accordée aux modèles de type « boîte grise », qui soutiennent des procédures d’analyse/synthèse, afin que les modèles génératifs puissent servir à l’analyse du son et du style.
Enfin, des prototypes seront développés pour évaluer ces approches dans le contexte de la production audio, des performances musicales, ainsi que pour l’analyse dans le domaine émergent des humanités computationnelles (musicologie, phonétique).
TWINNING
TrustWorthy Interactive augmeNted autoNomous drivING
TWINNING (TrustWorthy Interactive augmeNted autoNomous drivING) adresse la question générale du véhicule autonome, une thématique émergente et grandissante au sein des industries du transport, et dans laquelle les technologies de l’IA occupent une place centrale. Il vise globalement, d’une part, à étudier la conduite partagée entre le conducteur et un système autonome, dans un environnement routier dynamique et incertain, en présence d’interactions avec d’autres occupants de la route, et d’autre part, à augmenter les capacités de conduite collaborative du conducteur, par des interactions humain-IA performantes et fiables favorisant la perception, le contrôle et la prise de décision.
Plus précisément, le projet TWINNING se concentre sur la co-conduite entre un conducteur et un véhicule dont la capacité de navigation autonome, basée sur l'apprentissage automatique, est contrôlée par un contrôleur d'intégrité. En effet, la navigation autonome sur route ouverte reste un défi, en raison de la nature incontrôlée et incertaine de l'environnement, des multiples interactions de conduite avec les autres usagers de la route et des limites de la compréhension de la situation, qui entravent les capacités de prise de décision autonome des véhicules. L’objectif du projet est donc d'améliorer les compétences du conducteur en matière de conduite collaborative en fournissant des interactions performantes favorisant la perception de la situation, la prise de décision et le contrôle du système. Ces interactions s’appuieront sur les sorties de modèles d'IA qui sont contrôlées pour être fiables et dignes de confiance.
Ainsi, la structure de TWINNING comporte trois axes de recherche principaux :
1. Compréhension de scène et perception intègre, en présence d’incertitudes. Cette action nécessite la gestion et la propagation des incertitudes dans les fonctionnalités de perception ; elle se concentre également sur la surveillance de l'environnement afin de garantir la conformité avec les domaines de conception opérationnelle prédéfinis.
2. Prise de décision et planification de trajectoire dans un environnement dynamique et incertain. L'objectif de cet axe est de développer des méthodes basées sur l'IA permettant une planification réactive afin d'évoluer en conformité avec les règles de conduite, le code de la route, etc. ; ces méthodes proposeront des capacités de prédiction et d'anticipation dans un contexte hautement dynamique afin de gérer les interactions avec les autres usagers de la route.
3. Contrôle partagé humain / véhicule incluant des mécanismes pour renforcer la confiance du conducteur, et développement d’interfaces humain-machine augmentées et adaptatives. Le conducteur est un opérateur qui interagit avec le véhicule au moyen d'interfaces adaptées aux capacités du véhicule intelligent. La recherche sur les interfaces haptiques, sonores et la réalité augmentée permettra de proposer et d'étudier de nouvelles interfaces pour les interactions conducteur/véhicule.