Amphithéâtre Marguerite de Navarre, Site Marcelin Berthelot
En libre accès, dans la limite des places disponibles
-

Résumé

Dans cet exposé, je passerai en revue la manière dont les concepts du transport optimal peuvent être appliqués pour analyser différentes méthodes d’apprentissage automatique, notamment pour l'échantillonnage et l’entraînement des réseaux de neurones. L’accent sera mis sur l’utilisation du transport optimal pour étudier les flots dynamiques dans l’espace des distributions de probabilité. Le premier exemple portera sur l’échantillonnage par « flow matching », qui repose sur la régression des champs d’advection. Dans son cas le plus simple (les modèles de diffusion), cette approche présente une structure de gradient similaire à un transport optimal. Je discuterai ensuite des flots de gradient de Wasserstein, où le flot minimise une fonctionnelle dans la géométrie du transport optimal. Ce cadre permet de modéliser et de comprendre la dynamique d’entraînement de la distribution de probabilité des neurones dans les réseaux à deux couches. Enfin, le dernier exemple explorera la modélisation de l’évolution de la distribution de probabilité des tokens dans les réseaux transformers profonds. Cette approche nécessite une modification de la structure du transport optimal pour intégrer la normalisation softmax propre aux mécanismes d’attention.

Intervenant(s)

Gabriel Peyré

Directeur de recherche CNRS, École normale supérieure

Événements