Résumé
Parmi les récentes avancées en machine learning, l'une des plus impressionnantes est sans doute celle de l'IA générative, qui permet notamment de créer des échantillons toujours plus réalistes de sons, d'images et de vidéos à partir d'un ensemble fini d'exemples. Au cœur de cette révolution se trouvent les modèles de diffusion, qui exploitent le gradient de la log-probabilité dans le cadre d'équations différentielles stochastiques pour générer de nouveaux échantillons.
Dans cet exposé, nous présenterons brièvement les modèles de diffusion avant d'analyser la dynamique de génération dans un cas bien contrôlé en grandes dimensions : le mélange de deux gaussiennes. En utilisant des méthodes issues de la physique statistique, nous démontrerons analytiquement que la génération d'une nouvelle donnée par un modèle de score basé sur la loi empirique passe par différentes transitions. Tout d'abord, nous identifierons une transition de « spéciation », au cours de laquelle le destin de l'échantillon est scellé et sa classe ne peut plus être modifiée. Cette spéciation est ensuite suivie par une transition d'effondrement (ou de mémorisation) après laquelle la trajectoire est irrémédiablement attirée par l'un des points de données de l'ensemble d'entraînement afin de le reproduire exactement.
Les conclusions théoriques que nous établirons dans le cas d'un modèle de mélange gaussien seront ensuite généralisées à des distributions quelconques, puis validées sur des jeux de données réalistes.