La modélisation de données de grandes dimensions est essentiellement probabiliste. L’apprentissage de modèles, l’inférence et la génération de nouvelles données nécessitent d’échantillonner ces distributions de probabilités. Des résultats impressionnants sont obtenus avec des réseaux de neurones, pour la génération d’images, de sons, de textes ou de champs physiques. On suivra un chemin qui va des bases mathématiques jusqu'aux frontières algorithmiques de la génération aléatoire par score diffusion.
Le cours introduit le cadre mathématique de l’apprentissage et de l’inférence statistique par méthode de Monte-Carlo, ainsi que les algorithmes de générations aléatoires. On considère les modèles de champs de Markov qui explicitent l’indépendance conditionnelle de variables et sont caractérisés par des énergies de Gibbs. Le cours présente les algorithmes d’échantillonnage par rejection, et ceux basés sur des chaînes de Markov, notamment l’algorithme de Metropolis-Hastings. Il se termine par une présentation des algorithmes de génération par score diffusion, qui permettent d’échantillonner des distributions de probabilités complexes, en estimant le score avec des réseaux de neurones.