Résumé
Ce cours aborde le triangle régularité, approximation et parcimonie dans un cadre non linéaire. L’approximation non linéaire optimale de x dans une base orthonormée revient à sélectionner les coefficients de x dans la base, de plus grandes amplitudes. On démontre que la vitesse de décroissance de l’erreur d’approximation dépend de la vitesse de décroissance des coefficients ordonnés, ce qui peut être spécifié avec des normes lp.
Le cours applique ces résultats d’approximation non linéaire aux réseaux de neurones à une couche cachée. Il démontre que l’apprentissage d’un tel réseau revient à calculer une approximation non linéaire, qui dépend de la non-linéarité ponctuelle utilisée dans le réseau. Dans le cas où cette non-linéarité est une sinusoïde, l’apprentissage calcule une approximation non linéaire dans une base de Fourier. De telles approximations sont optimales dans des espaces de Barron que l’on caractérise en fonction de la vitesse de décroissance de l’erreur d’approximation. Cependant, l’utilisation de ces espaces donne des bornes pessimistes, car ils ne tiennent pas en compte le fait que les données x se concentrent dans des ensembles typiques qui sont beaucoup plus petits que l’espace global. En grande dimension, pour capturer cette concentration il faut définir des modèles probabilistes et approximer les distributions de probabilités sous-jacentes. Ceci sera le sujet du cours de l’année prochaine.