Résumé
Le théorème d’approximation universelle d’un réseau de neurone à une couche cachée garantit que l’erreur d’approximation d’une fonction f(x) continue va décroître vers 0, mais il ne spécifie pas la vitesse de décroissance de cette erreur. Cette vitesse de décroissance est liée à la régularité de f(x). On verra que si f(x) est seulement localement régulière alors l’erreur décroît très lentement et souffre de la malédiction de la dimensionnalité.
Le cours considère d’abord le cas de fonctions localement régulières, qui sont m fois différentiables au sens de Sobolev. On démontre des bornes supérieures sur l’erreur d’approximation en fonction du nombre M de neurones utilisés dans la couche cachée. On montre qu’une erreur e s’obtient avec M = O(e-d/m) neurones. Cette décroissance est très lente si m est petit devant d ce qui est toujours le cas en grande dimension.
On considère aussi le cas où la transformée de Fourier de f est parcimonieuse, ce qui s’impose avec un critère L1 proposé par Barron. Dans ce cas, on démontre que la décroissance de l’erreur est beaucoup plus rapide et qu’il suffit de M = O(e-1/2) neurones pour atteindre une erreur e. Cependant, cette propriété de parcimonie en Fourier est rarement satisfaite dans les applications.
En dehors d’exemples particuliers, aucun théorème général ne permet d’expliquer l’augmentation des performances d’approximations obtenues avec des réseaux de neurones ayant plus de couches cachées, pour les fonctions que l’on rencontre dans les applications. Ce problème reste donc ouvert.