Amphithéâtre Marguerite de Navarre, Site Marcelin Berthelot
En libre accès, dans la limite des places disponibles
-

Résumé

La convergence de la descente de gradient par batch et de gradient stochastique est démontrée dans le cas où la fonction de coût est Lipchitz et fortement convexe relativement à ses paramètres.

Pour une descente de gradient, on montre une décroissance exponentielle en t  de la distance euclidienne entre le vecteur de paramètres calculé à une itération t et le vecteur optimal qui minimise la fonction de coût. L’exposant de cette décroissance dépend de la borne de Lipchitz et de la constante de convexité forte.

L’algorithme du gradient stochastique peut être interprété comme une version bruitée de l’algorithme de descente de gradient. Ce bruit dépend de la variance de la fonction de coût pour des exemples pris aléatoirement. On démontre un premier théorème qui calcule une borne supérieure de la distance euclidienne entre le vecteur de paramètres obtenu à l’itération t et le vecteur optimal qui minimise la fonction de coût. Un choix optimal du pas de gradient permet d’obtenir une borne supérieure qui décroît comme 1/t. Ces théorèmes s’étendent au cas de fonctions de coût non-différentiables et convexes, en remplaçant le gradient par la notion de sous-gradient, et on obtient alors le même type de résultat.

Les algorithmes de descente de gradient ont une précision limitée par la variabilité aléatoire de la fonction de coût. Pour converger vers la solution optimale, il faut utiliser des algorithmes hybrides qui se comportent comme une descente de gradient stochastique tant qu’on est loin de la solution optimale, puis qui incorpore les exemples vus dans le passé pour se comporter comme une descente de gradient par batch lorsque le nombre d’itérations devient grand. Cela permet de converger vers la solution optimale.

Les propriétés de convergence des paramètres de réseaux de neurones profonds restent mal comprises car les fonctions de coût ne sont pas convexes. L’optimisation de ces réseaux garde donc une forte composante expérimentale. Pour que l’optimisation donne de bons résultats, il faut qu’il y ait une faible densité de minima locaux qui ont un coût bien plus important que les minima globaux. Cela dépend de l’architecture du réseau. De nombreuses recherches sont dédiées à la compréhension de ce problème et à l’étude de la géométrie du paysage d’optimisation linéaire de réseaux de neurones, basé sur la transformée en ondelettes. En 2018-2019, une partie importante de la recherche était dédiée à la construction de modèles stochastiques pour la synthèse d’images, de musiques, de finance, mais aussi pour modéliser des phénomènes de turbulence en physique et des propriétés de réseaux de télécommunication.