Résumé
La minimisation d’une fonction convexe peut se faire avec un algorithme de descente de gradient qui additionne itérativement un vecteur colinéaire au gradient de la fonction. Si la fonction que l’on minimise est Lipschitz et strictement convexe, alors on montre que la descente de gradient converge vers l’unique minimum. On étudie la convergence de cet algorithme lorsque la fonction convexe est quadratique. Dans ce cas, la vitesse de convergence dépend du rapport entre la plus petite et la plus grande valeur propre du hessien.
Lorsque la fonction que l’on minimise est un risque qui s’évalue comme une moyenne de risques calculés sur chaque donnée d’entraînement, alors on peut remplacer cet algorithme de gradient par un algorithme de gradient stochastique, où l’on additionne l’un après l’autre le gradient du risque pour chaque donnée d’entraînement. Cet algorithme s’utilise notamment pour l’apprentissage des réseaux de neurones.
Le cours se finit par une présentation rapide des réseaux de neurones, en introduction du cours de l’année prochaine, et mentionne le théorème d’approximation universel qui démontre que toute fonction peut être approximée par un réseau ayant une couche cachée suffisamment grande. Les réseaux de neurones convolutionnels profonds incluent un grand nombre de couches avec des neurones dont les poids sont invariants par translations. L’analyse de ces réseaux sera au centre du cours de l’année prochaine.