Résumé
La plupart des méthodes d’apprentissage supervisé, dont font partie les réseaux de neurones, se formalisent comme un problème d’optimisation dans lequel la moyenne des erreurs sur les données observées est minimisée par rapport aux paramètres du modèle de prédiction. Cependant, l’apprentissage statistique donne lieu à des problèmes d’optimisation spécifiques, car on minimise une moyenne, ou plus généralement une espérance. Cette spécificité rend naturelle et efficace l’utilisation de méthodes dites « de gradient stochastique », où le modèle est mis à jour très fréquemment, après seulement quelques observations.
L’exposé présente quelques avancées récentes en optimisation par gradient stochastique, qui utilisent la « réduction de variance ». Pour les problèmes « convexes » (correspondant à un réseau de neurones sans couche cachée), ces avancées permettent d’atteindre en théorie et en pratique un taux de convergence exponentiel (dans le nombre d’itérations) vers l’optimum global. L’exposé présente aussi les méthodes dites « de gradient conditionnel », qui permettent un apprentissage incrémental où les neurones sont ajoutés aux modèles les uns après les autres.