Résumé
Ce cours revient sur les idées à l’origine des réseaux de neurones, d’abord la théorie de la cybernétique initiée par Wiener, l’importance des structures hiérarchiques, et le perceptron de Rosenblatt. La cybernétique donne une perspective de systèmes dynamiques. L’intelligence est définie comme une capacité d’adaptation dans le temps. Cette adaptation optimise une trajectoire pour atteindre un but. En cybernétique, l’adaptation se fait par une boucle de rétroaction qui adapte les paramètres de contrôle afin de réduire une mesure d’erreur relativement au but à atteindre. Contrairement à un système en boucle ouverte, il n’est pas nécessaire de modéliser l’environnement mais juste de réagir aux perturbations qu’il introduit sur la trajectoire pour atteindre le but. Les algorithmes d’apprentissage par descente de gradient d’un réseau de neurones suivent ce principe. Ils optimisent progressivement les poids du réseau afin de réduire l’erreur de prédiction.
L’article « The architecture of complexity » de H. Simons en 1962 montre que l’existence de structures hiérarchiques est un autre élément qui permet de simplifier l’analyse et le contrôle des systèmes dynamiques. Ces hiérarchies se retrouvent dans la plupart des systèmes en sciences, en sciences humaines et dans les systèmes symboliques. On les retrouve dans l’architecture des réseaux de neurones profonds convolutifs.
Le perceptron de Rosemblatt introduit en 1957 définit un premier algorithme d’apprentissage sur un réseau de neurones. Il a une seule couche et une sortie binaire afin de classifier des données dans deux classes possibles. L’apprentissage se fait par une descente de gradient qui minimise une moyenne des écarts à la frontière de décision. On montre que cette descente de gradient suit la règle de Hebb, observée en biologie. Celle-ci observe que deux neurones qui sont excités simultanément vont renforcer le lien qui les unit. On démontre aussi que l’algorithme de Rosemblatt converge vers une solution qui dépend des conditions initiales si les données d’entraînement sont séparables linéairement, et ne converge pas si elles ne sont pas séparables.
Afin d’éviter ces problèmes de convergence, il faut régulariser la fonction de coût optimisée par le perceptron. Ainsi les « support vector machines » de Vapnik introduisent un critère de marge qui garantit que la frontière sépare au mieux les points de deux classes différentes, ce qui implique l’unicité du point de convergence et élimine la non convergence dans le cas de données non séparables.