Amphithéâtre Marguerite de Navarre, Site Marcelin Berthelot
En libre accès, dans la limite des places disponibles
-

Résumé

Le premier cours fait un rappel des principes mathématiques des algorithmes d’apprentissage supervisés et non supervisés, et présente les architectures des réseaux de neurones profonds ainsi que leurs applications à la reconnaissance d’images. L’apprentissage supervisé consiste à estimer la réponse y = f(x) à une question, à partir d’une donnée x de dimension d. On utilise une base d’exemples d’entraînements où pour des données xi, on connaît la valeur de yi = f(xi). L’apprentissage non supervisé revient à estimer la distribution de probabilité p(x) des données x, à partir d’une famille d’exemples xi qui sont considérés comme des réalisations indépendantes suivant cette distribution. La difficulté principale de ces problèmes vient de la grande dimension d des données x. Les réseaux de neurones sont des architectures de calcul qui incluent un très grand nombre de paramètres afin d’approximer f(x) pour l’apprentissage supervisé ou p(x) pour l’apprentissage non-supervisé.

Les réseaux de neurones prennent en entrée la donnée x et calculent une approximation de y = f(x) avec une cascade d’opérateurs linéaires suivis de non-linéarités ponctuelles comme des sigmoïdes ou des rectificateurs. Les réseaux de neurones ont été introduits dans les années 1950 avec une motivation biologique. Cependant, ce n’est qu’à partir des années 2010 que ces réseaux ont obtenu des résultats spectaculaires, grâce à l’augmentation massive des données d’entraînement et à l’augmentation de la vitesse des ordinateurs. Cela a permis d’entraîner des réseaux de grande taille. Des applications impressionnantes ont été faites dans de nombreux domaines dont la vision par ordinateur, la reconnaissance de la parole, l’analyse de sons, de langages naturels, le contrôle de robots, la prédiction de quantités physiques, le diagnostic médical ou pour des compétitions de jeu d’échecs ou de Go. Le fait qu’un même type d’architecture puisse approximer des problèmes aussi différents indique que ces problèmes partagent des formes de régularités que l’on ne comprend pas mathématiquement. Le cours présentera des architectures de réseaux et les algorithmes d’apprentissage mais essayera aussi d’expliquer la performance de ces algorithmes, ou du moins les questions ouvertes sur ce sujet.

La vision par ordinateur est un domaine important d’applications des réseaux de neurones. Il s’agit ici de reconnaître une scène, ou un objet et sa localisation dans une image ou une vidéo, ou de segmenter l’image en un ensemble de structures identifiées. Jusqu’à récemment, les algorithmes de vision par ordinateurs étaient souvent basés sur l’extraction de structures comme des contours, des coins ou des éléments de textures, qui étaient agrégés avec des règles. Ces approches ne fonctionnaient cependant que sur des images relativement simples. La performance des réseaux de neurones profonds à partir de 2012 fut une grande surprise, car ils ont obtenu des résultats remarquables sur des problèmes que l’on pensait inatteignables avant longtemps. Ces réseaux peuvent maintenant reconnaître des visages mieux qu’un humain, faire de la reconnaissance en temps réel pour guider des voitures, reconnaître des objets ou segmenter des images complexes. Il faut cependant les entraîner sur des très grandes bases de données et ils introduisent parfois des erreurs importantes. Les propriétés de ces algorithmes sont encore mal comprises.