Résumé
Les progrès récents des réseaux de neurones profonds ont permis d’avancer de façon significative la compréhension automatique d’actions dans des vidéos. Le séminaire commence par donner une vision globale des algorithmes utilisés pour la classification de vidéos, puis il présente plusieurs algorithmes pour localiser dans le temps et dans l’espace les actions d’une vidéo. Il montre comment les « tublets » d’actions permettent d’obtenir l’état de l’art pour la localisation spatio-temporelle d’actions, et pourquoi la modélisation des relations entre les objets et les humains peut améliorer ces performances. Une grande base de données de vidéos d’actions est présentée. On décrit un algorithme faiblement supervisé afin d’apprendre les actions humaines dans des vidéos. Cet algorithme réduit de façon très significative le coût des annotations nécessaires pour entrainer des algorithmes de classification de vidéos.