Amphithéâtre Marguerite de Navarre, Site Marcelin Berthelot
En libre accès, dans la limite des places disponibles
-

Pour des raisons de droits d'auteurs, cette vidéo n'est pas accessible sur notre site. Vous pouvez néanmoins la consulter sur notre chaîne YouTube en cliquant sur ce lien : 

https://youtu.be/mcXN7ZI6h_4?

Résumé

Les succès actuels de la reconnaissance visuelle sont en grande partie dus à l’apprentissage de nouvelles représentations d’images, grâce aux techniques d’apprentissage supervisé et à l’existence de grandes bases de données d’images annotées.

Cette présentation explique que pour élaborer des algorithmes capables de comprendre les évolutions du monde visuel qui nous entoure, la difficulté principale est maintenant de développer des représentations visuelles capables de généraliser dans des environnements différents de ceux qui apparaissent dans la base de données d’entraînement. Il faut aussi qu’ils puissent apprendre avec une supervision faible, avec des données bruitées et annotées partiellement. Plusieurs éléments permettent d’avancer dans cette direction. L’existence de données multimodales qui permettent de recouper des informations visuelles, auditives ou textuelles sans annotation, et l’utilisation de modèles physiques appris sur des données. Cet exposé présente des directions de recherche qui permettent d’aborder ces problèmes avec des applications pour la compréhension du contenu de vidéos ou pour trouver des correspondances visuelles.

Intervenant(s)

Josef Sivic

ENS