Les sciences des données ont pour objectif « d’extraire de la connaissance » de données numériques, avec des algorithmes. Les applications sont considérables, pour stocker, analyser et valoriser les masses de données : images, sons, textes, mesures physiques ou données d’Internet. On distingue deux types de problèmes : la prédiction et la modélisation. Les prédictions sont faites par des algorithmes d’apprentissage statistique, qui sont à l’origine du renouveau de l’intelligence artificielle. Un modèle décrit la variabilité des données et permet d’en générer des nouvelles. Les mathématiques ont ici pour but de comprendre sous quelles conditions il est possible d’apprendre et donc de généraliser, ou de construire des modèles, tandis que l’informatique a pour objectif de développer des algorithmes qui résolvent ces problèmes.
Le premier cours de la chaire pose le cadre mathématique et algorithmique de ce domaine, en dégageant les questions et techniques importantes pour l’apprentissage. La difficulté principale de la prédiction ou de la modélisation vient du grand nombre de variables des données, souvent plus d’un million, à l’instar du nombre de pixels d’une image. Cette grande dimension génère une explosion combinatoire des possibilités de prédiction ou de modélisation. On fait face à cette malédiction de la grande dimension avec des algorithmes qui utilisent de l’information a priori sur certaines régularités du problème. Le cours introduit des outils mathématiques et algorithmiques permettant de spécifier et d’exploiter cette régularité, pour prédire ou modéliser.