Cartographie des sciences des données

Résumé

Le premier cours effectue une cartographie des sciences des données, qui regroupent trois grands domaines : le traitement du signal, la modélisation de données, ainsi que la prédiction. Le cours introduit les grands enjeux de chacun de ces domaines, ainsi que les notions mathématiques et informatiques auxquels ils font appel.

En traitement du signal, on veut calculer une estimation d’un signal x ayant d coefficients, à partir de mesures. La dimension d est typiquement supérieure à un million, que ce soit un son, une image ou toute autre observation. Les problèmes inverses ont pour but d’améliorer la qualité des signaux. Un instrument de mesure effectue une transformation du signal d’entrée et ajoute des erreurs, autrement dit du bruit. Inverser la transformation tout en réduisant le bruit nécessite d’utiliser des informations a priori sur les propriétés du signal. La compression des signaux est une autre application, dont le but est de réduire le nombre de bits pour coder les signaux, afin de limiter l’espace de stockage ou le temps de transmission. Là encore, il s’agit d’exploiter une information a priori sur la structure des signaux.

La modélisation consiste à capturer la nature et la variabilité des données. Cela se fait en estimant la distribution des données observées. Cette distribution est caractérisée par un modèle aléatoire dont on suppose qu’il a une densité de probabilité. C’est une fonction du grand nombre d de variables de chaque donnée. La difficulté principale vient de cette grande dimension. La construction de tels modèles est nécessaire pour optimiser les algorithmes de traitement du signal, pour la physique statistique, ou pour la synthèse de nouvelles données. Cette modélisation est également utile pour faire de la prédiction.

Une prédiction calcule une estimation de la réponse y à une question, à partir d’une donnée x qui peut inclure de nombreuses variables. Par exemple, y peut être le nom d’un animal qui apparaît dans une image x, ou un diagnostic estimé à partir de données médicales x. L’apprentissage supervisé optimise le paramétrage d’algorithmes de prédictions, en utilisant de nombreux exemples composés de données x pour lesquels on connaît la réponse y.