Cartographie des sciences des données

Résumé

Le premier cours effectue une cartographie des sciences des données, qui regroupent trois grands domaines : le traitement du signal, la modélisation de données, ainsi que la prédiction. Le cours introduit les grands enjeux de chacun de ces domaines, ainsi que les notions mathématiques et informatiques auxquels ils font appel.

En traitement du signal, on veut calculer une estimation d’un signal x ayant d coefficients, à partir de mesures. La dimension d est typiquement supérieure à un million, que ce soit un son, une image ou toute autre observation. Les problèmes inverses ont pour but d’améliorer la qualité des signaux. Un instrument de mesure effectue une transformation du signal d’entrée et ajoute des erreurs, autrement dit du bruit. Inverser la transformation tout en réduisant le bruit nécessite d’utiliser des informations a priori sur les propriétés du signal. La compression des signaux est une autre application, dont le but est de réduire le nombre de bits pour coder les signaux, afin de limiter l’espace de stockage ou le temps de transmission. Là encore, il s’agit d’exploiter une information a priori sur la structure des signaux.

La modélisation consiste à capturer la nature et la variabilité des données. Cela se fait en estimant la distribution des données observées. Cette distribution est caractérisée par un modèle aléatoire dont on suppose qu’il a une densité de probabilité. C’est une fonction du grand nombre d de variables de chaque donnée. La difficulté principale vient de cette grande dimension. La construction de tels modèles est nécessaire pour optimiser les algorithmes de traitement du signal, pour la physique statistique, ou pour la synthèse de nouvelles données. Cette modélisation est également utile pour faire de la prédiction.

Une prédiction calcule une estimation de la réponse y à une question, à partir d’une donnée x qui peut inclure de nombreuses variables. Par exemple, y peut être le nom d’un animal qui apparaît dans une image x, ou un diagnostic estimé à partir de données médicales x. L’apprentissage supervisé optimise le paramétrage d’algorithmes de prédictions, en utilisant de nombreux exemples composés de données x pour lesquels on connaît la réponse y.

Cartographie des sciences des données

Résumé

Documents et médias

Intervenant(s)

Stéphane Mallat

Événements

Cartographie des sciences des données

Présentation des challenges 2018 (1)

Compromis Biais-Complexité

Présentation des challenges 2018 (2)

Malédiction de la grande dimension

Réduction de dimensionnalité et débruitage

Analyse de Fourier, filtrage et échantillonnage

Le débruitage d'images en quelques formules

Transformées et bases d'ondelettes

S'attaquer à une compétition de machine learning : méth…

Apprentissage Bayésien et linéaire à noyaux

Régression à noyaux et optimisation convexe

Classification à noyaux et SVM

Apprentissage fédéré pour les données médicales

Descente de gradient et réseaux de neurones

Gradients stochastiques et conditionnels pour les réseaux de neurones

Voir aussi