Résumé
Participer à une compétition de Machine Learning demande à la fois des compétences poussées en informatique et une connaissance des modèles de Machine Learning du point de vue mathématique et algorithmique. Cet exposé explique le processus itératif permettant d’obtenir des bons résultats lors d’une compétition de Machine Learning.
La méthodologie proposée se décompose en 5 phases, répétées jusqu’à la fin de la compétition. Elle commence par une revue de l’état de l’art sur le sujet, en termes de publications scientifiques et de compétitions similaires. Suit une exploration des données, pour comprendre leurs structures et avoir une première idée des features ayant un pouvoir prédictif. La troisième phase construit une représentation des données qui optimise ces features : c’est ce qu’on appelle le feature engineering. Après avoir construit une procédure d’évaluation des modèles, impliquant par exemple une validation croisée (k-fold), il reste à créer une batterie de modèles, les comparer et les combiner pour obtenir le meilleur modèle prédictif possible. Un data scientist émet ensuite des hypothèses sur les nouvelles features qui pourraient apporter une représentation plus pertinente des données, et les intègre en répétant cette méthodologie pour améliorer les résultats jusqu’à la fin de la compétition.
Atteindre d’excellents classements lors de compétitions de Machine Learning nécessite donc une connaissance précise des modèles pour les paramétrer au mieux et pour connaître leurs limites, mais également de la créativité pour construire une représentation des données susceptible de contenir un maximum d’informations pertinentes.