Modélisez vos données avec les méthodes ensemblistes

15 heures
Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 20/07/2022

Améliorez la performance de vos algorithmes à l’aide des méthodes ensemblistes parallèles

Les méthodes ensemblistes sont regroupées en deux sous-familles principales. Celles qui fonctionnent en parallèles et celles qui fonctionnent de manière séquentielle. Dans ce chapitre, nous allons d'abord étudier en détail ce que signifie "ensembliste" puis plus précisément les méthodes parallèles.

Les méthodes ensemblistes, késako

Ce cours est dédié aux méthodes ensemblistes. Comme leur nom l'indique, les méthodes d’ensembles suivent toutes le principe général suivant : combiner des modèles avec des performances faibles permet d’obtenir un modèle prédictif plus efficace. C’est l’effet de décision de groupe (wisdom of crowds), que l’on applique déjà sur nous-mêmes en tant qu'êtres-humains

Je ne vois pas très bien, pourrais-tu donner un exemple de décision de groupe ?

Bien sûr, par exemple, la démocratie ! En effet, pour faire passer une loi, l’assemblée vote, on ne donne pas la responsabilité à une seule personne mais on préfère prendre la décision à la majorité de l’avis du groupe. On combine les différentes opinions dans l’objectif de prendre une meilleure décision.

La dernière élection présidentielle a élu au premier tour les deux candidats finalistes à la majorité des votes

Là ou ça devient intéressant, c’est si on prend le système de vote américain des grands électeurs. Les votes sont en effet pondérés selon une importance relative déterminée par le système. On peut faire un parallèle avec des méthodes que nous étudieront plus tard dans ce cours qui possèdent ce mécanisme de pondération.

Comme évoqué dans l'introduction, nous allons étudier en détail une première famille de méthodes, les méthodes dîtes parallèles.

D'abord, un peu de statistiques

Dans la nuit des temps (la fin des années 70), les statisticiens se sont penchés sur la technique d’échantillonnage (sampling), pour créer une nouvelle famille de méthodes, appelées bootstrap.

Imaginez vouloir estimer une variable à l’aide d’un échantillon de population. Par exemple, estimer l’âge moyen d’un·e étudiant·e d'OpenClassrooms, à l’aide d’un échantillon de 100 étudiant·es. La première chose à faire est bien entendu de calculer cette moyenne sur les 100 étudiant·es, et d’en déduire un intervalle de confiance associé en fonction du nombre étudiant·es total d'OpenClassrooms.

La méthode du bootstrap consiste à générer un ensemble d'échantillons de même taille que l'échantillon original à partir de celui-ci. En l'occurence ici, générer un échantillon de taille 100 à partir de notre échantillon original de 100 étudiant·e. Ces échantillon bootstrap sont créés en échantillonnant les entrées une par une avec remplacement.

Une fois un grand nombre d'échantillon générés, on peut calculer la moyenne sur chacun de ces échantillons. L'histogramme de répartition des moyennes sur ces différents échantillons nous donnera alors une idée de la variabilité de la moyenne, plus précis que l'intervalle de confiance classique avec une hypothèse de normalité.

C'est cette première méthode, le bootstrap, qui a donnée naissance à la famille des méthodes parallèles.

Les méthodes parallèles

La famille de méthodes de cette première partie sont appelées méthodes « parallèles ». C’est pour signifier qu’en fait, nous allons entraîner plusieurs modèles de manière indépendante (en parallèle) pour ensuite les regrouper afin de prendre une décision.

Plutôt simple non ? 😶

En pratique, il faut utiliser des apprenants faibles

En réalité, la théorie des méthodes ensemblistes est basée sur la supposition que l’on peut améliorer ce qu’on appelle des apprenants faibles en les combinants. Un apprenant faible désigne un modèle qui fait seulement légèrement mieux qu’un simple modèle aléatoire. Ils sont en général plus faciles à créer, et lorsqu'ils sont combinés avec des méthodes intelligentes, ils permettent ainsi d’être plus performants qu’un modèle unique. Par contre, ils sont plus complexes à créer et utiliser.

Nous allons commencer par utiliser les arbres de décisions, qui sont considérés comme des apprenants faibles quand ils sont de petite taille.

Conclusion

Les méthodes ensemblistes, notamment apparues à travers des méthodes pionnières comme le bootstrap, permettent de rendre des modèles individuels (souvent des apprenants faibles) plus performants en les combinant de manière intelligente. Une première méthode parallèle, le bagging sera présentée dans le chapitre suivant.