À vous de jouer !
Objectif de l'activité
Dans la partie précédente, vous avez déterminé la hauteur d'un arbre en fonction de sa circonférence, à l'aide d'une régression linéaire simple. Dans cette activité, vous irez un petit peu plus loin, et améliorerez votre prévision, cette fois à l'aide d'une régression linéaire multiple !
Votre mission
Ajouter une colonne à l'échantillon. La nommer circ_sqrt et la remplir avec la racine carrée de la circonférence de chaque arbre.
Effectuer la régression linéaire multiple de la hauteur en fonction :
- de la circonférence ;
- de circ_sqrt.Analyser la significativité des paramètres, et retirer les éventuels paramètres non significatifs.
Donner et interpréter le coefficient de détermination du modèle finalement retenu.
Les données
Pour cette activité, vous vous baserez sur le jeu de données "arbres".
Corrigez votre travail
Vérifiez que votre travail remplit les critères suivants :
Une colonne est bien créée et contient pour chaque arbre la racine carrée de la circonférence.
Le code contient une ligne permettant le calcul de la régression linéaire multiple. Une autre fonction que celle proposée dans le corrigé peut être acceptée, à condition qu'elle réalise bien une régression linéaire.
La réponse est correcte s'il a été identifié que le paramètre de la circonférence n'est pas significatif, et que le paramètre de
circ_sqrt
est significatif. Une régression linéaire doit être relancée ensuite avec comme unique variable explicativecirc_sqrt
. C'est sur cette dernière modélisation que le R2 de la question suivante devra être interprété.La réponse est correcte si elle est équivalente à : "On rejette la nullité des paramètres au niveau de test 5 %."
Voici un exemple corrigé pour vous guider.