Science des données – Tableau de régression : P-Value
Les "statistiques de la partie coefficients" dans le tableau de régression
Maintenant, nous voulons tester si les coefficients de la fonction de régression linéaire ont un impact significatif sur la variable dépendante (Calorie_Burnage).
Cela signifie que nous voulons prouver qu'il existe une relation entre Average_Pulse et Calorie_Burnage, en utilisant des tests statistiques.
Il y a quatre composants qui expliquent les statistiques des coefficients :
- std err signifie erreur standard
- t est la "valeur t" des coefficients
- P>|t| s'appelle la "valeur P"
- [0,025 0,975] représente l'intervalle de confiance des coefficients
Nous nous concentrerons sur la compréhension de la "valeur P" dans ce module.
La valeur P
La valeur P est un nombre statistique pour conclure s'il existe une relation entre Average_Pulse et Calorie_Burnage.
On teste si la vraie valeur du coefficient est égale à zéro (pas de relation). Le test statistique pour cela est appelé test d'hypothèse.
- Une valeur P faible (< 0,05) signifie que le coefficient n'est probablement pas égal à zéro.
- Une P-value élevée (> 0,05) signifie qu'on ne peut pas conclure que la variable explicative affecte la variable dépendante (ici : si Average_Pulse affecte Calorie_Burnage).
- Une valeur P élevée est également appelée valeur P insignifiante.
Tests d'hypothèses
Le test d'hypothèse est une procédure statistique pour tester si vos résultats sont valides.
Dans notre exemple, nous testons si le vrai coefficient de Average_Pulse et l'ordonnée à l'origine sont égaux à zéro.
Le test d'hypothèse comporte deux énoncés. L'hypothèse nulle et l'hypothèse alternative.
- L'hypothèse nulle peut être écrite brièvement comme H0
- L'hypothèse alternative peut être brièvement écrite comme HA
Mathématiquement écrit :
H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept =
0
HA: Intercept ≠ 0
Le signe ≠ signifie "différent de"
Test d'hypothèse et valeur P
L'hypothèse nulle peut être rejetée ou non.
Si nous rejetons l'hypothèse nulle, nous concluons qu'il existe une relation entre Average_Pulse et Calorie_Burnage. La valeur P est utilisée pour cette conclusion.
Un seuil commun de la valeur P est de 0,05.
Remarque : Une valeur P de 0,05 signifie que 5 % des fois, nous rejetterons à tort l'hypothèse nulle. Cela signifie que nous acceptons que 5% des fois, nous pourrions avoir conclu une relation à tort.
Si la valeur P est inférieure à 0,05, nous pouvons rejeter l'hypothèse nulle et conclure qu'il existe une relation entre les variables.
Cependant, la valeur P de Average_Pulse est de 0,824. Donc, nous ne pouvons pas conclure une relation entre Average_Pulse et Calorie_Burnage.
Cela signifie qu'il y a 82,4 % de chances que le vrai coefficient de Average_Pulse soit égal à zéro.
L'ordonnée à l'origine est utilisée pour ajuster la capacité de la fonction de régression à prédire plus précisément. Il est donc peu courant d'interpréter la valeur P de l'ordonnée à l'origine.