Science des données – Tableau de régression : P-Value


Les "statistiques de la partie coefficients" dans le tableau de régression

Tableau de régression - Statistiques des coefficients

Maintenant, nous voulons tester si les coefficients de la fonction de régression linéaire ont un impact significatif sur la variable dépendante (Calorie_Burnage).

Cela signifie que nous voulons prouver qu'il existe une relation entre Average_Pulse et Calorie_Burnage, en utilisant des tests statistiques.

Il y a quatre composants qui expliquent les statistiques des coefficients :

  • std err signifie erreur standard
  • t est la "valeur t" des coefficients
  • P>|t| s'appelle la "valeur P"
  •  [0,025 0,975] représente l'intervalle de confiance des coefficients

Nous nous concentrerons sur la compréhension de la "valeur P" dans ce module.


La valeur P

La valeur P est un nombre statistique pour conclure s'il existe une relation entre Average_Pulse et Calorie_Burnage.

On teste si la vraie valeur du coefficient est égale à zéro (pas de relation). Le test statistique pour cela est appelé test d'hypothèse.

  • Une valeur P faible (< 0,05) signifie que le coefficient n'est probablement pas égal à zéro.
  • Une P-value élevée (> 0,05) signifie qu'on ne peut pas conclure que la variable explicative affecte la variable dépendante (ici : si Average_Pulse affecte Calorie_Burnage).
  • Une valeur P élevée est également appelée valeur P insignifiante.

Tests d'hypothèses

Le test d'hypothèse est une procédure statistique pour tester si vos résultats sont valides.

Dans notre exemple, nous testons si le vrai coefficient de Average_Pulse et l'ordonnée à l'origine sont égaux à zéro.

Le test d'hypothèse comporte deux énoncés. L'hypothèse nulle et l'hypothèse alternative.

  • L'hypothèse nulle peut être écrite brièvement comme H0
  • L'hypothèse alternative peut être brièvement écrite comme HA

Mathématiquement écrit :

H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept = 0
HA: Intercept ≠ 0

Le signe ≠ signifie "différent de"


Test d'hypothèse et valeur P

L'hypothèse nulle peut être rejetée ou non.

Si nous rejetons l'hypothèse nulle, nous concluons qu'il existe une relation entre Average_Pulse et Calorie_Burnage. La valeur P est utilisée pour cette conclusion.

Un seuil commun de la valeur P est de 0,05.

Remarque : Une valeur P de 0,05 signifie que 5 % des fois, nous rejetterons à tort l'hypothèse nulle. Cela signifie que nous acceptons que 5% des fois, nous pourrions avoir conclu une relation à tort.

Si la valeur P est inférieure à 0,05, nous pouvons rejeter l'hypothèse nulle et conclure qu'il existe une relation entre les variables.

Cependant, la valeur P de Average_Pulse est de 0,824. Donc, nous ne pouvons pas conclure une relation entre Average_Pulse et Calorie_Burnage.

Cela signifie qu'il y a 82,4 % de chances que le vrai coefficient de Average_Pulse soit égal à zéro.

L'ordonnée à l'origine est utilisée pour ajuster la capacité de la fonction de régression à prédire plus précisément. Il est donc peu courant d'interpréter la valeur P de l'ordonnée à l'origine.