Science des données - Table de régression : R au carré
R - Carré
R-Squared et Adjusted R-Squared décrivent dans quelle mesure le modèle de régression linéaire s'adapte aux points de données :
La valeur de R-Squared est toujours comprise entre 0 et 1 (0% à 100%).
- Une valeur R-Squared élevée signifie que de nombreux points de données sont proches de la ligne de la fonction de régression linéaire.
- Une valeur R-Squared faible signifie que la ligne de la fonction de régression linéaire ne correspond pas bien aux données.
Exemple visuel d'un faible R - Valeur au carré (0,00)
Notre modèle de régression montre une valeur R-Squared de zéro, ce qui signifie que la ligne de la fonction de régression linéaire ne correspond pas bien aux données.
Cela peut être visualisé lorsque nous traçons la fonction de régression linéaire à travers les points de données de Average_Pulse et Calorie_Burnage.
Exemple visuel d'un R élevé - Valeur au carré (0,79)
Cependant, si nous traçons Duration et Calorie_Burnage , le R-Squared augmente. Ici, nous voyons que les points de données sont proches de la ligne de la fonction de régression linéaire :
Voici le code en Python :
Exemple
import pandas as pd
import matplotlib.pyplot as plt
from scipy
import stats
full_health_data = pd.read_csv("data.csv", header=0, sep=",")
x = full_health_data["Duration"]
y =
full_health_data ["Calorie_Burnage"]
slope, intercept, r, p, std_err =
stats.linregress(x, y)
def myfunc(x):
return slope * x + intercept
mymodel = list(map(myfunc, x))
print(mymodel)
plt.scatter(x,
y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0,
xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")
plt.show()
Résumé - Prédire Calorie_Burnage avec Average_Pulse
Comment résumer la fonction de régression linéaire avec Average_Pulse comme variable explicative ?
- Coefficient de 0,3296, ce qui signifie que Average_Pulse a un très petit effet sur Calorie_Burnage.
- Valeur P élevée (0,824), ce qui signifie que nous ne pouvons pas conclure de relation entre Average_Pulse et Calorie_Burnage.
- Valeur R-Squared de 0, ce qui signifie que la ligne de la fonction de régression linéaire ne correspond pas bien aux données.