Science des données - Table de régression : R au carré


R - Carré

R-Squared et Adjusted R-Squared décrivent dans quelle mesure le modèle de régression linéaire s'adapte aux points de données :

Tableau de régression - Statistiques des coefficients

La valeur de R-Squared est toujours comprise entre 0 et 1 (0% à 100%).

  • Une valeur R-Squared élevée signifie que de nombreux points de données sont proches de la ligne de la fonction de régression linéaire.
  • Une valeur R-Squared faible signifie que la ligne de la fonction de régression linéaire ne correspond pas bien aux données.

Exemple visuel d'un faible R - Valeur au carré (0,00)

Notre modèle de régression montre une valeur R-Squared de zéro, ce qui signifie que la ligne de la fonction de régression linéaire ne correspond pas bien aux données.

Cela peut être visualisé lorsque nous traçons la fonction de régression linéaire à travers les points de données de Average_Pulse et Calorie_Burnage.

R faible - Valeur au carré (0,00)

Exemple visuel d'un R élevé - Valeur au carré (0,79)

Cependant, si nous traçons Duration et Calorie_Burnage , le R-Squared augmente. Ici, nous voyons que les points de données sont proches de la ligne de la fonction de régression linéaire :

R faible - Valeur au carré (0,00)

Voici le code en Python :

Exemple

import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

full_health_data = pd.read_csv("data.csv", header=0, sep=",")

x = full_health_data["Duration"]
y = full_health_data ["Calorie_Burnage"]

slope, intercept, r, p, std_err = stats.linregress(x, y)

def myfunc(x):
 return slope * x + intercept

mymodel = list(map(myfunc, x))

print(mymodel)

plt.scatter(x, y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0, xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")

plt.show()

Résumé - Prédire Calorie_Burnage avec Average_Pulse

Comment résumer la fonction de régression linéaire avec Average_Pulse comme variable explicative ?

  • Coefficient de 0,3296, ce qui signifie que Average_Pulse a un très petit effet sur Calorie_Burnage.
  • Valeur P élevée (0,824), ce qui signifie que nous ne pouvons pas conclure de relation entre Average_Pulse et Calorie_Burnage.
  • Valeur R-Squared de 0, ce qui signifie que la ligne de la fonction de régression linéaire ne correspond pas bien aux données.