Pandas - Corrélations de données
Trouver des relations
Un grand aspect du module Pandas est la corr()
méthode.
La corr()
méthode calcule la relation entre chaque colonne de votre ensemble de données.
Les exemples de cette page utilisent un fichier CSV appelé : 'data.csv'.
Télécharger data.csv . ou Ouvrir data.csv
Exemple
Montrez la relation entre les colonnes :
df.corr()
Résultat
Duration Pulse Maxpulse Calories Duration 1.000000 -0.155408 0.009403 0.922721 Pulse -0.155408 1.000000 0.786535 0.025120 Maxpulse 0.009403 0.786535 1.000000 0.203814 Calories 0.922721 0.025120 0.203814 1.000000
Remarque :
La corr()
méthode ignore les colonnes "non numériques".
Résultat expliqué
Le résultat de la corr()
méthode est un tableau avec beaucoup de nombres qui représente la qualité de la relation entre deux colonnes.
Le nombre varie de -1 à 1.
1 signifie qu'il existe une relation de 1 à 1 (une corrélation parfaite), et pour cet ensemble de données, chaque fois qu'une valeur augmente dans la première colonne, l'autre augmente également.
0,9 est également une bonne relation, et si vous augmentez une valeur, l'autre augmentera probablement aussi.
-0,9 serait une relation aussi bonne que 0,9, mais si vous augmentez une valeur, l'autre diminuera probablement.
0,2 signifie PAS une bonne relation, ce qui signifie que si une valeur augmente, cela ne signifie pas que l'autre augmentera.
Qu'est-ce qu'une bonne corrélation ?
Cela dépend de l'utilisation, mais je pense qu'il est prudent de dire que vous devez avoir au moins 0.6
(ou -0.6
) pour appeler cela une bonne corrélation.
Corrélation parfaite :
Nous pouvons voir que "Duration" et "Duration" ont le nombre 1.000000
, ce qui est logique, chaque colonne a toujours une relation parfaite avec elle-même.
Bonne corrélation :
« Durée » et « Calories » ont une 0.922721
corrélation, ce qui est une très bonne corrélation, et nous pouvons prédire que plus vous vous entraînez longtemps, plus vous brûlez de calories, et inversement : si vous brûlez beaucoup de calories, vous probablement eu un long travail.
Mauvaise corrélation :
"Duration" et "Maxpulse" ont une 0.009403
corrélation, qui est une très mauvaise corrélation, ce qui signifie que nous ne pouvons pas prédire le pouls maximum en regardant simplement la durée de l'entraînement, et vice versa.
Obtenir une certification!
10 $ S'INSCRIRE