Pandas - Corrélations de données


Trouver des relations

Un grand aspect du module Pandas est la corr()méthode.

La corr()méthode calcule la relation entre chaque colonne de votre ensemble de données.

Les exemples de cette page utilisent un fichier CSV appelé : 'data.csv'.

Télécharger data.csv . ou Ouvrir data.csv

Exemple

Montrez la relation entre les colonnes :

df.corr()

Résultat

            Duration     Pulse  Maxpulse  Calories
  Duration  1.000000 -0.155408  0.009403  0.922721
  Pulse    -0.155408  1.000000  0.786535  0.025120
  Maxpulse  0.009403  0.786535  1.000000  0.203814
  Calories  0.922721  0.025120  0.203814  1.000000

Remarque : La corr()méthode ignore les colonnes "non numériques".

Résultat expliqué

Le résultat de la corr()méthode est un tableau avec beaucoup de nombres qui représente la qualité de la relation entre deux colonnes.

Le nombre varie de -1 à 1.

1 signifie qu'il existe une relation de 1 à 1 (une corrélation parfaite), et pour cet ensemble de données, chaque fois qu'une valeur augmente dans la première colonne, l'autre augmente également.

0,9 est également une bonne relation, et si vous augmentez une valeur, l'autre augmentera probablement aussi.

-0,9 serait une relation aussi bonne que 0,9, mais si vous augmentez une valeur, l'autre diminuera probablement.

0,2 signifie PAS une bonne relation, ce qui signifie que si une valeur augmente, cela ne signifie pas que l'autre augmentera.

Qu'est-ce qu'une bonne corrélation ? Cela dépend de l'utilisation, mais je pense qu'il est prudent de dire que vous devez avoir au moins 0.6(ou -0.6) pour appeler cela une bonne corrélation.

Corrélation parfaite :

Nous pouvons voir que "Duration" et "Duration" ont le nombre 1.000000, ce qui est logique, chaque colonne a toujours une relation parfaite avec elle-même.

Bonne corrélation :

« Durée » et « Calories » ont une 0.922721corrélation, ce qui est une très bonne corrélation, et nous pouvons prédire que plus vous vous entraînez longtemps, plus vous brûlez de calories, et inversement : si vous brûlez beaucoup de calories, vous probablement eu un long travail.

Mauvaise corrélation :

"Duration" et "Maxpulse" ont une 0.009403corrélation, qui est une très mauvaise corrélation, ce qui signifie que nous ne pouvons pas prédire le pouls maximum en regardant simplement la durée de l'entraînement, et vice versa.


Testez-vous avec des exercices

Exercer:

Insérez une syntaxe correcte pour trouver des relations entre les colonnes dans un DataFrame.

df.()


w3schools CERTIFIED . 2021

Obtenir une certification!

Complétez les modules Pandas, faites les exercices, passez l'examen et vous deviendrez certifié w3schools !

10 $ S'INSCRIRE