Pandas - Traçage



Traçage

Pandas utilise la plot()méthode pour créer des diagrammes.

Nous pouvons utiliser Pyplot, un sous-module de la bibliothèque Matplotlib pour visualiser le diagramme à l'écran.

En savoir plus sur Matplotlib dans notre tutoriel Matplotlib .

Exemple

Importez pyplot depuis Matplotlib et visualisez notre DataFrame :

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('data.csv')

df.plot()

plt.show()

Les exemples de cette page utilisent un fichier CSV appelé : 'data.csv'.

Téléchargez data.csv ou ouvrez data.csv


Nuage de points

Spécifiez que vous voulez un nuage de points avec l' kindargument :

kind = 'scatter'

Un nuage de points a besoin d'un axe des x et d'un axe des y.

Dans l'exemple ci-dessous, nous utiliserons "Durée" pour l'axe des x et "Calories" pour l'axe des y.

Incluez les arguments x et y comme ceci :

x = 'Duration', y = 'Calories'

Exemple

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('data.csv')

df.plot(kind = 'scatter', x = 'Duration', y = 'Calories')

plt.show()

Résultat

N'oubliez pas : dans l'exemple précédent, nous avons appris que la corrélation entre "Durée" et "Calories" était 0.922721, et nous avons conclu avec le fait qu'une durée plus élevée signifie plus de calories brûlées.

En regardant le nuage de points, je suis d'accord.

Créons un autre nuage de points, où il y a une mauvaise relation entre les colonnes, comme "Duration" et "Maxpulse", avec la corrélation0.009403 :

Exemple

Un nuage de points où il n'y a pas de relation entre les colonnes :

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('data.csv')

df.plot(kind = 'scatter', x = 'Duration', y = 'Maxpulse')

plt.show()

Résultat


w3schools CERTIFIED . 2021

Obtenir une certification!

Complétez les modules Pandas, faites les exercices, passez l'examen et vous deviendrez certifié w3schools !

10 $ S'INSCRIRE

Histogramme

Utilisez l' kindargument pour spécifier que vous voulez un histogramme :

kind = 'hist'

Un histogramme n'a besoin que d'une seule colonne.

Un histogramme nous montre la fréquence de chaque intervalle, par exemple combien d'entraînements ont duré entre 50 et 60 minutes ?

Dans l'exemple ci-dessous, nous utiliserons la colonne "Durée" pour créer l'histogramme :

Exemple

df["Duration"].plot(kind = 'hist')

Résultat

Remarque : L'histogramme nous indique qu'il y a eu plus de 100 entraînements qui ont duré entre 50 et 60 minutes.


Testez-vous avec des exercices

Exercer:

Insérez une syntaxe correcte pour visualiser les données dans DataFrame sous forme de diagramme (tracé).

df.()