Pandas - Traçage
Traçage
Pandas utilise la plot()
méthode pour créer des diagrammes.
Nous pouvons utiliser Pyplot, un sous-module de la bibliothèque Matplotlib pour visualiser le diagramme à l'écran.
En savoir plus sur Matplotlib dans notre tutoriel Matplotlib .
Exemple
Importez pyplot depuis Matplotlib et visualisez notre DataFrame :
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('data.csv')
df.plot()
plt.show()
Les exemples de cette page utilisent un fichier CSV appelé : 'data.csv'.
Téléchargez data.csv ou ouvrez data.csv
Nuage de points
Spécifiez que vous voulez un nuage de points avec l'
kind
argument :
kind = 'scatter'
Un nuage de points a besoin d'un axe des x et d'un axe des y.
Dans l'exemple ci-dessous, nous utiliserons "Durée" pour l'axe des x et "Calories" pour l'axe des y.
Incluez les arguments x et y comme ceci :
x = 'Duration', y = 'Calories'
Exemple
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('data.csv')
df.plot(kind = 'scatter', x = 'Duration', y = 'Calories')
plt.show()
Résultat
N'oubliez pas :
dans l'exemple précédent, nous avons appris que la corrélation entre "Durée" et "Calories" était 0.922721
, et nous avons conclu avec le fait qu'une durée plus élevée signifie plus de calories brûlées.
En regardant le nuage de points, je suis d'accord.
Créons un autre nuage de points, où il y a une mauvaise relation entre les colonnes, comme "Duration" et "Maxpulse", avec la corrélation0.009403
:
Exemple
Un nuage de points où il n'y a pas de relation entre les colonnes :
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('data.csv')
df.plot(kind = 'scatter', x = 'Duration', y = 'Maxpulse')
plt.show()
Résultat
Obtenir une certification!
10 $ S'INSCRIRE
Histogramme
Utilisez l'
kind
argument pour spécifier que vous voulez un histogramme :
kind = 'hist'
Un histogramme n'a besoin que d'une seule colonne.
Un histogramme nous montre la fréquence de chaque intervalle, par exemple combien d'entraînements ont duré entre 50 et 60 minutes ?
Dans l'exemple ci-dessous, nous utiliserons la colonne "Durée" pour créer l'histogramme :
Exemple
df["Duration"].plot(kind = 'hist')
Résultat
Remarque : L'histogramme nous indique qu'il y a eu plus de 100 entraînements qui ont duré entre 50 et 60 minutes.