Pandas - Analyse des DataFrames
Affichage des données
L'une des méthodes les plus utilisées pour obtenir un aperçu rapide du DataFrame est la head()
méthode .
La head()
méthode renvoie les en-têtes et un nombre spécifié de lignes, en commençant par le haut.
Exemple
Obtenez un aperçu rapide en imprimant les 10 premières lignes du DataFrame :
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head(10))
Dans nos exemples, nous utiliserons un fichier CSV appelé 'data.csv'.
Téléchargez data.csv ou ouvrez data.csv dans votre navigateur.
Remarque : si le nombre de lignes n'est pas spécifié, la head()
méthode renverra les 5 premières lignes.
Exemple
Imprimez les 5 premières lignes du DataFrame :
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
Il existe également une tail()
méthode pour visualiser les
dernières lignes du DataFrame.
La tail()
méthode renvoie les en-têtes et un nombre spécifié de lignes, en commençant par le bas.
Exemple
Imprimez les 5 dernières lignes du DataFrame :
print(df.tail())
Obtenir une certification!
10 $ S'INSCRIRE
Informations sur les données
L'objet DataFrames a une méthode appelée info()
, qui vous donne plus d'informations sur l'ensemble de données.
Exemple
Imprimer des informations sur les données :
print(df.info())
Résultat
<class 'pandas.core.frame.DataFrame'> RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64 dtypes: float64(1), int64(3) memory usage: 5.4 KB None
Résultat expliqué
Le résultat nous indique qu'il y a 169 lignes et 4 colonnes :
RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns):
Et le nom de chaque colonne, avec le type de données :
# Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64
Valeurs nulles
La info()
méthode nous indique également combien de valeurs non nulles sont présentes dans chaque colonne, et dans notre ensemble de données, il semble qu'il y ait 164 des 169 valeurs non nulles dans la colonne "Calories".
Ce qui signifie qu'il y a 5 lignes sans aucune valeur dans la colonne "Calories", pour une raison quelconque.
Les valeurs vides, ou valeurs Null, peuvent être mauvaises lors de l'analyse des données, et vous devriez envisager de supprimer les lignes avec des valeurs vides. C'est une étape vers ce qu'on appelle le nettoyage des données , et vous en apprendrez plus à ce sujet dans les chapitres suivants.