Pandas - Analyse des DataFrames


Affichage des données

L'une des méthodes les plus utilisées pour obtenir un aperçu rapide du DataFrame est la head()méthode .

La head()méthode renvoie les en-têtes et un nombre spécifié de lignes, en commençant par le haut.

Exemple

Obtenez un aperçu rapide en imprimant les 10 premières lignes du DataFrame :

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

Dans nos exemples, nous utiliserons un fichier CSV appelé 'data.csv'.

Téléchargez data.csv ou ouvrez data.csv dans votre navigateur.

Remarque : si le nombre de lignes n'est pas spécifié, la head()méthode renverra les 5 premières lignes.

Exemple

Imprimez les 5 premières lignes du DataFrame :

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head())

Il existe également une tail()méthode pour visualiser les dernières lignes du DataFrame.

La tail()méthode renvoie les en-têtes et un nombre spécifié de lignes, en commençant par le bas.

Exemple

Imprimez les 5 dernières lignes du DataFrame :

print(df.tail()) 

w3schools CERTIFIED . 2021

Obtenir une certification!

Complétez les modules Pandas, faites les exercices, passez l'examen et vous deviendrez certifié w3schools !

10 $ S'INSCRIRE

Informations sur les données

L'objet DataFrames a une méthode appelée info(), qui vous donne plus d'informations sur l'ensemble de données.

Exemple

Imprimer des informations sur les données :

print(df.info()) 

Résultat

  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):
   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64
  dtypes: float64(1), int64(3)
  memory usage: 5.4 KB
  None
    

Résultat expliqué

Le résultat nous indique qu'il y a 169 lignes et 4 colonnes :

  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):

Et le nom de chaque colonne, avec le type de données :

   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64

Valeurs nulles

La info()méthode nous indique également combien de valeurs non nulles sont présentes dans chaque colonne, et dans notre ensemble de données, il semble qu'il y ait 164 des 169 valeurs non nulles dans la colonne "Calories".

Ce qui signifie qu'il y a 5 lignes sans aucune valeur dans la colonne "Calories", pour une raison quelconque.

Les valeurs vides, ou valeurs Null, peuvent être mauvaises lors de l'analyse des données, et vous devriez envisager de supprimer les lignes avec des valeurs vides. C'est une étape vers ce qu'on appelle le nettoyage des données , et vous en apprendrez plus à ce sujet dans les chapitres suivants.