Science des données - Python DataFrame


Créer un DataFrame avec Pandas

Un bloc de données est une représentation structurée de données.

Définissons un bloc de données avec 3 colonnes et 5 lignes avec des nombres fictifs :

Exemple

import pandas as pd

d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9, 5], 'col3': [7, 8, 12, 1, 11]}

df = pd.DataFrame(data=d)

print(df)

Exemple expliqué

  • Importer la bibliothèque Pandas en tant que pd
  • Définir des données avec une colonne et des lignes dans une variable nommée d
  • Créez un bloc de données à l'aide de la fonction pd.DataFrame()
  • Le bloc de données contient 3 colonnes et 5 lignes
  • Imprimer la sortie du bloc de données avec la fonction print()

Nous écrivons pd. devant DataFrame() pour faire savoir à Python que nous voulons activer la fonction DataFrame() de la bibliothèque Pandas.

Soyez conscient du D et du F majuscules dans DataFrame !


Interprétation de la sortie

Voici la sortie :

Sortie de trame de données

Nous voyons que "col1", "col2" et "col3" sont les noms des colonnes.

Ne vous méprenez pas sur les nombres verticaux allant de 0 à 4. Ils nous donnent des informations sur la position des lignes.

En Python, la numérotation des lignes commence par zéro.

Maintenant, nous pouvons utiliser Python pour compter les colonnes et les lignes.

Nous pouvons utiliser df.shape[1] pour trouver le nombre de colonnes :

Exemple

Comptez le nombre de colonnes :

count_column = df.shape[1]
print(count_column)

Nous pouvons utiliser df.shape[0] pour trouver le nombre de lignes :

Exemple

Comptez le nombre de lignes :

count_row = df.shape[0]
print(count_row)

Pourquoi ne pouvons-nous pas simplement compter les lignes et les colonnes nous-mêmes ?

Si nous travaillons avec des ensembles de données plus volumineux avec de nombreuses colonnes et lignes, il sera déroutant de le compter par vous-même. Vous risquez de le compter à tort. Si nous utilisons correctement les fonctions intégrées de Python, nous nous assurons que le décompte est correct.