Science des données - Python DataFrame
Créer un DataFrame avec Pandas
Un bloc de données est une représentation structurée de données.
Définissons un bloc de données avec 3 colonnes et 5 lignes avec des nombres fictifs :
Exemple
import pandas as pd
d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9,
5], 'col3': [7, 8, 12, 1, 11]}
df = pd.DataFrame(data=d)
print(df)
Exemple expliqué
- Importer la bibliothèque Pandas en tant que pd
- Définir des données avec une colonne et des lignes dans une variable nommée d
- Créez un bloc de données à l'aide de la fonction pd.DataFrame()
- Le bloc de données contient 3 colonnes et 5 lignes
- Imprimer la sortie du bloc de données avec la fonction print()
Nous écrivons pd. devant DataFrame() pour faire savoir à Python que nous voulons activer la fonction DataFrame() de la bibliothèque Pandas.
Soyez conscient du D et du F majuscules dans DataFrame !
Interprétation de la sortie
Voici la sortie :
Nous voyons que "col1", "col2" et "col3" sont les noms des colonnes.
Ne vous méprenez pas sur les nombres verticaux allant de 0 à 4. Ils nous donnent des informations sur la position des lignes.
En Python, la numérotation des lignes commence par zéro.
Maintenant, nous pouvons utiliser Python pour compter les colonnes et les lignes.
Nous pouvons utiliser df.shape[1] pour trouver le nombre de colonnes :
Exemple
Comptez le nombre de colonnes :
count_column = df.shape[1]
print(count_column)
Nous pouvons utiliser df.shape[0] pour trouver le nombre de lignes :
Exemple
Comptez le nombre de lignes :
count_row = df.shape[0]
print(count_row)
Pourquoi ne pouvons-nous pas simplement compter les lignes et les colonnes nous-mêmes ?
Si nous travaillons avec des ensembles de données plus volumineux avec de nombreuses colonnes et lignes, il sera déroutant de le compter par vous-même. Vous risquez de le compter à tort. Si nous utilisons correctement les fonctions intégrées de Python, nous nous assurons que le décompte est correct.