Tutoriel Python

Python ACCUEIL Introduction à Python Python pour commencer Syntaxe Python Commentaires Python Variables Python Types de données Python Nombres Python Casting Python Chaînes Python Booléens Python Opérateurs Python Listes Python Tuples Python Ensembles Python Dictionnaires Python Python Si... Sinon Boucles tant que Python Python pour les boucles Fonctions Python Python Lambda Tableaux Python Classes/Objets Python Héritage Python Itérateurs Python Portée Python Modules Python Dates Python Mathématiques Python PythonJSON Python RegEx PIP Python Python Essayer... Sauf Entrée utilisateur Python Formatage de chaîne Python

La gestion des fichiers

Gestion des fichiers Python Fichiers de lecture Python Python écrire/créer des fichiers Python Supprimer des fichiers

Modules Python

Tutoriel NumPy Procédure pas à pas Panda Tutoriel Scipy

Python Matplotlib

Introduction à Matplotlib Matplotlib Commencer MatplotlibPyplot Tracé Matplotlib Marqueurs Matplotlib Ligne Matplotlib Étiquettes Matplotlib Grille Matplotlib Sous-parcelles Matplotlib Matplotlib Scatter Barres Matplotlib Histogrammes Matplotlib Graphiques à secteurs Matplotlib

Apprentissage automatique

Commencer Mode médian moyen Écart-type Centile Diffusion des données Répartition normale des données Nuage de points Régression linéaire Régression polynomiale Régression multiple Échelle Former/Tester Arbre de décision

Python MySQL

MySQL Premiers pas Créer une base de données MySQL Créer une table MySQL Insertion MySQL Sélectionnez MySQL MySQL Où Trier MySQL par Supprimer MySQL Table de dépôt MySQL Mise à jour MySQL Limite MySQL Rejoindre MySQL

Python MongoDB

MongoDB Commencer MongoDB Créer une base de données Créer une collection MongoDB Insertion MongoDB Trouver MongoDB Requête MongoDB Tri MongoDB Supprimer MongoDB Collection de dépôt MongoDB Mise à jour MongoDB Limite MongoDB

Référence Python

Présentation de Python Fonctions intégrées Python Méthodes de chaîne Python Méthodes de liste Python Méthodes du dictionnaire Python Méthodes Python Tuple Méthodes d'ensemble Python Méthodes de fichier Python Mots-clés Python Exceptions Python Glossaire Python

Référence des modules

Module aléatoire Module de demandes Module Statistiques Module de mathématiques Module cMath

Python Comment

Supprimer les doublons de liste Inverser une chaîne Additionner deux nombres

Exemples Python

Exemples Python Compilateur Python Exercices Python Quizz Python Certificat Python

Apprentissage automatique - Distribution de données


Diffusion des données

Plus tôt dans ce didacticiel, nous avons travaillé avec de très petites quantités de données dans nos exemples, juste pour comprendre les différents concepts.

Dans le monde réel, les ensembles de données sont beaucoup plus volumineux, mais il peut être difficile de collecter des données du monde réel, du moins à un stade précoce d'un projet.

Comment pouvons-nous obtenir des ensembles de données volumineuses ?

Pour créer de grands ensembles de données pour les tests, nous utilisons le module Python NumPy, qui est fourni avec un certain nombre de méthodes pour créer des ensembles de données aléatoires, de n'importe quelle taille.

Exemple

Créez un tableau contenant 250 flottants aléatoires entre 0 et 5 :

import numpy

x = numpy.random.uniform(0.0, 5.0, 250)

print(x)

Histogramme

Pour visualiser l'ensemble de données, nous pouvons dessiner un histogramme avec les données que nous avons collectées.

Nous allons utiliser le module Python Matplotlib pour dessiner un histogramme.

Découvrez le module Matplotlib dans notre Tutoriel Matplotlib .

Exemple

Dessinez un histogramme :

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 250)

plt.hist(x, 5)
plt.show()

Résultat:

Histogramme expliqué

Nous utilisons le tableau de l'exemple ci-dessus pour dessiner un histogramme avec 5 barres.

La première barre représente le nombre de valeurs du tableau comprises entre 0 et 1.

La deuxième barre représente le nombre de valeurs comprises entre 1 et 2.

Etc.

Ce qui nous donne ce résultat :

  • 52 valeurs sont comprises entre 0 et 1
  • 48 valeurs sont comprises entre 1 et 2
  • 49 valeurs sont comprises entre 2 et 3
  • 51 valeurs sont comprises entre 3 et 4
  • 50 valeurs sont comprises entre 4 et 5

Remarque : Les valeurs du tableau sont des nombres aléatoires et n'afficheront pas exactement le même résultat sur votre ordinateur.

Distributions de données volumineuses

Un tableau contenant 250 valeurs n'est pas considéré comme très grand, mais vous savez maintenant comment créer un ensemble aléatoire de valeurs, et en modifiant les paramètres, vous pouvez créer l'ensemble de données aussi grand que vous le souhaitez.

Exemple

Créez un tableau avec 100 000 nombres aléatoires et affichez-les à l'aide d'un histogramme à 100 barres :

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 100000)

plt.hist(x, 100)
plt.show()