Distribution aléatoire des données


Qu'est-ce que la distribution de données ?

La distribution des données est une liste de toutes les valeurs possibles et de la fréquence à laquelle chaque valeur se produit.

Ces listes sont importantes lorsque l'on travaille avec les statistiques et la science des données.

Le module random propose des méthodes qui renvoient des distributions de données générées aléatoirement.


Répartition aléatoire

Une distribution aléatoire est un ensemble de nombres aléatoires qui suivent une certaine fonction de densité de probabilité .

Fonction de densité de probabilité : une fonction qui décrit une probabilité continue. c'est-à-dire la probabilité de toutes les valeurs d'un tableau.

Nous pouvons générer des nombres aléatoires basés sur des probabilités définies en utilisant la choice()méthode du randommodule.

La choice()méthode nous permet de spécifier la probabilité pour chaque valeur.

La probabilité est définie par un nombre compris entre 0 et 1, où 0 signifie que la valeur ne se produira jamais et 1 signifie que la valeur se produira toujours.

Exemple

Générez un tableau 1-D contenant 100 valeurs, où chaque valeur doit être 3, 5, 7 ou 9.

La probabilité que la valeur soit 3 est fixée à 0,1

La probabilité que la valeur soit 5 est fixée à 0,3

La probabilité que la valeur soit 7 est fixée à 0,6

La probabilité que la valeur soit 9 est fixée à 0

from numpy import random

x = random.choice([3, 5, 7, 9], p=[0.1, 0.3, 0.6, 0.0], size=(100))

print(x)

La somme de tous les nombres de probabilité devrait être 1.

Même si vous exécutez l'exemple ci-dessus 100 fois, la valeur 9 ne se produira jamais.

Vous pouvez renvoyer des tableaux de n'importe quelle forme et taille en spécifiant la forme dans le sizeparamètre.

Exemple

Même exemple que ci-dessus, mais renvoie un tableau 2D avec 3 lignes, chacune contenant 5 valeurs.

from numpy import random

x = random.choice([3, 5, 7, 9], p=[0.1, 0.3, 0.6, 0.0], size=(3, 5))

print(x)