Distribution Zipf


Les distributions Zipf sont utilisées pour échantillonner des données basées sur la loi de zipf.

Loi de Zipf : Dans une collection, le nième terme commun est 1/n fois le terme le plus commun. Par exemple, le 5e mot courant en anglais apparaît près de 1/5e fois comme mot le plus utilisé.

Il a deux paramètres :

a - paramètre de distribution.

size - La forme du tableau retourné.

Exemple

Dessinez un échantillon pour la distribution zipf avec le paramètre de distribution 2 avec une taille de 2x3 :

from numpy import random

x = random.zipf(a=2, size=(2, 3))

print(x)

Visualisation de Zipf Distribution

Échantillonnez 1000 points mais tracez seulement ceux avec une valeur < 10 pour un graphique plus significatif.

Exemple

from numpy import random
import matplotlib.pyplot as plt
import seaborn as sns

x = random.zipf(a=2, size=1000)
sns.distplot(x[x<10], kde=False)

plt.show()

Résultat