Science des données - Variance des statistiques

Variance

La variance est un autre nombre qui indique à quel point les valeurs sont réparties.

En fait, si vous prenez la racine carrée de la variance, vous obtenez l'écart type. Ou à l'inverse, si vous multipliez l'écart-type par lui-même, vous obtenez la variance !

Nous utiliserons d'abord l'ensemble de données avec 10 observations pour donner un exemple de la façon dont nous pouvons calculer la variance :

Durée	Pouls_moyen	Max_Pulse	Calorie_burnage	Heures_travail	Heures_Sommeil
30	80	120	240	dix	sept
30	85	120	250	dix	sept
45	90	130	260	8	sept
45	95	130	270	8	sept
45	100	140	280	0	sept
60	105	140	290	sept	8
60	110	145	300	sept	8
60	115	145	310	8	8
75	120	150	320	0	8
75	125	150	330	8	8

La variance est souvent représentée par le symbole Sigma Square : σ^2

Étape 1 pour calculer la variance : trouver la moyenne

Nous voulons trouver la variance de Average_Pulse.

1. Trouvez la moyenne :

(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5

La moyenne est de 102,5

Étape 2 : Pour chaque valeur - Trouvez la différence par rapport à la moyenne

2. Trouvez la différence par rapport à la moyenne pour chaque valeur :

80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 = -7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 - 102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5

Étape 3 : Pour chaque différence - Trouver la valeur au carré

3. Trouvez la valeur au carré de chaque différence :

(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 = 56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25

Remarque : Nous devons mettre les valeurs au carré pour obtenir la propagation totale.

Étape 4 : La variance est le nombre moyen de ces valeurs au carré

4. Additionnez les valeurs au carré et trouvez la moyenne :

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25) / 10 = 206.25

L'écart est de 206,25.

Utilisez Python pour trouver la variance de health_data

Nous pouvons utiliser la var()fonction de Numpy pour trouver la variance (rappelez-vous que nous utilisons maintenant le premier ensemble de données avec 10 observations) :

Exemple

import numpy as np

var = np.var(health_data)
print(var)

Le résultat:

Utiliser Python pour trouver la variance de l'ensemble de données complet

Ici, nous calculons la variance pour chaque colonne pour l'ensemble de données complet :

Exemple

import numpy as np

var_full = np.var(full_health_data)
print(var_full)

Le résultat:

❮ Précédent Suivant ❯