Science des données - Corrélation statistique vs causalité


La corrélation n'implique pas la causalité

La corrélation mesure la relation numérique entre deux variables.

Un coefficient de corrélation élevé (proche de 1) ne signifie pas que l'on peut à coup sûr conclure à une relation réelle entre deux variables.

Un exemple classique :

  • Pendant l'été, la vente de glaces sur une plage augmente
  • Simultanément, les accidents de noyade augmentent également

Cela signifie-t-il que l'augmentation de la vente de glaces est une cause directe de l'augmentation des accidents de noyade ?


L'exemple de la plage en Python

Ici, nous avons construit un ensemble de données fictives que vous pouvez essayer :

Exemple

import pandas as pd
import matplotlib.pyplot as plt

Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale = [20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident": [20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale": [20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)

Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()

correlation_beach = Drowning.corr()
print(correlation_beach)

Sortir:

Corrélation vs Causalité

Corrélation vs Causalité - L'exemple de la plage

En d'autres termes : peut-on utiliser la vente de glaces pour prédire les accidents de noyade ?

La réponse est probablement non.

Il est probable que ces deux variables soient accidentellement corrélées l'une à l'autre.

Qu'est-ce qui cause la noyade alors ?

  • Nageurs non qualifiés
  • Vagues
  • Crampe
  • Troubles épileptiques
  • Manque de surveillance
  • Consommation (abusive) d'alcool
  • etc.

Inversons l'argument :

Un coefficient de corrélation faible (proche de zéro) signifie-t-il que le changement de x n'affecte pas y ?

Revenons à la question :

  • Pouvons-nous conclure que Average_Pulse n'affecte pas Calorie_Burnage en raison d'un faible coefficient de corrélation ?

La réponse est non.

Il existe une différence importante entre corrélation et causalité :

  • La corrélation est un nombre qui mesure à quel point les données sont liées
  • La causalité est la conclusion que x cause y.

Il est donc important d'avoir une réflexion critique sur le concept de causalité lorsque l'on fait des prédictions !