Grappes de données

  • Les clusters sont des collections de données similaires
  • Le clustering est un type d'apprentissage non supervisé
  • Le coefficient de corrélation décrit la force d'une relation.

Groupes

Les clusters sont des collections de données basées sur la similarité.

Les points de données regroupés dans un graphique peuvent souvent être classés en grappes.

Dans le graphique ci-dessous on peut distinguer 3 clusters différents :


Identification des clusters

Les clusters peuvent contenir de nombreuses informations précieuses, mais les clusters se présentent sous toutes sortes de formes, alors comment pouvons-nous les reconnaître ?

Les deux méthodes principales sont :

  • Utilisation de la visualisation
  • Utilisation d'un algorithme de clustering

Regroupement

Le clustering est un type d' apprentissage non supervisé .

Le clustering essaie de :

  • Collecter des données similaires en groupes
  • Recueillir des données dissemblables dans d'autres groupes

Méthodes de regroupement

  • Méthode de densité
  • Méthode hiérarchique
  • Méthode de partitionnement
  • Méthode basée sur la grille

La méthode de densité considère que les points d'une région dense ont plus de similitudes et de différences que les points d'une région moins dense. La méthode de densité a une bonne précision. Il a également la capacité de fusionner des clusters.
Deux algorithmes courants sont DBSCAN et OPTICS.

La Méthode Hiérarchique forme les clusters dans une structure arborescente. De nouveaux clusters sont formés à partir de clusters précédemment formés.
Deux algorithmes courants sont CURE et BIRCH.

La méthode basée sur la grille formule les données en un nombre fini de cellules qui forment une structure en forme de grille.
Deux algorithmes courants sont CLIQUE et STING

La méthode de partitionnement partitionne les objets en k clusters et chaque partition forme un cluster.
Un algorithme commun est CLARANS.


Coefficient de corrélation

Le coefficient de corrélation (r) décrit la force et la direction d'une relation linéaire et des variables x/y sur un nuage de points.

La valeur de r est toujours comprise entre -1 et +1 :

-1.00Descente parfaiteRelation linéaire négative.
-0,70Forte descenteRelation linéaire négative.
-0.50Descente modéréeRelation linéaire négative.
-0.30Descente faibleRelation linéaire négative.
0Pas de relation linéaire.
+0,30Faible montéeRelation linéaire positive.
+0,50Montée modéréeRelation linéaire positive.
+0,70Forte montéeRelation linéaire positive.
+1.00Montée parfaiteRelation linéaire positive.

Perfect Uphill +1.00 :

Descente Parfaite -1.00 :

'

Forte montée +0.61 :

Aucune relation :