Grappes de données

Les clusters sont des collections de données similaires
Le clustering est un type d'apprentissage non supervisé
Le coefficient de corrélation décrit la force d'une relation.

Groupes

Les clusters sont des collections de données basées sur la similarité.

Les points de données regroupés dans un graphique peuvent souvent être classés en grappes.

Dans le graphique ci-dessous on peut distinguer 3 clusters différents :

Identification des clusters

Les clusters peuvent contenir de nombreuses informations précieuses, mais les clusters se présentent sous toutes sortes de formes, alors comment pouvons-nous les reconnaître ?

Les deux méthodes principales sont :

Utilisation de la visualisation
Utilisation d'un algorithme de clustering

Regroupement

Le clustering est un type d' apprentissage non supervisé .

Le clustering essaie de :

Collecter des données similaires en groupes
Recueillir des données dissemblables dans d'autres groupes

Méthodes de regroupement

Méthode de densité
Méthode hiérarchique
Méthode de partitionnement
Méthode basée sur la grille

La méthode de densité considère que les points d'une région dense ont plus de similitudes et de différences que les points d'une région moins dense. La méthode de densité a une bonne précision. Il a également la capacité de fusionner des clusters.
Deux algorithmes courants sont DBSCAN et OPTICS.

La Méthode Hiérarchique forme les clusters dans une structure arborescente. De nouveaux clusters sont formés à partir de clusters précédemment formés.
Deux algorithmes courants sont CURE et BIRCH.

La méthode basée sur la grille formule les données en un nombre fini de cellules qui forment une structure en forme de grille.
Deux algorithmes courants sont CLIQUE et STING

La méthode de partitionnement partitionne les objets en k clusters et chaque partition forme un cluster.
Un algorithme commun est CLARANS.

Coefficient de corrélation

Le coefficient de corrélation (r) décrit la force et la direction d'une relation linéaire et des variables x/y sur un nuage de points.

La valeur de r est toujours comprise entre -1 et +1 :

-1.00	Descente parfaite	Relation linéaire négative.
-0,70	Forte descente	Relation linéaire négative.
-0.50	Descente modérée	Relation linéaire négative.
-0.30	Descente faible	Relation linéaire négative.
0		Pas de relation linéaire.
+0,30	Faible montée	Relation linéaire positive.
+0,50	Montée modérée	Relation linéaire positive.
+0,70	Forte montée	Relation linéaire positive.
+1.00	Montée parfaite	Relation linéaire positive.

Perfect Uphill +1.00 :

Descente Parfaite -1.00 :

Forte montée +0.61 :

Aucune relation :

❮ Précédent Suivant ❯

Intelligence artificielle

Mathématiques

Statistiques

Graphique

AI Sciences

Apprentissage automatique

TensorFlow

Exemple 1