Données IA
Jusqu'à 80% d'un projet d'Intelligence Artificielle porte sur la Collecte de Données :
- Quelles sont les données requises ?
- Quelles données sont disponibles ?
- Comment sélectionner les données ?
- Comment collecter les données ?
- Comment nettoyer les données ?
- Comment préparer les données ?
- Comment utiliser les données ?
Qu'est-ce que les données ?
Les données peuvent être beaucoup de choses. Avec l'Intelligence Artificielle, il doit s'agir d'un ensemble de faits :
Taper | Exemples |
---|---|
Nombres | Des prix. Rendez-vous. |
Des mesures | Taille. Hauteur. Poids. |
Mots | Noms et lieux. |
Observations | Compter les voitures. |
Descriptions | Il fait froid. |
L'intelligence a besoin de données
L'intelligence humaine a besoin de données :
Un courtier immobilier a besoin de données sur les maisons vendues pour estimer les prix.
L'intelligence artificielle a besoin de données :
Un programme informatique a également besoin de données pour estimer les prix.
Stocker des données
Les données les plus courantes à collecter sont les nombres et les mesures.
Souvent, les données sont stockées dans des tableaux représentant la relation entre les valeurs.
Ce tableau contient les prix des maisons par rapport à la taille :
Prix | sept | 8 | 8 | 9 | 9 | 9 | dix | 11 | 14 | 14 | 15 |
Taille | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 |
Quantitatif vs Qualitatif
Les données quantitatives sont numériques :
- 55 voitures
- 15 mètres
- 35 enfants
Les données qualitatives sont descriptives :
- Il fait froid
- C'est long
- C'était amusant
Recensement ou échantillonnage
Un recensement consiste à collecter des données pour chaque membre d'un groupe.
Un échantillon est lorsque nous recueillons des données pour certains membres d'un groupe.
Si nous voulions savoir combien d'Américains fument des cigarettes, nous pourrions demander à chaque personne aux États-Unis (un recensement), ou nous pourrions demander à 10 000 personnes (un échantillon).
Un recensement est précis , mais difficile à faire. Un échantillon est inexact , mais il est plus facile à faire.
Conditions d'échantillonnage
Une population est un groupe d'individus (objets) dont nous voulons collecter des informations.
Un recensement est une information sur chaque individu d'une population.
Un échantillon est une information sur une partie de la population (afin de représenter tout).
Échantillons aléatoires
Pour qu'un échantillon soit représentatif d'une population, il doit être prélevé au hasard.
Un échantillon aléatoire est un échantillon où chaque membre de la population a une chance égale d'apparaître dans l'échantillon.
Biais d'échantillonnage
Un biais d'échantillonnage (erreur) se produit lorsque les échantillons sont collectés de telle manière que certaines personnes sont moins (ou plus) susceptibles d'être incluses dans l'échantillon.