Données IA

Jusqu'à 80% d'un projet d'Intelligence Artificielle porte sur la Collecte de Données :

  • Quelles sont les données requises ?
  • Quelles données sont disponibles ?
  • Comment sélectionner les données ?
  • Comment collecter les données ?
  • Comment nettoyer les données ?
  • Comment préparer les données ?
  • Comment utiliser les données ?

Qu'est-ce que les données ?

Les données peuvent être beaucoup de choses. Avec l'Intelligence Artificielle, il doit s'agir d'un ensemble de faits :

TaperExemples
NombresDes prix. Rendez-vous.
Des mesuresTaille. Hauteur. Poids.
MotsNoms et lieux.
ObservationsCompter les voitures.
DescriptionsIl fait froid.

L'intelligence a besoin de données

L'intelligence humaine a besoin de données :

Un courtier immobilier a besoin de données sur les maisons vendues pour estimer les prix.

L'intelligence artificielle a besoin de données :

Un programme informatique a également besoin de données pour estimer les prix.


Stocker des données

Les données les plus courantes à collecter sont les nombres et les mesures.

Souvent, les données sont stockées dans des tableaux représentant la relation entre les valeurs.

Ce tableau contient les prix des maisons par rapport à la taille :

Prixsept88999dix11141415
Taille5060708090100 110120130140150

Quantitatif vs Qualitatif

Les données quantitatives sont numériques :

  • 55 voitures
  • 15 mètres
  • 35 enfants

Les données qualitatives sont descriptives :

  • Il fait froid
  • C'est long
  • C'était amusant

Recensement ou échantillonnage

Un recensement consiste à collecter des données pour chaque membre d'un groupe.

Un échantillon est lorsque nous recueillons des données pour certains membres d'un groupe.

Si nous voulions savoir combien d'Américains fument des cigarettes, nous pourrions demander à chaque personne aux États-Unis (un recensement), ou nous pourrions demander à 10 000 personnes (un échantillon).

Un recensement est précis , mais difficile à faire. Un échantillon est inexact , mais il est plus facile à faire.


Conditions d'échantillonnage

Une population est un groupe d'individus (objets) dont nous voulons collecter des informations.

Un recensement est une information sur chaque individu d'une population.

Un échantillon est une information sur une partie de la population (afin de représenter tout).


Échantillons aléatoires

Pour qu'un échantillon soit représentatif d'une population, il doit être prélevé au hasard.

Un échantillon aléatoire est un échantillon où chaque membre de la population a une chance égale d'apparaître dans l'échantillon.


Biais d'échantillonnage

Un biais d'échantillonnage (erreur) se produit lorsque les échantillons sont collectés de telle manière que certaines personnes sont moins (ou plus) susceptibles d'être incluses dans l'échantillon.