Introduction à la science des données


La science des données est une combinaison de plusieurs disciplines qui utilise les statistiques, l'analyse des données et l'apprentissage automatique pour analyser les données et en extraire des connaissances et des idées.


Qu'est-ce que la science des données ?

La science des données concerne la collecte, l'analyse et la prise de décision de données.

La science des données consiste à trouver des modèles dans les données, grâce à l'analyse, et à faire des prévisions futures.

En utilisant la Data Science, les entreprises sont capables de faire :

  • De meilleures décisions (devrions-nous choisir A ou B)
  • Analyse prédictive (que se passera-t-il ensuite ?)
  • Découvertes de modèles (trouver un modèle, ou peut-être des informations cachées dans les données)

Où la science des données est-elle nécessaire ?

La science des données est aujourd'hui utilisée dans de nombreuses industries dans le monde, par exemple la banque, le conseil, la santé et la fabrication.

Exemples de cas où la science des données est nécessaire :

  • Pour la planification d'itinéraire : pour découvrir les meilleurs itinéraires pour expédier
  • Pour prévoir les retards de vol/navire/train, etc. (grâce à une analyse prédictive)
  • Pour créer des offres promotionnelles
  • Pour trouver le meilleur moment pour livrer les marchandises
  • Pour prévoir le chiffre d'affaires des prochaines années pour une entreprise
  • Analyser les bienfaits de la formation sur la santé
  • Pour prédire qui gagnera les élections

La science des données peut être appliquée dans presque toutes les parties d'une entreprise où les données sont disponibles. Les exemples sont :

  • Biens de consommation
  • Marchés boursiers
  • Industrie
  • Politique
  • Entreprises logistiques
  • Commerce électronique

Comment fonctionne un Data Scientist ?

Un Data Scientist nécessite une expertise dans plusieurs domaines :

  • Apprentissage automatique
  • Statistiques
  • Programmation (Python ou R)
  • Mathématiques
  • Bases de données

Un Data Scientist doit trouver des modèles dans les données. Avant de pouvoir trouver les modèles, il doit organiser les données dans un format standard.

Voici comment fonctionne un Data Scientist :

  1. Poser les bonnes questions - Pour comprendre la problématique métier.
  2. Explorer et collecter des données - À partir de la base de données, des journaux Web, des commentaires des clients, etc.
  3. Extraire les données - Transformez les données dans un format standardisé.
  4. Nettoyer les données - Supprimez les valeurs erronées des données.
  5. Rechercher et remplacer les valeurs manquantes - Vérifiez les valeurs manquantes et remplacez-les par une valeur appropriée (par exemple une valeur moyenne).
  6. Normaliser les données - Mettez les valeurs à l'échelle dans une plage pratique (par exemple, 140 cm est inférieur à 1,8 m. Cependant, le nombre 140 est supérieur à 1,8. - la mise à l'échelle est donc importante).
  7. Analysez les données, trouvez des modèles et faites des prévisions futures .
  8. Représenter le résultat - Présentez le résultat avec des informations utiles d'une manière que "l'entreprise" peut comprendre.

Où commencer?

Dans ce didacticiel, nous commencerons par présenter ce que sont les données et comment les données peuvent être analysées.

Vous apprendrez à utiliser les statistiques et les fonctions mathématiques pour faire des prédictions.