Data Scientist - les fondamentaux de la Data Science par PLB Consultant

Lieu(x)
En centre (92)
Durée
Total : 21 heures
En centre : 21 heures
Financement
Demandeur d’emploi
Prix
Nous contacter
Cette formation vous intéresse ?
Description générale
*** Jour 1.
* Introduction au Big Data.
Qu'est
- ce
- que le Big Data ?
L'écosystème technologique du Big Data.
* Introduction à la Data Science, le métier de Data Scientist.
Le vocabulaire d'un problème de Data Science.
De l'analyse statistique au machine learning.
Panorama des possibilités du machine learning.
* Modélisation d'un problème.
Input / ouput d'un problème de machine learning.
* Identifier les familles d'algorithmes de machine learning.
Analyse supervisée.
Analyse non supervisée.
Classification / régression.
* Régression linéaire.
Quelques rappels : fonction hypothèse, fonction convexe, optimisation.
La construction de la fonction de coût.
Méthode de minimisation : la descente de gradient.
* Régression logistique.
Frontière de décision.
La construction d'une fonction de coût convexe pour la classification.
* La boîte à outil du Data Scientist.
Introduction aux outils.
Introduction à Python, Pandas et Scikit
- learn.
*** Jour 2.
* Rappels et révisions du jour 1.
* Qu'est
- ce qu'un bon modèle ?
Cross
- validation.
Les métriques d'évaluation : precision, recall, ROC, MAPE, etc.
* Les pièges du machine learning.
Overfitting ou sur
- apprentissage.
Biais vs variance.
La régularisation : régression Ridge et Lasso.
* Data Cleaning.
Les types de données : catégorielles, continues, ordonnées, temporelles.
Détection des outliers statistiques, des valeurs aberrantes.
Stratégie pour les valeurs manquantes.
* Feature Engineering.
Stratégies pour les variables non continues.
Détecter et créer des variables discriminantes.
* Data visualisation.
La visualisation pour comprendre les données : histogramme, scatter plot, etc.
La visualisation pour comprendre les algorithmes : train / test loss, feature importance, etc.
* Introduction aux méthodes ensemblistes.
Le modèle de base : l'arbre de décision, ses avantages et ses limites.
Présentation des différentes stratégies ensemblistes : bagging, boosting, etc.
* Apprentissage semi
- supervisé.
Les grandes classes d'algorithmes non supervisées : clustering, PCA, etc.
*** Jour 3
* Rappels et révisions.
Synthèse des points abordés en journées 1 et 2.
Approfondissement des sujets sélectionnés avec l'intervenant.
* Mise en pratique.
Le dernier jour est entièrement consacré à des mises en pratique.
* Sélection et participation à une compétition.
Le formateur sélectionnera une compétition en cours sur Kaggle ou datascience.net qui sera démarrée en jour 3 par l'ensemble des participants.
Objectifs
Découvrir le métier de Data Scientist et les grandes familles de problèmes.
Savoir modéliser un problème de Data Science.
Créer vos premières variables.
Constituer votre boîte à outils de Data Scientist.
Participer à une première compétition.
Centre(s)
  • Levallois Perret (92)
Formation proposée par : PLB Consultant
À découvrir
Data Scientist par OpenClassrooms
Data scientist par OpenClassrooms
Data scientist par OpenClassrooms
DU Data scientist par Ecole Universitaire de physique et d'ingénierie
Data Scientist par OpenClassrooms
Le Wagon Lille
Data Analyst par Le Wagon Lille
Fondamentaux des data sciences par Jedha
Fondamentaux en Data Science par Jedha
Comprendre les défis du big data - les fondamentaux du big data et de la data science par Stat4decision
Fondamentaux et maîtrise des data sciences par Jedha