Data Scientist - les fondamentaux de la Data Science par PLB Consultant
Lieu(x)
En centre (92)
Durée
Total : 21 heures
En centre : 21 heures
Financement
Demandeur d’emploi
Prix
Nous contacter
Cette formation vous intéresse ?
Description générale
*** Jour 1.
* Introduction au Big Data.
Qu'est
- ce
- que le Big Data ?
L'écosystème technologique du Big Data.
* Introduction à la Data Science, le métier de Data Scientist.
Le vocabulaire d'un problème de Data Science.
De l'analyse statistique au machine learning.
Panorama des possibilités du machine learning.
* Modélisation d'un problème.
Input / ouput d'un problème de machine learning.
* Identifier les familles d'algorithmes de machine learning.
Analyse supervisée.
Analyse non supervisée.
Classification / régression.
* Régression linéaire.
Quelques rappels : fonction hypothèse, fonction convexe, optimisation.
La construction de la fonction de coût.
Méthode de minimisation : la descente de gradient.
* Régression logistique.
Frontière de décision.
La construction d'une fonction de coût convexe pour la classification.
* La boîte à outil du Data Scientist.
Introduction aux outils.
Introduction à Python, Pandas et Scikit
- learn.
*** Jour 2.
* Rappels et révisions du jour 1.
* Qu'est
- ce qu'un bon modèle ?
Cross
- validation.
Les métriques d'évaluation : precision, recall, ROC, MAPE, etc.
* Les pièges du machine learning.
Overfitting ou sur
- apprentissage.
Biais vs variance.
La régularisation : régression Ridge et Lasso.
* Data Cleaning.
Les types de données : catégorielles, continues, ordonnées, temporelles.
Détection des outliers statistiques, des valeurs aberrantes.
Stratégie pour les valeurs manquantes.
* Feature Engineering.
Stratégies pour les variables non continues.
Détecter et créer des variables discriminantes.
* Data visualisation.
La visualisation pour comprendre les données : histogramme, scatter plot, etc.
La visualisation pour comprendre les algorithmes : train / test loss, feature importance, etc.
* Introduction aux méthodes ensemblistes.
Le modèle de base : l'arbre de décision, ses avantages et ses limites.
Présentation des différentes stratégies ensemblistes : bagging, boosting, etc.
* Apprentissage semi
- supervisé.
Les grandes classes d'algorithmes non supervisées : clustering, PCA, etc.
*** Jour 3
* Rappels et révisions.
Synthèse des points abordés en journées 1 et 2.
Approfondissement des sujets sélectionnés avec l'intervenant.
* Mise en pratique.
Le dernier jour est entièrement consacré à des mises en pratique.
* Sélection et participation à une compétition.
Le formateur sélectionnera une compétition en cours sur Kaggle ou datascience.net qui sera démarrée en jour 3 par l'ensemble des participants.
* Introduction au Big Data.
Qu'est
- ce
- que le Big Data ?
L'écosystème technologique du Big Data.
* Introduction à la Data Science, le métier de Data Scientist.
Le vocabulaire d'un problème de Data Science.
De l'analyse statistique au machine learning.
Panorama des possibilités du machine learning.
* Modélisation d'un problème.
Input / ouput d'un problème de machine learning.
* Identifier les familles d'algorithmes de machine learning.
Analyse supervisée.
Analyse non supervisée.
Classification / régression.
* Régression linéaire.
Quelques rappels : fonction hypothèse, fonction convexe, optimisation.
La construction de la fonction de coût.
Méthode de minimisation : la descente de gradient.
* Régression logistique.
Frontière de décision.
La construction d'une fonction de coût convexe pour la classification.
* La boîte à outil du Data Scientist.
Introduction aux outils.
Introduction à Python, Pandas et Scikit
- learn.
*** Jour 2.
* Rappels et révisions du jour 1.
* Qu'est
- ce qu'un bon modèle ?
Cross
- validation.
Les métriques d'évaluation : precision, recall, ROC, MAPE, etc.
* Les pièges du machine learning.
Overfitting ou sur
- apprentissage.
Biais vs variance.
La régularisation : régression Ridge et Lasso.
* Data Cleaning.
Les types de données : catégorielles, continues, ordonnées, temporelles.
Détection des outliers statistiques, des valeurs aberrantes.
Stratégie pour les valeurs manquantes.
* Feature Engineering.
Stratégies pour les variables non continues.
Détecter et créer des variables discriminantes.
* Data visualisation.
La visualisation pour comprendre les données : histogramme, scatter plot, etc.
La visualisation pour comprendre les algorithmes : train / test loss, feature importance, etc.
* Introduction aux méthodes ensemblistes.
Le modèle de base : l'arbre de décision, ses avantages et ses limites.
Présentation des différentes stratégies ensemblistes : bagging, boosting, etc.
* Apprentissage semi
- supervisé.
Les grandes classes d'algorithmes non supervisées : clustering, PCA, etc.
*** Jour 3
* Rappels et révisions.
Synthèse des points abordés en journées 1 et 2.
Approfondissement des sujets sélectionnés avec l'intervenant.
* Mise en pratique.
Le dernier jour est entièrement consacré à des mises en pratique.
* Sélection et participation à une compétition.
Le formateur sélectionnera une compétition en cours sur Kaggle ou datascience.net qui sera démarrée en jour 3 par l'ensemble des participants.
Objectifs
Découvrir le métier de Data Scientist et les grandes familles de problèmes.
Savoir modéliser un problème de Data Science.
Créer vos premières variables.
Constituer votre boîte à outils de Data Scientist.
Participer à une première compétition.
Savoir modéliser un problème de Data Science.
Créer vos premières variables.
Constituer votre boîte à outils de Data Scientist.
Participer à une première compétition.
Centre(s)
- Levallois Perret (92)
Métier(s)
- Analyste en intelligence économique
- Analyste prix / pricing
- Assistant chargé / Assistante chargée d'études socio-économiques
- Attaché / Attachée d'études statistiques
- Chargé / Chargée d'études commerciales
- Chargé / Chargée d'études de marché
- Chargé / Chargée d'études en marketing
- Chargé / Chargée d'études financières
- Chargé / Chargée d'études prospectives
- Chargé / Chargée d'études satisfaction
- Chargé / Chargée d'études socio-économiques
- Chargé / Chargée d'études statistiques
- Chargé / Chargée d'études économiques
- Chargé / Chargée d'études économiques et sociales
- Chargé / Chargée d'études économiques et statistiques
- Chef de groupe études socio-économiques
- Chef de projet études socio-économiques
- Chef de service études socio-économiques
- Data analyst
- Data miner
- Data scientist
- Directeur / Directrice d'études socio-économiques
- Directeur / Directrice d'études économiques
- Ingénieur / Ingénieure économiste en entreprise
- Ingénieur statisticien / Ingénieure statisticienne
- Responsable d'études socio-économiques
- Responsable d'études économiques
- Responsable de veille stratégique
- Responsable prévision des ventes
- Statisticien / Statisticienne
- Économiste d'entreprise
- Économètre
Compétence(s)
- Algorithmique
- Aménagement du territoire
- Analyse financière
- Analyse statistique
- Big data analytics
- Développement économique
- Gestion budgétaire
- Gestion commerciale, relation clients
- Gestion de projet
- Gestion des Ressources Humaines
- Insights marketing
- Intelligence économique
- Langages de programmation informatique
- Logiciel de conception et analyse d'enquête
- Logiciels de gestion de base de données
- Logiciels de modélisation et simulation
- Logiciels de statistiques
- Management
- Marché de l'emploi
- Marketing / Mercatique
- Modélisation statistique
- Modélisation économique
- Méthodes d'enquête
- Méthodes de prospective
- Outils bureautiques
- Outils de Business Intelligence (BI)
- Sciences économiques et sociales
- Techniques commerciales
- Techniques de benchmarking
- Techniques de conduite d'entretien
- Techniques de mesure d'audience
- Techniques de sondage d'opinions
- Urbanisme
- Économie du développement durable
- Économétrie
Formation proposée par : PLB Consultant
À découvrir