Spark avec Python par Stat4decision
Lieu(x)
En centre (75)
Durée
Total : 14 heures
En centre : 14 heures
Financement
Demandeur d’emploi
Salarié
Prix
Nous contacter
Cette formation vous intéresse ?
Description générale
Première partie : Rappels sur Python et la manipulation des données :
Deuxième partie : Introduction à l'environnement Big Data et à Spark :
Pour qui ? Pour quoi faire ? Comment ?
Comment installer Apache Spark.
Pyspark un package Python pour gérer votre environnement Apache Spark.
Quelle infrastructure pour utiliser Spark en entreprise ?
Les principes de l'environnement : RDD, DataFrame, DataSet...
Troisième partie : Installation de Spark :
Sur une infrastructure distribuée.
En local.
En cloud (exemples avec Amazon AWS et Microsoft Azure).
Quatrième partie : Spark pour la manipulation des données :
Utilisation de SparkSQL et des DataFrames pour manipuler des données.
Charger des données depuis Hadoop, depuis des fihiers csv...
Transformer des données (création de DataFrames, ajout de colonnes, filtres...).
Cas pratiques de chargement et de modifications de données avec Spark et PySpark.
Cinquième partie : L'utilisation de spark.ml pour le machine learning :
Apprentissage supervisé : Forêts aléatoires avec Spark.
Mise en place d'un outil de recommandation.
Traitement de données textuelles.
Automatiser vos analyses avec des pipelines.
Sixième partie : Introduction et utilisation de Spark Streaming avec PySpark.
Deuxième partie : Introduction à l'environnement Big Data et à Spark :
Pour qui ? Pour quoi faire ? Comment ?
Comment installer Apache Spark.
Pyspark un package Python pour gérer votre environnement Apache Spark.
Quelle infrastructure pour utiliser Spark en entreprise ?
Les principes de l'environnement : RDD, DataFrame, DataSet...
Troisième partie : Installation de Spark :
Sur une infrastructure distribuée.
En local.
En cloud (exemples avec Amazon AWS et Microsoft Azure).
Quatrième partie : Spark pour la manipulation des données :
Utilisation de SparkSQL et des DataFrames pour manipuler des données.
Charger des données depuis Hadoop, depuis des fihiers csv...
Transformer des données (création de DataFrames, ajout de colonnes, filtres...).
Cas pratiques de chargement et de modifications de données avec Spark et PySpark.
Cinquième partie : L'utilisation de spark.ml pour le machine learning :
Apprentissage supervisé : Forêts aléatoires avec Spark.
Mise en place d'un outil de recommandation.
Traitement de données textuelles.
Automatiser vos analyses avec des pipelines.
Sixième partie : Introduction et utilisation de Spark Streaming avec PySpark.
Objectifs
Comprendre l'environnement Apache Spark
Savoir utiliser le package PySpark pour communiquer avec Spark
Maîtriser l'utilisation de Spark SQL
Maîtriser l'utilisation de Spark.ml
Savoir utiliser le package PySpark pour communiquer avec Spark
Maîtriser l'utilisation de Spark SQL
Maîtriser l'utilisation de Spark.ml
Centre(s)
- Paris - 12ème (75)
Secteur(s)
Formation proposée par : Stat4decision
À découvrir