Spark avec Python par Stat4decision

Lieu(x)

En centre (75)

Durée

Total : 14 heures

En centre : 14 heures

Financement

Demandeur d’emploi

Salarié

Prix

Nous contacter

Cette formation vous intéresse ?

Description générale

Première partie : Rappels sur Python et la manipulation des données :
Deuxième partie : Introduction à l'environnement Big Data et à Spark :
Pour qui ? Pour quoi faire ? Comment ?
Comment installer Apache Spark.
Pyspark un package Python pour gérer votre environnement Apache Spark.
Quelle infrastructure pour utiliser Spark en entreprise ?
Les principes de l'environnement : RDD, DataFrame, DataSet...
Troisième partie : Installation de Spark :
Sur une infrastructure distribuée.
En local.
En cloud (exemples avec Amazon AWS et Microsoft Azure).
Quatrième partie : Spark pour la manipulation des données :
Utilisation de SparkSQL et des DataFrames pour manipuler des données.
Charger des données depuis Hadoop, depuis des fihiers csv...
Transformer des données (création de DataFrames, ajout de colonnes, filtres...).
Cas pratiques de chargement et de modifications de données avec Spark et PySpark.
Cinquième partie : L'utilisation de spark.ml pour le machine learning :
Apprentissage supervisé : Forêts aléatoires avec Spark.
Mise en place d'un outil de recommandation.
Traitement de données textuelles.
Automatiser vos analyses avec des pipelines.
Sixième partie : Introduction et utilisation de Spark Streaming avec PySpark.

Objectifs

Comprendre l'environnement Apache Spark
Savoir utiliser le package PySpark pour communiquer avec Spark
Maîtriser l'utilisation de Spark SQL
Maîtriser l'utilisation de Spark.ml

Centre(s)