Course Outline

    Scala primer Een korte introductie tot Scala Labs: Scala Spark Basics leren kennen Achtergrond en geschiedenis Spark en Hadoop Spark-concepten en -architectuur Spark eco-systeem (core, spark sql, mlib, streaming) Labs: Spark installeren en uitvoeren Eerste blik op Spark Running Spark in lokale modus Spark web UI Spark shell Dataset analyseren – deel 1 Inspecteren van RDDs Labs: Spark shell verkenning RDDs RDDs concepten Partities RDD Bewerkingen / transformaties RDD typen Sleutel-Waarde paar RDDs MapReduce op RDD Caching en persistentie Labs: RDDs maken en inspecteren; Caching RDD's Spark API-programmering Inleiding tot Spark API / RDD API Het eerste programma indienen bij Spark Debugging / loggen Configuratie-eigenschappen Labs: Programmeren in Spark API, taken indienen Spark SQL SQL ondersteuning in Spark Dataframes Tabellen definiëren en datasets importeren Gegevens opvragen frames met behulp van SQL Opslagformaten: JSON / Parquet Labs: dataframes maken en opvragen; gegevensformaten evalueren MLlib MLlib intro MLlib-algoritmen Labs: MLib-applicaties schrijven GraphX GraphX-bibliotheekoverzicht GraphX API's Labs: grafiekgegevens verwerken met Spark Spark Streaming Streaming-overzicht Streamingplatforms evalueren Streamingbewerkingen Schuifvensterbewerkingen Labs: Spark-streamingtoepassingen schrijven Spark en Hadoop Hadoop Intro ( HDFS / YARN) Hadoop + Spark-architectuur Spark uitvoeren op Hadoop YARN HDFS-bestanden verwerken met Spark Spark-prestaties en afstemming Broadcast-variabelen Accumulators Geheugenbeheer en caching Spark-bewerkingen Spark in productie implementeren Voorbeeldimplementatiesjablonen Configuraties Controle Problemen oplossen

Requirements

VOORWAARDEN

bekendheid met de taal Java / Scala / Python (onze labs in Scala en Python) basiskennis van de Linux-ontwikkelomgeving (opdrachtregelnavigatie / bestanden bewerken met VI of nano)

 21 Hours

Related Courses

Related Categories