Course Outline

 

Introductie:

  • Apache Spark in Hadoop Ecosysteem
  • Korte intro voor python, scala

Basis (theorie):

  • Architectuur
  • RDD
  • Transformatie en acties
  • Fase, taak, afhankelijkheden

Met behulp van Databricks omgeving begrijp je de basis (hands-on workshop):

  • Oefeningen met behulp van RDD API
  • Basisfuncties voor actie en transformatie
  • PairRDD
  • Verbinden
  • Strategieën voor caching
  • Oefeningen met behulp van de DataFrame-API
  • VonkSQL
  • DataFrame: selecteren, filteren, groeperen, sorteren
  • UDF (door de gebruiker gedefinieerde functie)
  • Kijken naar DataSet API
  • Streaming

Met behulp van AWS-omgeving inzicht in de implementatie (hands-on workshop):

  • Basisprincipes van AWS-lijm
  • Begrijp de verschillen tussen AWS EMR en AWS Glue
  • Voorbeeldtaken in beide omgevingen
  • Begrijp de voor- en nadelen

Extra:

  • Inleiding tot Apache Airflow orkestratie

Requirements

Programmeervaardigheden (bij voorkeur Python, Scala)

SQL basis

  21 Hours

Getuigenissen (3)

Related Courses

Related Categories