CONTACT ONS

Cursusaanbod

PySpark & Machine Learning 

Module 1: Big Data & Spark-Grondslagen

  • Overzicht van het Big Data-ecosysteem en de rol van Spark in moderne dataplatforms
  • Begrip van de Spark-architectuur: driver, executors, clusterbeheerder, lazy evaluation, DAG en uitvoeringsplanning
  • Verschillen tussen RDD- en DataFrame-API's en wanneer welke aanpak het beste te gebruiken
  • Het creëren en configureren van een SparkSession en het begrijpen van de fundamenten van applicatieconfiguratie

Module 2: PySpark DataFrames

  • Data lezen van en schrijven naar enterprise-bronnen en formaten (CSV, JSON, Parquet, Delta)
  • Werken met PySpark DataFrames: transformaties, acties, kolomexpressies, filtering, joins en aggregaties
  • Implementeren van geavanceerde operaties zoals window-functies, omgaan met tijdstempels en werken met geneste data
  • Toepassen van kwaliteitscontroles voor data en het schrijven van herbruikbare, onderhoudbare PySpark-code

Module 3: Efficiënt Verwerken van Grote Datasets

  • Begrip van prestatiegrondslagen: partitie-strategieën, shuffle-gedrag, caching en persistentie
  • Toepassen van optimalisatietechnieken zoals broadcast joins en analyse van uitvoeringsplannen
  • Efficiënte verwerking van grote datasets en beste praktijken voor schaalbare data-werkstromen
  • Begrip van schema-evolutie en moderne opslagformaten die in enterprise-omgevingen worden gebruikt

Module 4: Feature Engineering op Schaal

  • Feature engineering uitvoeren met Spark MLlib: omgaan met ontbrekende waarden, coderen van categorische variabelen en feature-schaalvergroting
  • Herbruikbare voorverwerkingsstappen ontwerpen en datasets voorbereiden voor Machine Learning-pijplijnen
  • Inleiding tot feature-selectie en omgaan met onbalans in datasets

Module 5: Machine Learning met Spark MLlib

  • Begrip van de MLlib-architectuur en het Estimator/Transformer-patroon
  • Trainen van regressie- en classificatiemodellen op schaal (Linear Regression, Logistic Regression, Decision Trees, Random Forest)
  • Modellen vergelijken en resultaten interpreteren in gedistribueerde Machine Learning-werkstromen

Module 6: End-to-End ML-Pijplijnen

  • End-to-end Machine Learning-pijplijnen bouwen door voorverwerking, feature engineering en modellering te combineren
  • Toepassen van train/validatie/test-split-strategieën
  • Uitvoeren van cross-validatie en hyperparameter-tuning met behulp van grid search en random search
  • Reproduceerbare Machine Learning-experimenten structureren

Module 7: Model Evaluatie & Praktische ML-besluitvorming

  • Toepassen van geschikte evaluatiemetrieken voor regressie- en classificatieproblemen
  • Overfitting en underfitting identificeren en praktische beslissingen nemen bij modelselectie
  • Feature-belang interpreteren en modelgedrag begrijpen

Module 8: Productie & Enterprise-praktijken

  • Modellen in Spark opslaan en laden
  • Batch-inferentiewerkstromen implementeren op grote datasets
  • Begrip van de Machine Learning-lifecycle in enterprise-omgevingen
  • Inleiding tot versiebeheer, experimenttracking en basis teststrategieën

 

Praktisch Resultaat

  • Vermogen om zelfstandig met PySpark te werken
  • Vermogen om grote datasets efficiënt te verwerken
  • Vermogen om feature engineering op schaal uit te voeren
  • Vermogen om schaalbare Machine Learning-pijplijnen te bouwen

Vereisten

Deelnemers dienen over de volgende achtergrondkennis te beschikken:

Basiskennis van Python-programmering, inclusief werken met functies, datastructuren en bibliotheken
Fundamenteel begrip van datanalyseconcepten zoals datasets, transformaties en aggregaties
Basiskennis van SQL en relationele dataconcepten
Inleidende kennis van Machine Learning-concepten zoals trainingsdatasets, features en evaluatiemetrieken
Bekendheid met commandline-omgevingen en basispraktijken voor softwareontwikkeling is aanbevolen

Ervaring met Pandas, NumPy of vergelijkbare dataverwerkingsbibliotheken is nuttig, maar niet verplicht.

 21 Uren

Aangepaste bedrijfsopleiding

Opleidingsoplossingen ontworpen exclusief voor bedrijven.

  • Aangepaste inhoud: We passen de syllabus en praktijkopdrachten aan naar de echte doelen en behoeften van uw project.
  • Voor flexibel schema: Datums en tijden aangepast aan het rooster van uw team.
  • Formaat: Online (live), In-company (bij uw kantoren) of Hybride.
Investering

Prijs per privégroep, online live training, startend vanaf 4800 € + BTW*

Neem contact met ons op voor een exacte offerte en om onze laatste promoties te horen

Reviews (1)

Voorlopige Aankomende Cursussen

Gerelateerde categorieën