PySpark en Machine Learning Training Cursus

Deze training biedt een praktische introductie tot het opzetten van schaalbare dataprocessen en Machine Learning-werkstromen met PySpark. Deelnemers leren hoe Apache Spark functioneert binnen moderne Big Data-ecosystemen en hoe ze grote datasets efficiënt kunnen verwerken met behulp van principes van gedistribueerde computing.

De cursus begint met de architectuur van Spark en DataFrame-operaties en bouwt geleidelijk op tot geavanceerde onderwerpen zoals feature engineering, het trainen van Machine Learning-modellen en het bouwen van end-to-end ML-pijplijnen met Spark MLlib. Deelnemers verkennen ook optimalisatietechnieken voor prestaties, strategieën voor modelevaluatie en enterprise-achtige praktijken voor het implementeren van Machine Learning-werkstromen op grote schaal.

Aan de hand van praktische oefeningen en scenario's uit de echte wereld leren deelnemers hoe ze efficiënte datapijplijnen kunnen ontwerpen, datasets kunnen voorbereiden voor Machine Learning en gedistribueerde ML-modellen kunnen bouwen die grote hoeveelheden data kunnen verwerken, zoals die vaak voorkomen in enterprise-omgevingen.

Aan het einde van de training begrijpen deelnemers hoe ze PySpark kunnen integreren in moderne dataplatforms en schaalbare Machine Learning-technieken kunnen toepassen in productiegerichte omgevingen.

Bedankt voor uw aanvraag! Een van onze medewerkers neemt binnenkort contact met u op

Bedankt voor uw boeking! Een van onze medewerkers neemt binnenkort contact met u op.

Cursusaanbod

PySpark & Machine Learning

Module 1: Big Data & Spark-Grondslagen

Overzicht van het Big Data-ecosysteem en de rol van Spark in moderne dataplatforms
Begrip van de Spark-architectuur: driver, executors, clusterbeheerder, lazy evaluation, DAG en uitvoeringsplanning
Verschillen tussen RDD- en DataFrame-API's en wanneer welke aanpak het beste te gebruiken
Het creëren en configureren van een SparkSession en het begrijpen van de fundamenten van applicatieconfiguratie

Module 2: PySpark DataFrames

Data lezen van en schrijven naar enterprise-bronnen en formaten (CSV, JSON, Parquet, Delta)
Werken met PySpark DataFrames: transformaties, acties, kolomexpressies, filtering, joins en aggregaties
Implementeren van geavanceerde operaties zoals window-functies, omgaan met tijdstempels en werken met geneste data
Toepassen van kwaliteitscontroles voor data en het schrijven van herbruikbare, onderhoudbare PySpark-code

Module 3: Efficiënt Verwerken van Grote Datasets

Begrip van prestatiegrondslagen: partitie-strategieën, shuffle-gedrag, caching en persistentie
Toepassen van optimalisatietechnieken zoals broadcast joins en analyse van uitvoeringsplannen
Efficiënte verwerking van grote datasets en beste praktijken voor schaalbare data-werkstromen
Begrip van schema-evolutie en moderne opslagformaten die in enterprise-omgevingen worden gebruikt

Module 4: Feature Engineering op Schaal

Feature engineering uitvoeren met Spark MLlib: omgaan met ontbrekende waarden, coderen van categorische variabelen en feature-schaalvergroting
Herbruikbare voorverwerkingsstappen ontwerpen en datasets voorbereiden voor Machine Learning-pijplijnen
Inleiding tot feature-selectie en omgaan met onbalans in datasets

Module 5: Machine Learning met Spark MLlib

Begrip van de MLlib-architectuur en het Estimator/Transformer-patroon
Trainen van regressie- en classificatiemodellen op schaal (Linear Regression, Logistic Regression, Decision Trees, Random Forest)
Modellen vergelijken en resultaten interpreteren in gedistribueerde Machine Learning-werkstromen

Module 6: End-to-End ML-Pijplijnen

End-to-end Machine Learning-pijplijnen bouwen door voorverwerking, feature engineering en modellering te combineren
Toepassen van train/validatie/test-split-strategieën
Uitvoeren van cross-validatie en hyperparameter-tuning met behulp van grid search en random search
Reproduceerbare Machine Learning-experimenten structureren

Module 7: Model Evaluatie & Praktische ML-besluitvorming

Toepassen van geschikte evaluatiemetrieken voor regressie- en classificatieproblemen
Overfitting en underfitting identificeren en praktische beslissingen nemen bij modelselectie
Feature-belang interpreteren en modelgedrag begrijpen

Module 8: Productie & Enterprise-praktijken

Modellen in Spark opslaan en laden
Batch-inferentiewerkstromen implementeren op grote datasets
Begrip van de Machine Learning-lifecycle in enterprise-omgevingen
Inleiding tot versiebeheer, experimenttracking en basis teststrategieën

Praktisch Resultaat

Vermogen om zelfstandig met PySpark te werken
Vermogen om grote datasets efficiënt te verwerken
Vermogen om feature engineering op schaal uit te voeren
Vermogen om schaalbare Machine Learning-pijplijnen te bouwen

Vereisten

Deelnemers dienen over de volgende achtergrondkennis te beschikken:

Basiskennis van Python-programmering, inclusief werken met functies, datastructuren en bibliotheken
Fundamenteel begrip van datanalyseconcepten zoals datasets, transformaties en aggregaties
Basiskennis van SQL en relationele dataconcepten
Inleidende kennis van Machine Learning-concepten zoals trainingsdatasets, features en evaluatiemetrieken
Bekendheid met commandline-omgevingen en basispraktijken voor softwareontwikkeling is aanbevolen

Ervaring met Pandas, NumPy of vergelijkbare dataverwerkingsbibliotheken is nuttig, maar niet verplicht.

21 Uren

Aangepaste bedrijfsopleiding

Opleidingsoplossingen ontworpen exclusief voor bedrijven.

Aangepaste inhoud: We passen de syllabus en praktijkopdrachten aan naar de echte doelen en behoeften van uw project.
Voor flexibel schema: Datums en tijden aangepast aan het rooster van uw team.
Formaat: Online (live), In-company (bij uw kantoren) of Hybride.

Investering

Prijs per privégroep, online live training, startend vanaf 4800 € + BTW*

Neem contact met ons op voor een exacte offerte en om onze laatste promoties te horen

(*De eindprijs kan variëren afhankelijk van de technische specialisatie van het cursus, het aangepaste niveau, de methode van levering en het aantal leerlingen)

Hulp nodig bij het kiezen van de juiste cursus?
opleidingen@nobleprog.com of +31 208 080 666

Reviews (1)

Ik vond het fijn dat het praktisch was. Ik hield ervan om de theoretische kennis toe te passen met praktijkvoorbeelden.

PySpark en Machine Learning Training Cursus

Cursusaanbod

Vereisten

Aangepaste bedrijfsopleiding

Reviews (1)

Aurelia-Adriana - Allianz Services Romania

Cursus - Python and Spark for Big Data (PySpark)

Voorlopige Aankomende Cursussen

PySpark en Machine Learning

PySpark en Machine Learning

PySpark en Machine Learning

PySpark en Machine Learning

PySpark en Machine Learning

PySpark en Machine Learning

Gerelateerde categorieën

Deze site in andere landen/regio's

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

PySpark en Machine Learning Training Cursus

Cursusaanbod

Vereisten

Aangepaste bedrijfsopleiding

Reviews (1)

Aurelia-Adriana - Allianz Services Romania

Cursus - Python and Spark for Big Data (PySpark)

Voorlopige Aankomende Cursussen

PySpark en Machine Learning

PySpark en Machine Learning

PySpark en Machine Learning

PySpark en Machine Learning

PySpark en Machine Learning

PySpark en Machine Learning

Gerelateerde cursussen

Python en Spark voor Big Data (PySpark)

Stratio: Rocket en Intelligence Modules met PySpark

Gerelateerde categorieën

PySpark

Deze site in andere landen/regio's

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites