Spark for Developers Training Cursus
DOELSTELLING:
Deze cursus introduceert Apache Spark . De studenten leren hoe Spark past in het Big Data ecosysteem en hoe Spark gebruikt kan worden voor data-analyse. De cursus behandelt Spark shell voor interactieve gegevensanalyse, Spark internals, Spark API's, Spark SQL , Spark streaming en machine learning en graphX.
PUBLIEK :
Ontwikkelaars / gegevensanalisten
Cursusaanbod
- Scala primer Een korte introductie tot Scala Labs: Scala Spark Basics leren kennen Achtergrond en geschiedenis Spark en Hadoop Spark-concepten en -architectuur Spark eco-systeem (core, spark sql, mlib, streaming) Labs: Spark installeren en uitvoeren Eerste blik op Spark Running Spark in lokale modus Spark web UI Spark shell Dataset analyseren – deel 1 Inspecteren van RDDs Labs: Spark shell verkenning RDDs RDDs concepten Partities RDD Bewerkingen / transformaties RDD typen Sleutel-Waarde paar RDDs MapReduce op RDD Caching en persistentie Labs: RDDs maken en inspecteren; Caching RDD's Spark API-programmering Inleiding tot Spark API / RDD API Het eerste programma indienen bij Spark Debugging / loggen Configuratie-eigenschappen Labs: Programmeren in Spark API, taken indienen Spark SQL SQL ondersteuning in Spark Dataframes Tabellen definiëren en datasets importeren Gegevens opvragen frames met behulp van SQL Opslagformaten: JSON / Parquet Labs: dataframes maken en opvragen; gegevensformaten evalueren MLlib MLlib intro MLlib-algoritmen Labs: MLib-applicaties schrijven GraphX GraphX-bibliotheekoverzicht GraphX API's Labs: grafiekgegevens verwerken met Spark Spark Streaming Streaming-overzicht Streamingplatforms evalueren Streamingbewerkingen Schuifvensterbewerkingen Labs: Spark-streamingtoepassingen schrijven Spark en Hadoop Hadoop Intro ( HDFS / YARN) Hadoop + Spark-architectuur Spark uitvoeren op Hadoop YARN HDFS-bestanden verwerken met Spark Spark-prestaties en afstemming Broadcast-variabelen Accumulators Geheugenbeheer en caching Spark-bewerkingen Spark in productie implementeren Voorbeeldimplementatiesjablonen Configuraties Controle Problemen oplossen
Vereisten
VOORWAARDEN
bekendheid met de taal Java / Scala / Python (onze labs in Scala en Python) basiskennis van de Linux-ontwikkelomgeving (opdrachtregelnavigatie / bestanden bewerken met VI of nano)
Leveringsopties
PRIVÉGROEPSTRAINING
Onze identiteit draait om het leveren van precies wat onze klanten nodig hebben.
- Pre-cursusgesprek met uw trainer
- Aanpassing van de leerervaring om uw doelen te bereiken -
- Op maat gemaakte overzichten
- Praktische, praktische oefeningen met gegevens / scenario's die herkenbaar zijn voor de cursisten
- Training gepland op een datum naar keuze
- Gegeven online, op locatie/klaslokaal of hybride door experts die ervaring uit de echte wereld delen
Private Group Prices RRP from €6840 online delivery, based on a group of 2 delegates, €2160 per additional delegate (excludes any certification / exam costs). We recommend a maximum group size of 12 for most learning events.
Neem contact met ons op voor een exacte offerte en om onze laatste promoties te horen
OPENBARE TRAINING
Kijk op onze public courses
Hulp nodig bij het kiezen van de juiste cursus?
Spark for Developers Training Cursus - Enquiry
Spark for Developers - Consultancyaanvraag
Consultancyaanvraag
Reviews (6)
Doing similar exercises different ways really help understanding what each component (Hadoop/Spark, standalone/cluster) can do on its own and together. It gave me ideas on how I should test my application on my local machine when I develop vs when it is deployed on a cluster.
Thomas Carcaud - IT Frankfurt GmbH
Cursus - Spark for Developers
Ajay was very friendly, helpful and also knowledgable about the topic he was discussing.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Cursus - Spark for Developers
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Cursus - Spark for Developers
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Cursus - Spark for Developers
We know a lot more about the whole environment.
John Kidd
Cursus - Spark for Developers
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Cursus - Spark for Developers
Voorlopige Aankomende Cursussen
Gerelateerde cursussen
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 UrenDeze cursus is bedoeld voor ontwikkelaars en datawetenschappers die AI willen begrijpen en implementeren in hun toepassingen. Er wordt speciale aandacht besteed aan data-analyse, gedistribueerde kunstmatige intelligentie en natuurlijke taalverwerking.
Big Data Analytics with Google Colab and Apache Spark
14 UrenDeze live training onder leiding van een instructeur in Nederland (online of ter plaatse) is bedoeld voor datawetenschappers en -ingenieurs van gemiddeld niveau die Google Colab en Apache Spark willen gebruiken voor de verwerking en analyse van big data.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet een big data-omgeving op met behulp van Google Colab en Spark.
- Verwerk en analyseer grote datasets efficiënt met Apache Spark.
- Visualiseer big data in een samenwerkingsomgeving.
- Integreer Apache Spark met cloudgebaseerde tools.
Big Data Analytics in Health
21 UrenBig data-analyse omvat het proces van het onderzoeken van grote hoeveelheden gevarieerde gegevenssets om correlaties, verborgen patronen en andere nuttige inzichten te ontdekken.
De gezondheidsindustrie heeft enorme hoeveelheden complexe heterogene medische en klinische gegevens. Het toepassen van big data-analyses op gezondheidsgegevens biedt een enorm potentieel voor het verkrijgen van inzichten voor het verbeteren van de gezondheidszorg. De enorme omvang van deze datasets vormt echter grote uitdagingen bij analyses en praktische toepassingen in een klinische omgeving.
In deze door een instructeur geleide, live training (op afstand), leren deelnemers hoe ze big data-analyses in gezondheid kunnen uitvoeren terwijl ze een reeks praktische live-laboefeningen doorlopen.
Aan het einde van deze training kunnen deelnemers:
- Installeer en configureer big data-analysehulpmiddelen zoals Hadoop MapReduce en Spark
- Begrijp de kenmerken van medische gegevens
- Pas big data-technieken toe om met medische gegevens om te gaan
- Bestudeer big data-systemen en algoritmen in het kader van gezondheidstoepassingen
Publiek
- ontwikkelaars
- Data Scientists
Indeling van de cursus
- Deelcollege, deelbespreking, oefeningen en zware praktijkoefeningen.
Notitie
- Neem contact met ons op om een aangepaste training voor deze cursus aan te vragen.
Introduction to Graph Computing
28 UrenIn deze door een instructeur geleide, live training in Nederland, leren deelnemers over het technologieaanbod en de implementatiebenaderingen voor het verwerken van grafiekgegevens. Het doel is om objecten uit de echte wereld, hun kenmerken en relaties te identificeren, deze relaties vervolgens te modelleren en ze als gegevens te verwerken met behulp van een Graph Computing (ook bekend als Graph Analytics) benadering. We beginnen met een breed overzicht en beperken ons tot specifieke tools terwijl we een reeks casestudy's, hands-on oefeningen en live implementaties doorlopen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Begrijp hoe grafiekgegevens worden bewaard en doorkruist.
- Selecteer het beste framework voor een bepaalde taak (van graph databases tot batch processing frameworks).
- Implementeer Hadoop, Spark, GraphX en Pregel om grafiekberekeningen op veel machines parallel uit te voeren.
- Bekijk real-world big data-problemen in termen van grafieken, processen en traversals.
Hadoop and Spark for Administrators
35 UrenDeze instructeur-geleide, live training in Nederland (op locatie of op afstand) is gericht op systeembeheerders die willen leren hoe ze clusters binnen hun organisatie kunnen opzetten, implementeren en beheren.
Aan het einde van deze training kunnen deelnemers:
- Installeer en configureer Apache Hadoop.
- Begrijp de vier belangrijkste componenten in het Hadoop-ecosysteem: HDFS, MapReduce, YARN en Hadoop Common.
- Gebruik Hadoop Distributed File System (HDFS) om een cluster te schalen naar honderden of duizenden knooppunten.
- Stel HDFS in om te functioneren als opslagengine voor on-premise Spark-implementaties.
- Stel Spark in voor toegang tot alternatieve opslagoplossingen zoals Amazon S3 en NoSQL databasesystemen zoals Redis, Elasticsearch, Couchbase, Aerospike, enz.
- Voer administratieve taken uit zoals het inrichten, beheren, monitoren en beveiligen van een Apache Hadoop-cluster.
Hortonworks Data Platform (HDP) for Administrators
21 UrenDeze live training onder leiding van een instructeur in Nederland (online of ter plaatse) introduceert Hortonworks Data Platform (HDP) en leidt deelnemers door de implementatie van de Spark + Hadoop-oplossing.
Aan het einde van deze training zijn de deelnemers in staat om:
- Gebruik Hortonworks om op grote schaal betrouwbaar Hadoop uit te voeren.
- Integreer de beveiligings-, governance- en operationele mogelijkheden van Hadoop met de flexibele analytische workflows van Spark.
- Gebruik Hortonworks om elk van de componenten in een Spark-project te onderzoeken, te valideren, te certificeren en te ondersteunen.
- Verwerk verschillende soorten gegevens, waaronder gestructureerde, ongestructureerde, in-beweging en stilstaande gegevens.
A Practical Introduction to Stream Processing
21 UrenIn deze door een instructeur geleide, live training in Nederland (op locatie of op afstand), leren deelnemers hoe ze verschillende Stream Processing raamwerken kunnen opzetten en integreren met bestaande big data-opslagsystemen en gerelateerde softwareapplicaties en microservices.
Aan het einde van deze training kunnen deelnemers:
- Installeer en configureer verschillende Stream Processing frameworks, zoals Spark Streaming en Kafka Streaming.
- Begrijp en selecteer het meest geschikte raamwerk voor de taak.
- Verwerken van gegevens continu, gelijktijdig en record voor record.
- Integreer Stream Processing oplossingen met bestaande databases, datawarehouses, datameren, enz.
- Integreer de meest geschikte bibliotheek voor streamverwerking met bedrijfsapplicaties en microservices.
SMACK Stack for Data Science
14 UrenDeze door een instructeur geleide, live training (op locatie of op afstand) is gericht op datawetenschappers die de SMACK-stack willen gebruiken om dataverwerkingsplatforms voor big data-oplossingen te bouwen.
Aan het einde van deze training kunnen deelnemers:
- Implementeer een datapijplijnarchitectuur voor het verwerken van big data.
- Ontwikkel een clusterinfrastructuur met Apache Mesos en Docker.
- Analyseer gegevens met Spark en Scala.
- Beheer ongestructureerde gegevens met Apache Cassandra.
Apache Spark Fundamentals
21 UrenDeze instructeur-geleide, live training in Nederland (op locatie of op afstand) is gericht op ingenieurs die een Apache Spark systeem willen opzetten en implementeren voor het verwerken van zeer grote hoeveelheden gegevens.
Aan het einde van deze training kunnen deelnemers:
- Installeer en configureer Apache Spark.
- Verwerk en analyseer snel zeer grote datasets.
- Begrijp het verschil tussen Apache Spark en Hadoop MapReduce en wanneer u welke moet gebruiken.
- Integreer Apache Spark met andere machine learning-tools.
Administration of Apache Spark
35 UrenDeze live training onder leiding van een instructeur in Nederland (online of op locatie) is bedoeld voor beginnende tot gemiddelde systeembeheerders die Spark-clusters willen implementeren, onderhouden en optimaliseren.
Aan het einde van deze training zijn de deelnemers in staat om:
- Installeer en configureer Apache Spark in verschillende omgevingen.
- Clusterresources beheren en Spark-toepassingen bewaken.
- Optimaliseer de prestaties van Spark-clusters.
- Implementeer beveiligingsmaatregelen en zorg voor een hoge beschikbaarheid.
- Veelvoorkomende problemen met Spark opsporen en oplossen.
Apache Spark in the Cloud
21 UrenApache Spark leercurve van Apache Spark neemt in het begin langzaam toe, het kost veel inspanning om het eerste rendement te behalen. Deze cursus is bedoeld om door het eerste moeilijke gedeelte te springen. Na het volgen van deze cursus zullen de deelnemers de basisprincipes van Apache Spark begrijpen, ze zullen RDD duidelijk onderscheiden van DataFrame, ze zullen Python en Scala API leren kennen, ze zullen uitvoerders en taken begrijpen, etc. Ook volgens de best practices richt deze cursus zich sterk op cloud-implementatie, Databricks en AWS. De studenten zullen ook de verschillen begrijpen tussen AWS EMR en AWS Glue, een van de nieuwste Spark-services van AWS.
PUBLIEK:
Data Engineer, DevOps , Data Scientist
Scaling Data Pipelines with Spark NLP
14 UrenDeze live training onder leiding van een instructeur in Nederland (online of ter plaatse) is bedoeld voor datawetenschappers en -ontwikkelaars die Spark NLP, gebouwd op Apache Spark, willen gebruiken om tekstverwerkingsmodellen en pijplijnen in natuurlijke taal te ontwikkelen, implementeren en schalen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet de benodigde ontwikkelomgeving op om NLP-pijplijnen te gaan bouwen met Spark NLP.
- Krijg inzicht in de functies, architectuur en voordelen van het gebruik van Spark NLP.
- Gebruik de vooraf getrainde modellen die beschikbaar zijn in Spark NLP om tekstverwerking te implementeren.
- Leer hoe u modellen Spark NLP bouwt, traint en schaalt voor projecten van productiekwaliteit.
- Pas classificatie-, inferentie- en sentimentanalyse toe op real-world gebruiksscenario's (klinische gegevens, inzichten in klantgedrag, enz.).
Python and Spark for Big Data (PySpark)
21 UrenIn deze door een instructeur geleide, live training in Nederland, leren deelnemers hoe ze Python en Spark samen kunnen gebruiken om big data te analyseren terwijl ze werken aan praktische oefeningen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Leer hoe u Spark kunt gebruiken met Python om Big Data te analyseren.
- Werk aan oefeningen die gevallen uit de echte wereld nabootsen.
- Gebruik verschillende tools en technieken voor big data-analyse met behulp van PySpark.
Python, Spark, and Hadoop for Big Data
21 UrenDeze live training in Nederland onder leiding van een instructeur (online of op locatie) is bedoeld voor ontwikkelaars die Spark, Hadoop en Python willen gebruiken en integreren om grote en complexe datasets te verwerken, analyseren en transformeren.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet de benodigde omgeving in om te beginnen met het verwerken van big data met Spark, Hadoop en Python.
- Krijg inzicht in de functies, kernonderdelen en architectuur van Spark en Hadoop.
- Leer hoe u Spark, Hadoop en Python kunt integreren voor de verwerking van big data.
- Verken de tools in het Spark-ecosysteem (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka en Flume).
- Bouw gezamenlijke filteraanbevelingssystemen die vergelijkbaar zijn met Netflix, YouTube, Amazon, Spotify en Google.
- Gebruik Apache Mahout om machine learning-algoritmen te schalen.
Apache Spark MLlib
35 UrenMLlib is Spark's machine learning (ML) bibliotheek. Het doel is om praktische machine learning schaalbaar en eenvoudig te maken. Het bestaat uit algemene leeralgoritmen en hulpprogramma's, waaronder classificatie, regressie, clustering, collaboratieve filtering, vermindering van de dimensionaliteit, evenals optimalisatieprimitieven op een lager niveau en pijplijn-API's op een hoger niveau.
Het is verdeeld in twee pakketten:
spark.mllib bevat de originele API gebouwd bovenop RDD's.
spark.ml biedt een API op een hoger niveau gebouwd bovenop DataFrames voor het construeren van ML-pijpleidingen.
Publiek
Deze cursus is bedoeld voor ingenieurs en ontwikkelaars die een ingebouwde machinebibliotheek voor Apache Spark