Apache Spark SQL Training Cursus
Spark SQL is de module van Apache Spark voor het werken met gestructureerde en ongestructureerde gegevens. Spark SQL geeft informatie over de structuur van de gegevens en de berekeningen die worden uitgevoerd. Deze informatie kan worden gebruikt om optimalisaties uit te voeren. Twee veel voorkomende toepassingen voor Spark SQL zijn:
- om SQL query's uit te voeren.
- om gegevens van een bestaande Hive installatie te lezen.
In deze door een instructeur geleide, live training (op locatie of op afstand), leren deelnemers hoe ze verschillende soorten gegevenssets kunnen analyseren met Spark SQL .
Aan het einde van deze training kunnen deelnemers:
- Installeer en configureer Spark SQL .
- Voer gegevensanalyse uit met Spark SQL .
- Query-gegevenssets in verschillende indelingen.
- Visualiseer gegevens en queryresultaten.
Indeling van de cursus
- Interactieve lezing en discussie.
- Veel oefeningen en oefenen.
- Praktische implementatie in een live-labomgeving.
Cursusaanpassingsopties
- Neem contact met ons op om een aangepaste training voor deze cursus aan te vragen.
Cursusaanbod
Introductie
Overzicht van gegevens Access Benaderingen (Hive, databases, enz.)
Overzicht van Spark-functies en -architectuur
Spark installeren en configureren
Inzicht in gegevensframes in Spark
Tabellen definiëren en gegevenssets importeren
Query's uitvoeren op gegevensframes met behulp van SQL
Aggregaties, JOIN's en geneste query's uitvoeren
Gegevens uploaden en Accessen
Query's uitvoeren op verschillende soorten gegevens
- JSON, parket, enz.
Query's uitvoeren op Data Lakes met SQL
Probleemoplossing
Samenvatting en conclusie
Vereisten
- Ervaring met SQL queries
- Programmeerervaring in elke taal
Publiek
- Data-analisten
- Datawetenschappers
- Data-ingenieurs
Leveringsopties
PRIVÉGROEPSTRAINING
Onze identiteit draait om het leveren van precies wat onze klanten nodig hebben.
- Pre-cursusgesprek met uw trainer
- Aanpassing van de leerervaring om uw doelen te bereiken -
- Op maat gemaakte overzichten
- Praktische, praktische oefeningen met gegevens / scenario's die herkenbaar zijn voor de cursisten
- Training gepland op een datum naar keuze
- Gegeven online, op locatie/klaslokaal of hybride door experts die ervaring uit de echte wereld delen
Private Group Prices RRP from €2280 online delivery, based on a group of 2 delegates, €720 per additional delegate (excludes any certification / exam costs). We recommend a maximum group size of 12 for most learning events.
Neem contact met ons op voor een exacte offerte en om onze laatste promoties te horen
OPENBARE TRAINING
Kijk op onze public courses
Hulp nodig bij het kiezen van de juiste cursus?
opleidingen@nobleprog.com of +31 208 080 666
Apache Spark SQL Training Cursus - Enquiry
Apache Spark SQL - Consultancyaanvraag
Consultancyaanvraag
Reviews (5)
Veel praktijkvoorbeelden, verschillende manieren om hetzelfde probleem aan te pakken, en soms niet zo voor de hand liggende trucs om de huidige oplossing te verbeteren
Rafal - Nordea
Cursus - Apache Spark MLlib
Automatisch vertaald
very interactive...
Richard Langford
Cursus - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
Cursus - A Practical Introduction to Stream Processing
Get to learn spark streaming , databricks and aws redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Cursus - Apache Spark in the Cloud
practice tasks
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Cursus - Python and Spark for Big Data (PySpark)
Voorlopige Aankomende Cursussen
Gerelateerde cursussen
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 UrenDeze cursus is bedoeld voor ontwikkelaars en datawetenschappers die AI willen begrijpen en implementeren in hun toepassingen. Er wordt speciale aandacht besteed aan data-analyse, gedistribueerde kunstmatige intelligentie en natuurlijke taalverwerking.
Big Data Analytics with Google Colab and Apache Spark
14 UrenDeze live training onder leiding van een instructeur in Nederland (online of ter plaatse) is bedoeld voor datawetenschappers en -ingenieurs van gemiddeld niveau die Google Colab en Apache Spark willen gebruiken voor de verwerking en analyse van big data.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet een big data-omgeving op met behulp van Google Colab en Spark.
- Verwerk en analyseer grote datasets efficiënt met Apache Spark.
- Visualiseer big data in een samenwerkingsomgeving.
- Integreer Apache Spark met cloudgebaseerde tools.
Big Data Analytics in Health
21 UrenBig data-analyse omvat het proces van het onderzoeken van grote hoeveelheden gevarieerde gegevenssets om correlaties, verborgen patronen en andere nuttige inzichten te ontdekken.
De gezondheidsindustrie heeft enorme hoeveelheden complexe heterogene medische en klinische gegevens. Het toepassen van big data-analyses op gezondheidsgegevens biedt een enorm potentieel voor het verkrijgen van inzichten voor het verbeteren van de gezondheidszorg. De enorme omvang van deze datasets vormt echter grote uitdagingen bij analyses en praktische toepassingen in een klinische omgeving.
In deze door een instructeur geleide, live training (op afstand), leren deelnemers hoe ze big data-analyses in gezondheid kunnen uitvoeren terwijl ze een reeks praktische live-laboefeningen doorlopen.
Aan het einde van deze training kunnen deelnemers:
- Installeer en configureer big data-analysehulpmiddelen zoals Hadoop MapReduce en Spark
- Begrijp de kenmerken van medische gegevens
- Pas big data-technieken toe om met medische gegevens om te gaan
- Bestudeer big data-systemen en algoritmen in het kader van gezondheidstoepassingen
Publiek
- ontwikkelaars
- Data Scientists
Indeling van de cursus
- Deelcollege, deelbespreking, oefeningen en zware praktijkoefeningen.
Notitie
- Neem contact met ons op om een aangepaste training voor deze cursus aan te vragen.
Introduction to Graph Computing
28 UrenIn deze door een instructeur geleide, live training in Nederland, leren deelnemers over het technologieaanbod en de implementatiebenaderingen voor het verwerken van grafiekgegevens. Het doel is om objecten uit de echte wereld, hun kenmerken en relaties te identificeren, deze relaties vervolgens te modelleren en ze als gegevens te verwerken met behulp van een Graph Computing (ook bekend als Graph Analytics) benadering. We beginnen met een breed overzicht en beperken ons tot specifieke tools terwijl we een reeks casestudy's, hands-on oefeningen en live implementaties doorlopen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Begrijp hoe grafiekgegevens worden bewaard en doorkruist.
- Selecteer het beste framework voor een bepaalde taak (van graph databases tot batch processing frameworks).
- Implementeer Hadoop, Spark, GraphX en Pregel om grafiekberekeningen op veel machines parallel uit te voeren.
- Bekijk real-world big data-problemen in termen van grafieken, processen en traversals.
Hadoop and Spark for Administrators
35 UrenDeze instructeur-geleide, live training in Nederland (op locatie of op afstand) is gericht op systeembeheerders die willen leren hoe ze clusters binnen hun organisatie kunnen opzetten, implementeren en beheren.
Aan het einde van deze training kunnen deelnemers:
- Installeer en configureer Apache Hadoop.
- Begrijp de vier belangrijkste componenten in het Hadoop-ecosysteem: HDFS, MapReduce, YARN en Hadoop Common.
- Gebruik Hadoop Distributed File System (HDFS) om een cluster te schalen naar honderden of duizenden knooppunten.
- Stel HDFS in om te functioneren als opslagengine voor on-premise Spark-implementaties.
- Stel Spark in voor toegang tot alternatieve opslagoplossingen zoals Amazon S3 en NoSQL databasesystemen zoals Redis, Elasticsearch, Couchbase, Aerospike, enz.
- Voer administratieve taken uit zoals het inrichten, beheren, monitoren en beveiligen van een Apache Hadoop-cluster.
Hortonworks Data Platform (HDP) for Administrators
21 UrenDeze live training onder leiding van een instructeur in Nederland (online of ter plaatse) introduceert Hortonworks Data Platform (HDP) en leidt deelnemers door de implementatie van de Spark + Hadoop-oplossing.
Aan het einde van deze training zijn de deelnemers in staat om:
- Gebruik Hortonworks om op grote schaal betrouwbaar Hadoop uit te voeren.
- Integreer de beveiligings-, governance- en operationele mogelijkheden van Hadoop met de flexibele analytische workflows van Spark.
- Gebruik Hortonworks om elk van de componenten in een Spark-project te onderzoeken, te valideren, te certificeren en te ondersteunen.
- Verwerk verschillende soorten gegevens, waaronder gestructureerde, ongestructureerde, in-beweging en stilstaande gegevens.
A Practical Introduction to Stream Processing
21 UrenIn deze door een instructeur geleide, live training in Nederland (op locatie of op afstand), leren deelnemers hoe ze verschillende Stream Processing raamwerken kunnen opzetten en integreren met bestaande big data-opslagsystemen en gerelateerde softwareapplicaties en microservices.
Aan het einde van deze training kunnen deelnemers:
- Installeer en configureer verschillende Stream Processing frameworks, zoals Spark Streaming en Kafka Streaming.
- Begrijp en selecteer het meest geschikte raamwerk voor de taak.
- Verwerken van gegevens continu, gelijktijdig en record voor record.
- Integreer Stream Processing oplossingen met bestaande databases, datawarehouses, datameren, enz.
- Integreer de meest geschikte bibliotheek voor streamverwerking met bedrijfsapplicaties en microservices.
SMACK Stack for Data Science
14 UrenDeze door een instructeur geleide, live training (op locatie of op afstand) is gericht op datawetenschappers die de SMACK-stack willen gebruiken om dataverwerkingsplatforms voor big data-oplossingen te bouwen.
Aan het einde van deze training kunnen deelnemers:
- Implementeer een datapijplijnarchitectuur voor het verwerken van big data.
- Ontwikkel een clusterinfrastructuur met Apache Mesos en Docker.
- Analyseer gegevens met Spark en Scala.
- Beheer ongestructureerde gegevens met Apache Cassandra.
Apache Spark Fundamentals
21 UrenDeze instructeur-geleide, live training in Nederland (op locatie of op afstand) is gericht op ingenieurs die een Apache Spark systeem willen opzetten en implementeren voor het verwerken van zeer grote hoeveelheden gegevens.
Aan het einde van deze training kunnen deelnemers:
- Installeer en configureer Apache Spark.
- Verwerk en analyseer snel zeer grote datasets.
- Begrijp het verschil tussen Apache Spark en Hadoop MapReduce en wanneer u welke moet gebruiken.
- Integreer Apache Spark met andere machine learning-tools.
Administration of Apache Spark
35 UrenDeze live training onder leiding van een instructeur in Nederland (online of op locatie) is bedoeld voor beginnende tot gemiddelde systeembeheerders die Spark-clusters willen implementeren, onderhouden en optimaliseren.
Aan het einde van deze training zijn de deelnemers in staat om:
- Installeer en configureer Apache Spark in verschillende omgevingen.
- Clusterresources beheren en Spark-toepassingen bewaken.
- Optimaliseer de prestaties van Spark-clusters.
- Implementeer beveiligingsmaatregelen en zorg voor een hoge beschikbaarheid.
- Veelvoorkomende problemen met Spark opsporen en oplossen.
Apache Spark in the Cloud
21 UrenApache Spark leercurve van Apache Spark neemt in het begin langzaam toe, het kost veel inspanning om het eerste rendement te behalen. Deze cursus is bedoeld om door het eerste moeilijke gedeelte te springen. Na het volgen van deze cursus zullen de deelnemers de basisprincipes van Apache Spark begrijpen, ze zullen RDD duidelijk onderscheiden van DataFrame, ze zullen Python en Scala API leren kennen, ze zullen uitvoerders en taken begrijpen, etc. Ook volgens de best practices richt deze cursus zich sterk op cloud-implementatie, Databricks en AWS. De studenten zullen ook de verschillen begrijpen tussen AWS EMR en AWS Glue, een van de nieuwste Spark-services van AWS.
PUBLIEK:
Data Engineer, DevOps , Data Scientist
Spark for Developers
21 UrenDOELSTELLING:
Deze cursus introduceert Apache Spark . De studenten leren hoe Spark past in het Big Data ecosysteem en hoe Spark gebruikt kan worden voor data-analyse. De cursus behandelt Spark shell voor interactieve gegevensanalyse, Spark internals, Spark API's, Spark SQL , Spark streaming en machine learning en graphX.
PUBLIEK :
Ontwikkelaars / gegevensanalisten
Scaling Data Pipelines with Spark NLP
14 UrenDeze live training onder leiding van een instructeur in Nederland (online of ter plaatse) is bedoeld voor datawetenschappers en -ontwikkelaars die Spark NLP, gebouwd op Apache Spark, willen gebruiken om tekstverwerkingsmodellen en pijplijnen in natuurlijke taal te ontwikkelen, implementeren en schalen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Zet de benodigde ontwikkelomgeving op om NLP-pijplijnen te gaan bouwen met Spark NLP.
- Krijg inzicht in de functies, architectuur en voordelen van het gebruik van Spark NLP.
- Gebruik de vooraf getrainde modellen die beschikbaar zijn in Spark NLP om tekstverwerking te implementeren.
- Leer hoe u modellen Spark NLP bouwt, traint en schaalt voor projecten van productiekwaliteit.
- Pas classificatie-, inferentie- en sentimentanalyse toe op real-world gebruiksscenario's (klinische gegevens, inzichten in klantgedrag, enz.).
Python and Spark for Big Data (PySpark)
21 UrenIn deze door een instructeur geleide, live training in Nederland, leren deelnemers hoe ze Python en Spark samen kunnen gebruiken om big data te analyseren terwijl ze werken aan praktische oefeningen.
Aan het einde van deze training zijn de deelnemers in staat om:
- Leer hoe u Spark kunt gebruiken met Python om Big Data te analyseren.
- Werk aan oefeningen die gevallen uit de echte wereld nabootsen.
- Gebruik verschillende tools en technieken voor big data-analyse met behulp van PySpark.
Apache Spark MLlib
35 UrenMLlib is Spark's machine learning (ML) bibliotheek. Het doel is om praktische machine learning schaalbaar en eenvoudig te maken. Het bestaat uit algemene leeralgoritmen en hulpprogramma's, waaronder classificatie, regressie, clustering, collaboratieve filtering, vermindering van de dimensionaliteit, evenals optimalisatieprimitieven op een lager niveau en pijplijn-API's op een hoger niveau.
Het is verdeeld in twee pakketten:
spark.mllib bevat de originele API gebouwd bovenop RDD's.
spark.ml biedt een API op een hoger niveau gebouwd bovenop DataFrames voor het construeren van ML-pijpleidingen.
Publiek
Deze cursus is bedoeld voor ingenieurs en ontwikkelaars die een ingebouwde machinebibliotheek voor Apache Spark