Course Outline
- Introductie
- Hadoop Geschiedenis, concepten
- Ecosysteem
- Distributies
- Architectuur op hoog niveau
- Hadoop Mythen
- Hadoop Uitdagingen (hardware / software)
- Labs: bespreek je Big Data projecten en problemen
- Planning en installatie
- Software, Hadoop distributies selecteren
- Dimensionering van het cluster, planning voor groei
- Hardware en netwerk selecteren
- Topologie van rekken
- Installatie
- Multi-tenancy
- Mappenstructuur, logboeken
- Benchmarking
- Labs: cluster installeren, prestatiebenchmarks uitvoeren
- HDFS-bewerkingen
- Concepten (horizontaal schalen, replicatie, datalokalisatie, rackbewustzijn)
- Knooppunten en daemons (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Gezondheid monitoring
- Opdrachtregel- en browsergebaseerd beheer
- Opslagruimte toevoegen, defecte schijven vervangen
- Labs: vertrouwd raken met HDFS-opdrachtregels
- Opname van gegevens
- Goot voor logboeken en andere gegevensopname in HDFS
- Sqoop voor het importeren van SQL databases naar HDFS, evenals het exporteren terug naar SQL
- Hadoop Datawarehousing met Hive
- Gegevens kopiëren tussen clusters (distcp)
- S3 gebruiken als aanvulling op HDFS
- Best practices en architecturen voor gegevensopname
- Labs: instellen en gebruiken van Flume, idem voor Sqoop
- MapVerminder bewerkingen en administratie
- Parallel computing vóór mapreduce: vergelijk HPC versus Hadoop toediening
- MapVerminder de clusterbelasting
- Knooppunten en daemons (JobTracker, TaskTracker)
- MapVerminder de UI-doorloop
- Mapreduce-configuratie
- Taak configureren
- MapReduce optimaliseren
- Fool-proofing MR: wat u uw programmeurs moet vertellen
- Labs: voorbeelden van MapReduce uitvoeren
- YARN: nieuwe architectuur en nieuwe mogelijkheden
- YARN-ontwerpdoelen en implementatiearchitectuur
- Nieuwe actoren: ResourceManager, NodeManager, Application Master
- YARN installeren
- Taakplanning onder YARN
- Labs: taakplanning onderzoeken
- Geavanceerde onderwerpen
- Hardware bewaking
- Cluster bewaking
- Servers toevoegen en verwijderen, upgraden Hadoop
- Back-up, herstel en bedrijfscontinuïteitsplanning
- Oozie-taakworkflows
- Hadoop Hoge beschikbaarheid (HA)
- Hadoop Federatie
- Uw cluster beveiligen met Kerberos
- Labs: monitoring instellen
- Optionele tracks
- Cloudera Manager voor clusterbeheer, monitoring en routinetaken; installatie, gebruik. In deze track worden alle oefeningen en labo's uitgevoerd binnen de Cloudera distributieomgeving (CDH5)
- Ambari voor clusterbeheer, monitoring en routinetaken; installatie, gebruik. In dit traject worden alle oefeningen en labo's uitgevoerd binnen de Ambari clustermanager en Hortonworks Data Platform (HDP 2.0)
Requirements
- vertrouwd met basis Linux systeembeheer
- basisscriptvaardigheden
Kennis van Hadoop en Distributed Computing is niet vereist, maar wordt in de cursus geïntroduceerd en uitgelegd.
Lab-omgeving
Zero Install: Het is niet nodig om hadoop-software op de computers van studenten te installeren! Er zal een werkend hadoop-cluster voor studenten worden aangeboden.
Studenten hebben het volgende nodig
- een SSH-client (Linux en Mac hebben al ssh-clients, voor Windows wordt Putty aanbevolen)
- een browser om toegang te krijgen tot het cluster. We raden de Firefox-browser aan met de FoxyProxy-extensie geïnstalleerd
Getuigenissen (3)
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Cursus - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Cursus - Administrator Training for Apache Hadoop
practical things of doing, also theory was served good by Ajay