Course Outline

  • Introductie
    • Hadoop Geschiedenis, concepten
    • Ecosysteem
    • Distributies
    • Architectuur op hoog niveau
    • Hadoop Mythen
    • Hadoop Uitdagingen (hardware / software)
    • Labs: bespreek je Big Data projecten en problemen
  • Planning en installatie
    • Software, Hadoop distributies selecteren
    • Dimensionering van het cluster, planning voor groei
    • Hardware en netwerk selecteren
    • Topologie van rekken
    • Installatie
    • Multi-tenancy
    • Mappenstructuur, logboeken
    • Benchmarking
    • Labs: cluster installeren, prestatiebenchmarks uitvoeren
  • HDFS-bewerkingen
    • Concepten (horizontaal schalen, replicatie, datalokalisatie, rackbewustzijn)
    • Knooppunten en daemons (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Gezondheid monitoring
    • Opdrachtregel- en browsergebaseerd beheer
    • Opslagruimte toevoegen, defecte schijven vervangen
    • Labs: vertrouwd raken met HDFS-opdrachtregels
  • Opname van gegevens
    • Goot voor logboeken en andere gegevensopname in HDFS
    • Sqoop voor het importeren van SQL databases naar HDFS, evenals het exporteren terug naar SQL
    • Hadoop Datawarehousing met Hive
    • Gegevens kopiëren tussen clusters (distcp)
    • S3 gebruiken als aanvulling op HDFS
    • Best practices en architecturen voor gegevensopname
    • Labs: instellen en gebruiken van Flume, idem voor Sqoop
  • MapVerminder bewerkingen en administratie
    • Parallel computing vóór mapreduce: vergelijk HPC versus Hadoop toediening
    • MapVerminder de clusterbelasting
    • Knooppunten en daemons (JobTracker, TaskTracker)
    • MapVerminder de UI-doorloop
    • Mapreduce-configuratie
    • Taak configureren
    • MapReduce optimaliseren
    • Fool-proofing MR: wat u uw programmeurs moet vertellen
    • Labs: voorbeelden van MapReduce uitvoeren
  • YARN: nieuwe architectuur en nieuwe mogelijkheden
    • YARN-ontwerpdoelen en implementatiearchitectuur
    • Nieuwe actoren: ResourceManager, NodeManager, Application Master
    • YARN installeren
    • Taakplanning onder YARN
    • Labs: taakplanning onderzoeken
  • Geavanceerde onderwerpen
    • Hardware bewaking
    • Cluster bewaking
    • Servers toevoegen en verwijderen, upgraden Hadoop
    • Back-up, herstel en bedrijfscontinuïteitsplanning
    • Oozie-taakworkflows
    • Hadoop Hoge beschikbaarheid (HA)
    • Hadoop Federatie
    • Uw cluster beveiligen met Kerberos
    • Labs: monitoring instellen
  • Optionele tracks
    • Cloudera Manager voor clusterbeheer, monitoring en routinetaken; installatie, gebruik. In deze track worden alle oefeningen en labo's uitgevoerd binnen de Cloudera distributieomgeving (CDH5)
    • Ambari voor clusterbeheer, monitoring en routinetaken; installatie, gebruik. In dit traject worden alle oefeningen en labo's uitgevoerd binnen de Ambari clustermanager en Hortonworks Data Platform (HDP 2.0)

Requirements

  • vertrouwd met basis Linux systeembeheer
  • basisscriptvaardigheden

Kennis van Hadoop en Distributed Computing is niet vereist, maar wordt in de cursus geïntroduceerd en uitgelegd.

Lab-omgeving

Zero Install: Het is niet nodig om hadoop-software op de computers van studenten te installeren! Er zal een werkend hadoop-cluster voor studenten worden aangeboden.

Studenten hebben het volgende nodig

  • een SSH-client (Linux en Mac hebben al ssh-clients, voor Windows wordt Putty aanbevolen)
  • een browser om toegang te krijgen tot het cluster. We raden de Firefox-browser aan met de FoxyProxy-extensie geïnstalleerd
 21 Hours

Getuigenissen (3)

Related Courses

Related Categories