Course Outline

Module 1. Inleiding tot Hadoop

  • Het Hadoop gedistribueerde bestandssysteem (HDFS)
  • Het leespad en het schrijfpad
  • Metagegevens van bestandssysteem beheren
  • De Namenode en de Datanode
  • De Namenode hoge beschikbaarheid
  • Naamknoop Federatie
  • De opdrachtregelhulpmiddelen
  • REST-ondersteuning begrijpen

Module 2. Inleiding tot MapReduce

  • De gegevens analyseren met Hadoop
  • Patroon in kaart brengen en verminderen
  • Java MapReduce
  • Uitschalen
  • Informatiestroom
  • Combinerfuncties ontwikkelen
  • Een gedistribueerde MapReduce-taak uitvoeren

Module 3. Een Hadoop cluster plannen

  • Een distributie en versie kiezen van Hadoop
  • Versies en functies
  • Hardwareselectie
  • Hardwareselectie van meester en werknemer
  • Clustergrootte
  • Selectie en voorbereiding van besturingssystemen
  • Implementatie-indeling
  • Gebruikers, groepen en rechten instellen
  • Schijfconfiguratie
  • Netwerk ontwerp

Module 4. Installatie en configuratie

  • Installeren Hadoop
  • Configuratie: een overzicht
  • De Hadoop XML configuratiebestanden
  • Omgevingsvariabelen en shell-scripts
  • Logboekconfiguratie
  • HDFS beheren
  • Optimalisatie en afstemming
  • Het naamknooppunt formatteren
  • Een /tmp-map maken
  • Denken Namenode Hoge beschikbaarheid
  • De hekopties
  • Automatische failoverconfiguratie
  • Format en Bootstrap de Namenodes
  • Naamknoop Federatie

Module 5. I/O Hadoop begrijpen

  • Gegevensintegriteit in HDFS
  • Codecs begrijpen
  • Compressie en invoersplitsingen
  • Compressie gebruiken in MapReduce
  • Het serialisatiemechanisme
  • Op bestanden gebaseerde gegevensstructuren
  • Het SequenceFile-formaat
  • Andere bestandsformaten en kolomgeoriënteerde formaten

Module 6. Een MapReduce-applicatie ontwikkelen

  • De configuratie-API
  • Het opzetten van de ontwikkelomgeving
  • Configuratie beheren
  • Generieke OptiesParser, Tool en ToolRunner
  • Een unittest schrijven met MRUnit
  • De Mapper en Reducer
  • Lokaal uitgevoerd op testgegevens
  • Het testen van de bestuurder
  • Draait op een cluster
  • Een baan verpakken en lanceren
  • De MapReduce-webinterface
  • Een taak afstemmen

Module 7. Identiteit, authenticatie en autorisatie

  • Identiteit beheren
  • Kerberos en Hadoop
  • Autorisatie begrijpen

Module 8. Hulpbron Management

  • Wat is hulpbron Management?
  • HDFS-quota
  • MapReduce-planners
  • Anatomie van een YARN-toepassingsrun
  • Bronverzoeken
  • Levensduur van toepassing
  • GAREN Vergeleken met MapReduce 1
  • Planning in YARN
  • Planner-opties
  • Configuratie van capaciteitsplanner
  • Eerlijke Scheduler-configuratie
  • Vertraging planning
  • Dominante eerlijkheid van hulpbronnen

Module 9. MapReduce-typen en formaten

  • MapReduce-typen
  • De standaard MapReduce-taak
  • De invoerformaten definiëren
  • Invoersplitsingen en records beheren
  • Tekstinvoer en binaire invoer
  • Meerdere ingangen beheren
  • Database Ingang (en uitgang)
  • Uitvoerformaten
  • Tekstuitvoer en binaire uitvoer
  • Meerdere uitgangen beheren
  • De Database-uitvoer

Module 10. MapReduce-functies gebruiken

  • Tellers gebruiken
  • Ingebouwde tellers lezen
  • Door de gebruiker gedefinieerde Java tellers
  • Sorteren begrijpen
  • De gedistribueerde cache gebruiken

Module 11. Clusteronderhoud en probleemoplossing

  • Beheren van Hadoop Processen
  • Processen starten en stoppen met init-scripts
  • Processen handmatig starten en stoppen
  • HDFS-onderhoudstaken
  • Een Datanode toevoegen
  • Een Datanode buiten gebruik stellen
  • Bestandssysteemintegriteit controleren met fsck
  • Balanceren van HDFS-blokgegevens
  • Omgaan met een defecte schijf
  • MapReduce onderhoudstaken
  • Een MapReduce-taak beëindigen
  • Een MapReduce-taak beëindigen
  • Beheer van de uitputting van hulpbronnen

Module 12. Toezicht

  • De beschikbare Hadoop statistieken
  • De rol van SNMP
  • Gezondheidsbewaking
  • Controles op hostniveau
  • HDFS-controles
  • KaartVerminder controles

Module 13. Back-up en herstel

  • Reservekopie van gegevens
  • Gedistribueerde kopie (distcp)
  • Parallelle gegevensopname
  • Metagegevens van naamknooppunt
  21 Hours
 

Getuigenissen (1)

Related Courses

Related Categories