Course Outline

1.1Hadoop Concepten

1.1.1HDFS

    Het ontwerp van de HDFS-opdrachtregelinterface Hadoop Bestandssysteem

1.1.2 Clusters

    Anatomie van een cluster Materknooppunt / Slaveknooppunt Naam Knooppunt / Dataknooppunt

1.2 Gegevensmanipulatie

1.2.1MapReduce gedetailleerd

    Kaartfase Fase verkleinen Shuffle

1.2.2Analytics met kaartverkleining

    Group-By met MapReduce Frequentieverdelingen en sorteren met MapReduce Resultaten plotten (GNU Plot) Histogrammen met MapReduce Spreidingsgrafieken met MapReduce Parseren van complexe datasets Tellen met MapReduce en Combiners Rapporten samenstellen

 

1.2.3Gegevensopschoning

    Opschonen van documenten Fuzzy string zoeken Recordkoppeling/gegevensontdubbeling Transformeren en sorteren van gebeurtenisdata Valideren van bronbetrouwbaarheid Uitschieters bijsnijden

1.2.4 Gegevens extraheren en transformeren

    Logboeken transformeren Apache Pig gebruiken om te filteren Apache Pig gebruiken om te sorteren Apache Pig gebruiken om sessies te maken

1.2.5Geavanceerde joins

    Gegevens samenvoegen in de Mapper met behulp van MapReduce Gegevens samenvoegen met Apache Pig gerepliceerde join Gesorteerde gegevens samenvoegen met Apache Pig merge join Scheve gegevens samenvoegen met Apache Pig skewed join Een join aan de kaartzijde gebruiken in Apache Hive Geoptimaliseerde volledige buitenste joins gebruiken in Apache [1 ] Gegevens samenvoegen met behulp van een extern sleutelwaardearchief

1.3 Prestatiediagnose en optimalisatietechnieken

    Kaart Onderzoeken van pieken in invoergegevens Identificeren van problemen met scheeftrekking van gegevens aan de kaartzijde Doorvoer van taken in kaart brengen Kleine bestanden Niet-splitsbare bestanden
Reduceren Te weinig of te veel verloopstukken
  • Verminder problemen met het scheeftrekken van gegevens aan de zijkant
  • Verminder de doorvoer van taken
  • Langzaam schudden en sorteren
  • Concurrerende taken en beperking van planners
  • Stackdumps en niet-geoptimaliseerde code
  • Hardwarefouten
  • CPU-conflict
  • Taken Extraheren en visualiseren van uitvoeringstijden van taken
  • Profileer uw kaart en verminder taken
  • Vermijd het verloopstuk
  • Filter en projecteer
  • Het gebruik van de combiner
  • Snel sorteren met vergelijkers
  • Vertekende gegevens verzamelen
  • Verminder scheefheidsbeperking
  • Requirements

    Deelnemers hoeven geen specifieke vaardigheden te hebben, aangezien de training gericht is op de vaardigheden van eindgebruikers voor zowel het beheer als de manipulatie van gegevens onder Apache Hadoop

      21 Hours
     

    Getuigenissen (3)

    Related Courses

    Related Categories