Course Outline

Invoering

De architectuur en sleutelconcepten van Hadoop begrijpen

Inzicht in het Hadoop gedistribueerde bestandssysteem (HDFS)

    Overzicht van HDFS en zijn architectonisch ontwerp Interactie met HDFS Basisbestandsbewerkingen uitvoeren op HDFS Overzicht van HDFS-opdrachtreferentie Overzicht van Snakebite Snakebite installeren De Snakebite-clientbibliotheek gebruiken De CLI-client gebruiken

Het MapReduce-programmeermodel leren met Python

    Overzicht van het MapReduce-model Programming Inzicht in de gegevensstroom in het MapReduce-framework Map Shuffle en Sort Reduce
Het streaminghulpprogramma Hadoop gebruiken Begrijpen hoe het streaminghulpprogramma Hadoop werkt
  • Demo: implementatie van de WordCount-applicatie op Python
  • De mrjob-bibliotheek gebruiken Overzicht van mrjob
  • Mrjob installeren
  • Demo: Implementatie van het Wordtelalgoritme met behulp van mrjob
  • Begrijpen hoe een MapReduce-taak geschreven met de mrjob-bibliotheek werkt
  • Een MapReduce-applicatie uitvoeren met mrjob
  • Praktisch: topsalarissen berekenen met mrjob
  • Varken leren met Python
  • Overzicht van Pig-demo: Het Wordtelalgoritme in Pig implementeren Pig-scripts en Pig-instructies configureren en uitvoeren De Pig-uitvoeringsmodi gebruiken De interactieve Pig-modus gebruiken De Pic Batch-modus gebruiken
  • De basisconcepten van de varkenslatijnse taal begrijpen met behulp van uitspraken

      Data laden
    Gegevens transformeren
  • Gegevens bewaren
  • De functionaliteit van Pig uitbreiden met Python UDF's Een Python UDF-bestand registreren
  • Demo: een eenvoudige Python UDF
  • Demo: String-manipulatie met behulp van Python UDF
  • Praktisch: de 10 meest recente films berekenen met behulp van Python UDF
  • Spark en PySpark gebruiken
  • Overzicht van Spark-demo: Implementatie van het WordCount-algoritme in PySpark Overzicht van PySpark Een interactieve shell gebruiken Zelfstandige applicaties implementeren
  • Werken met veerkrachtige gedistribueerde datasets (RDD's) RDD's maken op basis van een Python verzameling
  • RDD's maken van bestanden
  • Implementatie van RDD-transformaties

      Implementatie van RDD-acties
    Praktisch: een tekstprogramma Search voor filmtitels implementeren met PySpark
  • Workflow beheren met Python
  • Overzicht van Apache Oozie en Luigi Luigi installeren Luigi-werkstroomconcepten begrijpen Taken Doelen Parameters
  • Demo: een workflow onderzoeken die het WordCount-algoritme implementeert
  • Werken met Hadoop workflows die MapReduce- en Pig-taken besturen met behulp van Luigi's configuratiebestanden
  • Werken met MapReduce in Luigi
  • Werken met Varken in Luigi
  • Samenvatting en conclusie

    Requirements

    • Ervaring met Python programmeren
    • Basiskennis van Hadoop
     28 Hours

    Getuigenissen (3)

    Related Courses

    Related Categories