Course Outline

Deel 1: Inleiding tot Hadoop

  • Hadoop Geschiedenis, Concepten
  • Ecosysteem
  • Distributies
  • Architectuur op hoog niveau
  • Hadoop mythen
  • Hadoop-uitdagingen
  • Hardware / software
  • lab : eerste blik op Hadoop

Sectie 2: HDFS

  • Ontwerp en architectuur
  • concepten (horizontaal schalen, replicatie, datalokalisatie, rackbewustzijn)
  • Daemons : Namenode, Secundaire namenode,  Data node
  • Communicatie / hartslagen
  • Integriteit van gegevens
  • Lees-/schrijfpad
  • Hoge beschikbaarheid (HA) van Namenode, federatie
  • labs : Interactie met HDFS

Sectie 3 : Kaart verkleinen

  • Concepten en architectuur
  • daemons (MRV1) : jobtracker / tasktracker
  • Fasen: Driver, Mapper, Shuffle/Sort, Reducer
  • Map Reduce Versie 1 en Versie 2 (YARN)
  • Interne onderdelen van Map Reduce
  • Inleiding tot het programma Map Reduce Java
  • labs : Een voorbeeld van een MapReduce-programma uitvoeren

Sectie 4 : Varken

  • Varken versus Java-kaart verminderen
  • Varkens Job Flow
  • varken Latijnse taal
  • ETL met varken
  • Transformaties en samenvoegingen
  • Door de gebruiker gedefinieerde functies (UDF)
  • labs : Pig scripts schrijven om data te analyseren

Deel 5: Hive

  • Architectuur en design
  • Soorten gegevens
  • SQL Ondersteuning bij Hive
  • Hive tabellen maken en query's uitvoeren
  • Partities
  • Joins
  • Tekstverwerking
  • Labs : Diverse labo's over het verwerken van data met Hive

Sectie 6: HBase

  • Concepten en architectuur
  • hbase versus RDBMS versus cassandra
  • HBase Java API
  • Tijdreeksgegevens over HBase
  • Schema-ontwerp
  • laboratoria : Interactie met HBase met behulp van shell;   programmeren in HBase Java API ; Oefening voor schemaontwerp

Requirements

  • vertrouwd met de programmeertaal Java (de meeste programmeeroefeningen zijn in Java)
  • comfortabel in Linux omgeving (kunnen navigeren op de Linux opdrachtregel, bestanden bewerken met vi / nano)

Lab-omgeving

Zero Install: Het is niet nodig om hadoop-software op de computers van studenten te installeren! Er zal een werkend hadoop-cluster voor studenten worden aangeboden.

Studenten hebben het volgende nodig

  • een SSH-client (Linux en Mac hebben al ssh-clients, voor Windows wordt Putty aanbevolen)
  • een browser om toegang te krijgen tot het cluster. Wij raden de Firefox-browser aan
 28 Hours

Getuigenissen (3)

Related Courses

Related Categories