Course Outline

Sectie 1: Data Management in HDFS

  • Verschillende gegevensformaten (JSON / Avro / Parquet)
  • Compressie schema's
  • Gegevens maskeren
  • Labs : Analyseren van verschillende dataformaten;  Compressie inschakelen

Sectie 2: Geavanceerd varken

  • Door de gebruiker gedefinieerde functies
  • Inleiding tot varkensbibliotheken (ElephantBird / Data-Fu)
  • Complexe gestructureerde gegevens laden met Pig
  • Varkens Tuning
  • Labs: geavanceerde pig scripting, het ontleden van complexe datatypes

Deel 3 : Gevorderd Hive

  • Door de gebruiker gedefinieerde functies
  • Gecomprimeerde tabellen
  • Hive Prestaties afstemmen
  • Labs: het maken van gecomprimeerde tabellen, het evalueren van tabelformaten en configuratie

Sectie 4 : Gevorderd HBase

  • Geavanceerde schemamodellering
  • Compressie
  • Bulksgewijs gegevens opnemen
  • Vergelijking van brede tafels en hoge tafels
  • HBase en varken
  • HBase en Hive
  • HBase Prestaties Tuning
  • Labs : afstemming HBase; toegang tot HBase-gegevens van Pig & Hive; Phoenix gebruiken voor datamodellering

Requirements

  • vertrouwd met de programmeertaal Java (de meeste programmeeroefeningen zijn in Java)
  • comfortabel in Linux omgeving (in staat zijn om Linux op de opdrachtregel te navigeren, bestanden te bewerken met vi / nano)
  • een praktische kennis van Hadoop.

Lab-omgeving

Zero Install: Het is niet nodig om hadoop-software op de computers van studenten te installeren! Er zal een werkend hadoop-cluster voor studenten worden aangeboden.

Studenten hebben het volgende nodig

  • een SSH-client (Linux en Mac hebben al ssh-clients, voor Windows wordt Putty aanbevolen)
  • een browser om toegang te krijgen tot het cluster. Wij raden de Firefox-browser aan
 21 Hours

Getuigenissen (3)

Related Courses

Related Categories