Course Outline

Introductie

  • Apache Beam vs MapReduce, Spark Streaming, Kafka Streaming, Storm en Flink

Installeren en configureren Apache Beam

Overzicht van Apache Beam Functies en architectuur

  • Straalmodel, SDK's, de Lopers van de Straalpijpleiding
  • Back-ends voor gedistribueerde verwerking

Het Apache Beam Programming model begrijpen

  • Hoe een pijplijn wordt uitgevoerd

Een voorbeeldpijplijn uitvoeren

  • Een WordCount-pijplijn voorbereiden
  • De pijplijn lokaal uitvoeren

Een pijpleiding ontwerpen

  • Het plannen van de structuur, het kiezen van de transformaties en het bepalen van de invoer- en uitvoermethoden

De pijplijn maken

  • Het schrijven van het driverprogramma en het definiëren van de pipeline
  • Apache Beam klassen gebruiken
  • Datasets, transformaties, I/O, datacodering, enz.

De pijplijn uitvoeren

  • De pijplijn lokaal, op externe machines en in een openbare cloud uitvoeren
  • Een hardloper kiezen
  • Runner-specifieke configuraties

Testen en foutopsporing Apache Beam

  • Typehints gebruiken om statisch typen na te bootsen
  • Afhankelijkheden van de pijplijn beheren Python

Begrensde en niet-begrensde gegevenssets verwerken

  • Vensters en triggers

Uw pijpleidingen herbruikbaar en onderhoudbaar maken

Nieuwe gegevensbronnen en sinks maken

  • Apache Beam Bron- en gootsteen-API

Integratie van Apache Beam met andere Big Data systemen

  • Apache Hadoop, Apache Spark, Apache Kafka

Probleemoplossing

Samenvatting en conclusie

Requirements

  • Ervaring met Python Programmeren.
  • Ervaring met de Linux-opdrachtregel.

Publiek

  • Ontwikkelaars
 14 Hours

Getuigenissen (1)

Related Courses

Related Categories