Course Outline

Snel overzicht

  • Gegevensbronnen
  • Gegevens in de gaten houden
  • Aanbevelingssystemen
  • Doel Marketing

Datatypes

  • Gestructureerd versus ongestructureerd
  • Statisch versus gestreamd
  • Attitude-, gedrags- en demografische gegevens
  • Datagestuurde versus gebruikersgestuurde analyses
  • Geldigheid van de gegevens
  • Volume, snelheid en verscheidenheid aan gegevens

Modellen

  • Modellen bouwen
  • Statistische modellen
  • Machinaal leren

Classificatie van gegevens

  • Clustering
  • kGroepen, k-betekent, de naaste buren
  • Mierenkolonies, vogels die massaal toestromen

Voorspellende modellen

  • Beslisbomen
  • Ondersteuning vectormachine
  • Naïeve Bayes-classificatie
  • Neurale netwerken
  • Markov Model
  • Regressie
  • Ensemble methoden

ROI

  • Kosten-batenverhouding
  • Kosten van software
  • Kosten van ontwikkeling
  • Potentiële voordelen

Modellen bouwen

  • Voorbereiding van gegevens (MapReduce)
  • Gegevens opschonen
  • Methoden kiezen
  • Model ontwikkelen
  • Model testen
  • Evaluatie van het model
  • Implementatie en integratie van modellen

Overzicht van Open Source en commerciële software

  • Selectie R-projectpakket
  • Python Bibliotheken
  • Hadoop en Mahout
  • Geselecteerde Apache-projecten met betrekking tot Big Data en Analytics
  • Geselecteerde commerciële oplossing
  • Integratie met bestaande software en databronnen

Requirements

Inzicht in traditionele databeheer- en analysemethoden zoals SQL, datawarehouses, business intelligence, OLAP, enz... Inzicht in basisstatistieken en waarschijnlijkheid (gemiddelde, variantie, waarschijnlijkheid, voorwaardelijke waarschijnlijkheid, enz...)

  21 Hours

Getuigenissen (2)

Related Courses

Unified Batch and Stream Processing with Apache Beam

  14 Hours

Related Categories