Cursusaanbod

Inleiding tot Data Science voor Big Data Analytics

  • Overzicht van Data Science
  • Overzicht van Big Data
  • Data-structuren
  • Motoren en complexiteiten van Big Data
  • Big Data ecosystem en een nieuwe aanpak voor analytics
  • Sleuteltechnologieën in Big Data
  • Data Mining proces en problemen
    • Association Pattern Mining
    • Data Clustering
    • Outlier Detection
    • Data Classificatie

Inleiding tot de Data Analytics levenscyclus

  • Ontdekking
  • Data voorbereiding
  • Modelplanning
  • Modelbouw
  • Presentatie/Communicatie van resultaten
  • Operationele inzet
  • Oefening: Casusstudie

Van dit punt af (80% van de trainingstijd) zal de meeste trainingstijd worden besteed aan voorbeelden en oefeningen in R en gerelateerde big data technologie.

Aan de slag met R

  • Installatie van R en RStudio
  • Kenmerken van de R-taal
  • Objecten in R
  • Data in R
  • Data manipulatie
  • Big data problemen
  • Oefeningen

Aan de slag met Hadoop

  • Installatie van Hadoop
  • Hadoop modi begrijpen
  • HDFS
  • MapReduce architectuur
  • Overzicht van Hadoop gerelateerde projecten
  • Programmeren in Hadoop MapReduce
  • Oefeningen

Integreer R en Hadoop met RHadoop

  • Componenten van RHadoop
  • Installatie van RHadoop en verbinding maken met Hadoop
  • De architectuur van RHadoop
  • Hadoop streaming met R
  • Oplossen van data analytics problemen met RHadoop
  • Oefeningen

Voorbereiding en voorbereiding van data

  • Stappen in data voorbereiding
  • Kenmerk extraheren
  • Data opruimen
  • Data integratie en transformatie
  • Data reductie – sampling, kenmerk subset selectie
  • Dimensionaliteit reductie
  • Discretisatie en binning
  • Oefeningen en casusstudie

Exploratieve data analytische methoden in R

  • Beschrijvende statistiek
  • Exploratieve data analyse
  • Visualisatie – voorafgaande stappen
  • Visualiseren van een enkele variabele
  • Onderzoeken van meerdere variabelen
  • Statistische methoden voor evaluatie
  • Hypothese toetsing
  • Oefeningen en casusstudie

Data Visualisaties

  • Basis visualisaties in R
  • Pakketten voor data visualisatie: ggplot2, lattice, plotly
  • Plots opmaken in R
  • Geavanceerde grafieken
  • Oefeningen

Regressie (Toekomstige waarden schatten)

  • Lineaire regressie
  • Gebruiksgevallen
  • Modelbeschrijving
  • Diagnostiek
  • Problemen met lineaire regressie
  • Shrinkage methoden, ridge regressie, de lasso
  • Generalisaties en nonlineariteit
  • Regressiesplines
  • Lokale polynomiale regressie
  • Generalized additive models
  • Regressie met RHadoop
  • Oefeningen en casusstudie

Classificatie

  • Problemen gerelateerd aan classificatie
  • Bayesiaanse herschepping
  • Naïeve Bayes
  • Logistische regressie
  • K-nearest neighbors
  • Decision tree algoritme
  • Neural networks
  • Support vector machines
  • Diagnostiek van classificators
  • Vergelijking van classificatiemethoden
  • Schaalbare classificatiealgorithmen
  • Oefeningen en casusstudie

Beoordelen van modelprestaties en selectie

  • Bias, Variance en modelcomplexiteit
  • Accuratesse vs. Interpretabiliteit
  • Evaluatie van classificators
  • Maatregelen voor model/algorithme prestaties
  • Hold-out methode van validatie
  • Cross-validatie
  • Afstemmen van machine learning algoritmen met caret pakket
  • Visualiseren van modelprestaties met Profit ROC en Lift curves

Ensemble Methoden

  • Bagging
  • Random Forests
  • Boosting
  • Gradient boosting
  • Oefeningen en casusstudie

Support vector machines voor classificatie en regressie

  • Maximale Margin classificators
    • Support vector classificators
    • Support vector machines
    • SVM’s voor classificatieproblemen
    • SVM’s voor regressieproblemen
  • Oefeningen en casusstudie

Onbekende groeperingen in een dataset identificeren

  • Kenmerk selectie voor clustering
  • Representatieve algoritmen: k-means, k-medoids
  • Hierarchische algoritmen: agglomeratieve en divisieve methoden
  • Probabilistische algoritmen: EM
  • Dichtheidsgebaseerde algoritmen: DBSCAN, DENCLUE
  • Cluster validatie
  • Geavanceerde clusterconcepten
  • Clustering met RHadoop
  • Oefeningen en casusstudie

Verbindingen ontdekken met Link Analyse

  • Link analyse concepten
  • Metriken voor het analyseren van netwerken
  • De Pagerank algoritme
  • Hyperlink-Induced Topic Search
  • Link Voorspelling
  • Oefeningen en casusstudie

Association Pattern Mining

  • Frequent Pattern Mining Model
  • Schaalbaarheid problemen in frequent pattern mining
  • Brute Force algoritmen
  • Apriori algoritme
  • De FP-growth benadering
  • Evaluatie van kandidaten regels
  • Toepassingen van associatieregels
  • Validatie en testen
  • Diagnostiek
  • Association regels met R en Hadoop
  • Oefeningen en casusstudie

Aanmaak van aanbevelingsmotoren

  • Aanbevelingssystemen begrijpen
  • Data mining technieken gebruikt in aanbevelingssystemen
  • Aanbevelingssystemen met recommenderlab pakket
  • Evaluatie van aanbevelingssystemen
  • Aanbevelingen met RHadoop
  • Oefening: Aanmaak van aanbevelingsmotor

Tekstanalyse

  • Stappen in tekstanalyse
  • Verzamelen van ruwe tekst
  • Bag of words
  • Term Frequency – Inverse Document Frequency
  • Sentiment bepalen
  • Oefeningen en casusstudie
 35 Uren

Leveringsopties

PRIVÉGROEPSTRAINING

Onze identiteit draait om het leveren van precies wat onze klanten nodig hebben.

  • Pre-cursusgesprek met uw trainer
  • Aanpassing van de leerervaring om uw doelen te bereiken -
    • Op maat gemaakte overzichten
    • Praktische, praktische oefeningen met gegevens / scenario's die herkenbaar zijn voor de cursisten
  • Training gepland op een datum naar keuze
  • Gegeven online, op locatie/klaslokaal of hybride door experts die ervaring uit de echte wereld delen

Private Group Prices RRP from €11400 online delivery, based on a group of 2 delegates, €3600 per additional delegate (excludes any certification / exam costs). We recommend a maximum group size of 12 for most learning events.

Neem contact met ons op voor een exacte offerte en om onze laatste promoties te horen


OPENBARE TRAINING

Kijk op onze public courses

Reviews (2)

Voorlopige Aankomende Cursussen

Gerelateerde categorieën