Course Outline

Inleiding tot Data Science for Big Data Analytics

    Data Science Overzicht Big Data Overzicht Datastructuren Drijfveren en complexiteiten van Big Data Big Data-ecosysteem en een nieuwe benadering van analyse Sleuteltechnologieën in Big Data Dataminingproces en -problemen Associatiepatroon Mining Dataclustering Uitbijterdetectie Dataclassificatie

Inleiding tot de levenscyclus van Data Analytics

    Ontdekking Gegevensvoorbereiding Modelplanning Modelbouw Presentatie/Communication van de resultaten Operationalisatie Oefening: Case study

Vanaf dit punt zal het grootste deel van de trainingstijd (80%) worden besteed aan voorbeelden en oefeningen in R en gerelateerde big data-technologie.

Aan de slag met R

    R- en Rstudio-functies van de R-taal installeren Objecten in R Gegevens in R Gegevensmanipulatie Big data-problemen Oefeningen

Aan de slag met Hadoop

    Installeren van Hadoop Inzicht in Hadoop modi HDFS MapReduce architectuur Hadoop gerelateerd projectenoverzicht Programma's schrijven in Hadoop MapReduce Oefeningen

R en Hadoop integreren met RHadoop

    Onderdelen van RHadoop RHadoop installeren en verbinden met Hadoop De architectuur van RHadoop Hadoop streamen met R Data-analyse problemen oplossen met RHadoop Oefeningen

Gegevens voorbewerken en voorbereiden

    Stappen voor gegevensvoorbereiding Functie-extractie Gegevens opschonen Gegevensintegratie en transformatie Gegevensreductie – bemonstering, selectie van kenmerksubsets, reductie van dimensionaliteit Discretisatie en binning Oefeningen en casestudy

Verkennende data-analysemethoden in R

    Beschrijvende statistiek Verkennende data-analyse Visualisatie – voorbereidende stappen Visualiseren van een enkele variabele Onderzoeken van meerdere variabelen Statistische methoden voor evaluatie Hypothesetesten Oefeningen en casestudy

Data Visualizations

    Basisvisualisaties in R Pakketten voor datavisualisatie ggplot2, rooster, plotly, rooster Opmaak van plots in R Geavanceerde grafieken Oefeningen

Regressie (toekomstige waarden schatten)

    Lineaire regressie Gebruiksscenario's Modelbeschrijving Diagnostiek Problemen met lineaire regressie Krimpmethoden, ridge-regressie, de lasso Generalisaties en niet-lineariteit Regressiesplines Lokale polynomiale regressie Gegeneraliseerde additieve modellen Regressie met RHadoop Oefeningen en casestudy

Classificatie

    De classificatie-gerelateerde problemen Bayesiaanse opfriscursus Naïeve Bayes Logistieke regressie K-dichtstbijzijnde buren Beslissingsbomen algoritme Neurale netwerken Ondersteuning vectormachines Diagnostiek van classificatoren Vergelijking van classificatiemethoden Scalable classificatie-algoritmen Oefeningen en casestudy

Beoordelen van de prestaties en selectie van modellen

    Bias, variantie en modelcomplexiteit Nauwkeurigheid versus interpreteerbaarheid Classificatoren evalueren Metingen van model-/algoritmeprestaties Hold-out-validatiemethode Kruisvalidatie Machine learning-algoritmen afstemmen met caret-pakket Visualisatie van modelprestaties met Profit ROC en Lift-curves

Ensemble-methoden

    Bagging Random Forests Boosting Gradiëntversterking Oefeningen en casestudy

Ondersteuning van vectormachines voor classificatie en regressie

    Classificatoren voor maximale marge Ondersteun vectorclassificatoren Ondersteun vectormachines SVM's voor classificatieproblemen SVM's voor regressieproblemen
Oefeningen en casestudy
  • Identificeren van onbekende groepen binnen een dataset
  • Functieselectie voor clustering Representatieve algoritmen: k-means, k-medoids Hiërarchische algoritmen: agglomeratieve en verdeeldheid zaaiende methoden Probabilistische basisalgoritmen: EM Op dichtheid gebaseerde algoritmen: DBSCAN, DENCLUE Clustervalidatie Geavanceerde clusterconcepten Clusteren met RHadoop Oefeningen en casestudy

      Verbindingen ontdekken met Linkanalyse

    Concepten voor linkanalyse Metrieken voor het analyseren van netwerken Het Pagerank-algoritme Hyperlink-geïnduceerd onderwerp Search Linkvoorspellingsoefeningen en casestudy

      Associatiepatroonmijnbouw

    Frequent Pattern Mining Model Scalabaarheidsproblemen bij frequente patroonmining Brute Force-algoritmen Apriori-algoritme De FP-groeibenadering Evaluatie van kandidaatregels Toepassingen van associatieregels Validatie en testen Diagnostiek Associatieregels met R en Hadoop Oefeningen en casestudy

      Aanbevelingsmotoren bouwen

    Aanbevelingssystemen begrijpen Dataminingtechnieken die worden gebruikt in aanbevelingssystemen Aanbevelingssystemen met het aanbevelingslabpakket De aanbevelingssystemen evalueren Aanbevelingen met RHadoop Oefening: aanbevelingsengine bouwen

      Tekstanalyse

    Stappen voor tekstanalyse Ruwe tekst verzamelen Zak met woorden Termfrequentie – omgekeerde documentfrequentie Sentimenten bepalen Oefeningen en casestudy

     35 Hours

    Getuigenissen (2)

    Related Courses

    Unified Batch and Stream Processing with Apache Beam

    14 Hours

    Related Categories