Course Outline

Introductie

  • Inzicht in het belang van datavoorbereiding in analytics en machine learning
  • Pijplijn voor gegevensvoorbereiding en de rol ervan in de levenscyclus van gegevens
  • Onderzoek naar gemeenschappelijke uitdagingen op het gebied van ruwe data en de impact op analyse

Gegevensverzameling en -acquisitie

  • Gegevensbronnen: databases, API's, spreadsheets, tekstbestanden en meer
  • Technieken voor het verzamelen van gegevens en het waarborgen van de kwaliteit van gegevens tijdens het verzamelen
  • Verzamelen van gegevens uit verschillende bronnen

Data Cleaning Technieken

  • Identificeren en afhandelen van ontbrekende waarden, uitschieters en inconsistenties
  • Omgaan met duplicaten en fouten in de dataset
  • Echte datasets opschonen

Datatransformatie en standaardisatie

  • Technieken voor gegevensnormalisatie en standaardisatie
  • Categorische gegevensverwerking: codering, binning en feature engineering
  • Ruwe data omzetten in bruikbare formaten

Data Integration en aggregatie

  • Samenvoegen en combineren van datasets uit verschillende bronnen
  • Gegevensconflicten oplossen en gegevenstypen op elkaar afstemmen
  • Technieken voor gegevensaggregatie en -consolidatie

Data Quality Zekerheid

  • Methoden om de kwaliteit en integriteit van gegevens gedurende het hele proces te waarborgen
  • Implementeren van kwaliteitscontroles en validatieprocedures
  • Casestudy's en praktische toepassingen van datakwaliteitsborging

Dimensionaliteitsreductie en functieselectie

  • Inzicht in de noodzaak van dimensionaliteitsreductie
  • Technieken zoals PCA, functieselectie en reductiestrategieën
  • Implementatie van technieken voor het verminderen van dimensionaliteit

Samenvatting en volgende stappen

Requirements

    Basiskennis van dataconcepten

Publiek

    Data-analisten Database beheerders IT-professionals
 14 Hours

Getuigenissen (2)

Related Courses

GDPR - Certified Data Protection Officer

35 Hours

Related Categories