Cursusaanbod

Elke sessie duurt 2 uur

Dag-1: Sessie -1: Bedrijfsinleiding van Waarom Big Data Business Intelligence in de overheid

  • Case studies van NIH, DoE
  • Aanpassingsratio van Big Data in overheidsinstanties en hoe ze hun toekomstige operaties op Big Data Predictive Analytics richten
  • Brede toepassingsgebieden bij DoD, NSA, IRS, USDA etc.
  • Koppeling van Big Data met legacy-gegevens
  • Basisbegrip van de technologieën die predictieve analytics mogelijk maken
  • Gegevensintegratie en dashboardvisualisatie
  • Fruadebeheer
  • Generatie van zakelijke regels/fraude-detectie
  • Detectie en profiling van bedreigingen
  • Kosten-batenanalyse voor de implementatie van Big Data

Dag-1: Sessie-2 : Inleiding tot Big Data-1

  • Hoofdkenmerken van Big Data - volume, variëteit, snelheid en betrouwbaarheid. MPP-architectuur voor volume.
  • Datawarehouses - statisch schema, langzaam evoluerende dataset
  • MPP-databases zoals Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Hadoop-gebaseerde oplossingen - geen voorwaarden voor de structuur van de dataset.
  • Typisch patroon: HDFS, MapReduce (vermalen), ophalen uit HDFS
  • Batch - geschikt voor analytisch/niet-interactief
  • Volume: CEP streaming data
  • Typische keuzes - CEP-producten (bijv. Infostreams, Apama, MarkLogic etc)
  • Minder productiebereid - Storm/S4
  • NoSQL-databases - (kolom- en sleutel-waarde): Best geschikt als analytische aanvulling op datawarehouse/database

Dag-1 : Sessie -3: Inleiding tot Big Data-2

NoSQL-oplossingen

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hierarchisch) - GT.m, Cache
  • KV Store (Gerangschikt) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Object Database - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variëteit van gegevens: Inleiding tot het probleem van gegevensreiniging in Big Data

  • RDBMS - statische structuur/schema, bevordert geen agile, verkennende omgeving.
  • NoSQL - semi-gestructureerd, genoeg structuur om gegevens op te slaan zonder exact schema voordat gegevens worden opgeslagen
  • Problemen met gegevensreiniging

Dag-1 : Sessie-4: Inleiding tot Big Data-3: Hadoop

  • Wanneer moet je Hadoop kiezen?
  • GESTRUCTUREERD - Bedrijfsdatawarehouses/databases kunnen enorme hoeveelheden gegevens opslaan (tegen een kosten), maar leggen structuur op (niet goed voor actieve verkenning)
  • SEMI-GESTRUCTUREERDE data - moeilijk met traditionele oplossingen (DW/DB)
  • Warehousing van gegevens = enorme inspanning en statisch zelfs na implementatie
  • Voor de variëteit en het volume van gegevens, verwerkt op commoditeitshardware - HADOOP
  • Commoditeits H/W nodig om een Hadoop-cluster te creëren

Inleiding tot Map Reduce /HDFS

  • MapReduce - verdelen van berekeningen over meerdere servers
  • HDFS - maakt gegevens lokaal beschikbaar voor het berekeningsproces (met redundantie)
  • Gegevens - kan ongestructureerd/schema-loos zijn (in tegenstelling tot RDBMS)
  • Ontwikkelaarsverantwoordelijkheid om zin te maken uit gegevens
  • Programmeren van MapReduce = werken met Java (voors en tegens), handmatig laden van gegevens in HDFS

Dag-2: Sessie-1: Big Data Ecosystem - Opbouwen van Big Data ETL: Universe van Big Data Tools - welke en wanneer gebruiken?

  • Hadoop versus andere NoSQL-oplossingen
  • Voor interactieve, toevallige toegang tot gegevens
  • Hbase (kolomgerichte database) op Hadoop
  • Toevallige toegang tot gegevens maar beperkingen opgelegd (max. 1 PB)
  • Niet geschikt voor ad-hoc-analyse, goed voor logging, telling, time-series
  • Sqoop - Importeren van databases naar Hive of HDFS (JDBC/ODBC-toegang)
  • Flume - Stream data (bijv. loggegevens) naar HDFS

Dag-2: Sessie-2: Big Data Management System

  • Dynamische onderdelen, compute-nodes starten/falieden: ZooKeeper - voor configuratie/coördinatie/benamingsservices
  • Complexe pipeline/workflow: Oozie - beheer workflow, afhankelijkheden, ketting
  • Deployen, configureren, clusterbeheer, upgraden etc (sys admin): Ambari
  • In de cloud: Whirr

Dag-2: Sessie-3: Predictieve analytics in Business Intelligence -1: Fundamentele technieken & Machine learning gebaseerde BI:

  • Inleiding tot machine learning
  • Leer classificatiemethoden
  • Bayesiaanse voorspelling - voorbereiden van trainingbestand
  • Support Vector Machine (SVM)
  • KNN p-Tree Algebra & verticaal mining
  • Neuraal netwerk
  • Big Data groot variabel probleem - Random forest (RF)
  • Big Data automatiseringsprobleem - Multi-model ensemble RF
  • Automatisering via Soft10-M
  • Tekstanalysistoestel - Treeminer
  • Agile learning
  • Agent-based learning
  • Gedistribueerd leren
  • Inleiding tot open source tools voor predictieve analytics: R, Rapidminer, Mahout

Dag-2: Sessie-4 Predictieve analysee ecosystem -2: Gemeenschappelijke predictieve analyticproblemen in de overheid

  • Insight-analyse
  • Visualisatie-analyse
  • Gestuctureerde predictieve analyse
  • Ongestructureerde predictieve analyse
  • Bedreigings/fraude-/leverancier profiling
  • Aanbevelingssysteem
  • Patroondetectie
  • Regel/scenario-detectie - fouten, fraude, optimalisatie
  • Oorzaakdetectie
  • Sentimentanalyse
  • CRM-analyse
  • Netwerkanalyse
  • Tekstanalyse
  • Technologie-assisterd onderzoek
  • Fraude-analyse
  • Real-time analyse

Dag-3: Sessie-1: Real-time en schaalbare analyse over Hadoop

  • Waarom falen algemene analysetechnieken in Hadoop/HDFS
  • Apache Hama - voor bulk synchrone gedistribueerde berekening
  • Apache SPARK - voor clusterberekening voor real-time analyse
  • CMU Graphics Lab2 - Grafiekgebaseerde asynchrone aanpak voor gedistribueerde berekening
  • KNN p-Algebra-gebaseerde aanpak van Treeminer voor verminderde hardwarekosten

Dag-3: Sessie-2: Tools voor eDiscovery en Forensics

  • eDiscovery over Big Data vs. Legacy-gegevens - een vergelijking van kosten en prestaties
  • Predictieve codering en technologie-assisterd onderzoek (TAR)
  • Live demo van een TAR-product (vMiner) om te begrijpen hoe TAR werkt voor snellere ontdekking
  • Snellere indexing via HDFS - snelheid van gegevens
  • NLP of Natuurlijke Taalverwerking - verschillende technieken en open source-producten
  • eDiscovery in vreemde talen - technologie voor verwerking van vreemde talen

Dag-3: Sessie 3: Big Data BI voor Cyber Security - Begrijpen van een volledig 360 graden overzicht van snel gegevensverzameling tot bedreigingsidentificatie

  • Basisbegrip van beveiligingsanalyse - aanvalsvlak, beveiligingmisconfiguratie, host-defensies
  • Netwerkinfrastructuur/groot datapijp/Response ETL voor real-time analyse
  • Voorschriften vs voorspellend - vastgestelde regelgebaseerd vs automatische detectie van bedreigingsregels uit metagegevens

Dag-3: Sessie 4: Big Data bij USDA : Toepassing in de landbouw

  • Inleiding tot IoT (Internet of Things) voor de landbouw - sensorgestuurde Big Data en controle
  • Inleiding tot satellietbeeldvorming en haar toepassing in de landbouw
  • Integratie van sensoren en beeldgegevens voor bodemvruchtbaarheid, aanbevelingen voor verbouwing en voorspellingen
  • Landbouwverzekering en Big Data
  • Voorspelling van gewasverlies

Dag-4: Sessie-1: Bedrijfsinleiding tot fraudepreventie BI uit Big Data in de overheid - Fraudeanalyse:

  • Basisclassificatie van fraudemanalyse - regelgebaseerd vs voorspellende analytics
  • Supervised vs unsupervised machine learning voor detectie van fraudepatronen
  • Leveranciersfraude/overfacturering voor projecten
  • Medicare en Medicaid-fraude - fraudedetectietecnieken voor claimverwerking
  • Reisvergoedingfrauden
  • IRS-terugstortingfrauden
  • Case studies en live demo's zullen worden gegeven waar data beschikbaar is.

Dag-4: Sessie-2: Sociale mediabedrijfsinformatie - Intelligence verzamelen en analyseren

  • Big Data ETL API voor het extraheren van sociale media-gegevens
  • Tekst, afbeelding, metagegevens en video
  • Sentimentanalyse uit sociale mediastreams
  • Contextuele en niet-contextuele filtering van sociale mediastreams
  • Sociale media-dashboard om diverse sociale media te integreren
  • Automatische profiling van sociale mediaprofielen
  • Live demo's van elke analyse zullen worden gegeven via het Treeminer-toestel.

Dag-4: Sessie-3: Big Data-analyse in afbeeldingen en videostreams

  • Afbeeldingopslagtechnieken in Big Data - oplossingen voor gegevens die petabytes overtreffen
  • LTFS en LTO
  • GPFS-LTFS (Laagoplossing voor grote afbeeldingsgegevens)
  • Fundamentele aspecten van beeldanalyse
  • Objectherkenning
  • Afbeeldingsegmentering
  • Bewegingstracking
  • 3D-afbeeldingsreconstructie

Dag-4: Sessie-4: Big Data-toepassingen in NIH:

  • Opkomende gebieden van bio-informatiekunde
  • Meta-genomics en Big Data mining-uitdagingen
  • Voorspellende analyse voor pharmacogenomica, metabolomica en proteomica met Big Data
  • Big Data in downstream genoomica-processen
  • Toepassing van voorspellende Big Data-analyse in de volksgezondheid

Big Data-dashboard voor snel toegang tot diverse gegevens en weergave:

  • Integratie van bestaande applicatieplatformen met Big Data-dashboard
  • Big Data-beheer
  • Case study van Big Data-dashboard: Tableau en Pentaho
  • Gebruik Big Data-app voor het aanbieden van locatiegebaseerde diensten in de overheid
  • Volgsysteem en beheer

Dag-5: Sessie-1: Hoe te rechtvaardigen Big Data BI-implementatie binnen een organisatie:

  • Definiëren van ROI voor Big Data-implementatie
  • Case studies voor het besparen van analisttijd bij het verzamelen en voorbereiden van gegevens - verhoogde productieopbrengst
  • Case studies van opbrengsten uit besparingen op de kosten van licentiedatabases
  • Opbrengst uit locatiegebaseerde diensten
  • Besparing door fraudepreventie
  • Een geïntegreerd spreadsheetbenadering om ongeveer kosten vs. opbrengst/besparingen van Big Data-implementatie te berekenen.

Dag-5: Sessie-2: Stap voor stap procedure om legacy-gegevenssysteem te vervangen door Big Data-systeem:

  • Inzicht in de praktische Big Data-migratiestrategie
  • Wat zijn de belangrijkste informatie die nodig zijn voordat je een Big Data-implementatie ontwerpt?
  • Op welke manieren kun je het volume, de snelheid, variëteit en betrouwbaarheid van gegevens berekenen?
  • Hoe schat je de groei van gegevens in?
  • Case studies

Dag-5: Sessie 4: Overzicht van Big Data-leveranciers en beoordeling van hun producten. V&A-sessie:

  • Accenture
  • APTEAN (voorheen CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (voorheen 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (onderdeel van EMC)

Vereisten

  • Basisbegrip van bedrijfsoperaties en gegevenssystemen in de overheid binnen hun domein
  • Basisbegrip van SQL/Oracle of relationele databases
  • Basisbegrip van Statistiek (op spreadsheetniveau)
 35 Uren

Leveringsopties

PRIVÉGROEPSTRAINING

Onze identiteit draait om het leveren van precies wat onze klanten nodig hebben.

  • Pre-cursusgesprek met uw trainer
  • Aanpassing van de leerervaring om uw doelen te bereiken -
    • Op maat gemaakte overzichten
    • Praktische, praktische oefeningen met gegevens / scenario's die herkenbaar zijn voor de cursisten
  • Training gepland op een datum naar keuze
  • Gegeven online, op locatie/klaslokaal of hybride door experts die ervaring uit de echte wereld delen

Private Group Prices RRP from €11400 online delivery, based on a group of 2 delegates, €3600 per additional delegate (excludes any certification / exam costs). We recommend a maximum group size of 12 for most learning events.

Neem contact met ons op voor een exacte offerte en om onze laatste promoties te horen


OPENBARE TRAINING

Kijk op onze public courses

Reviews (1)

Voorlopige Aankomende Cursussen

Gerelateerde categorieën