Course Outline

Elke sessie duurt 2 uur

Dag 1: Sessie -1: Business Overzicht van waarom Big Data Business Intelligentie in Govt.

  • Casestudies van NIH, DoE
  • Big Data aanpassingspercentage in Govt. Agentschappen en hoe zij hun toekomstige activiteiten afstemmen op Big Data Predictive Analytics
  • Breed toepassingsgebied in DoD, NSA, IRS, USDA enz.
  • Interface Big Data met oudere gegevens
  • Basiskennis van ondersteunende technologieën in voorspellende analyses
  • Data Integration & Dashboardvisualisatie
  • Fraudebeheer
  • Business Generatie van regels/fraudedetectie
  • Bedreigingsdetectie en profilering
  • Kosten-batenanalyse voor Big Data implementatie

Dag 1: Sessie 2: Introductie van Big Data-1

  • Belangrijkste kenmerken van Big Data-volume, variëteit, snelheid en waarheidsgetrouwheid. MPP-architectuur voor volume.
  • Data Warehouses – statisch schema, langzaam evoluerende dataset
  • MPP Database's zoals Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Hadoop Gebaseerde oplossingen – geen voorwaarden aan de structuur van de dataset.
  • Typisch patroon: HDFS, MapReduce (crunch), ophalen uit HDFS
  • Batch-geschikt voor analytisch/niet-interactief
  • Volume: CEP-streaminggegevens
  • Typische keuzes – CEP-producten (bijv. Infostreams, Apama, MarkLogic enz.)
  • Minder productieklaar – Storm/S4
  • NoSQL Databases – (kolommen en sleutelwaarde): Meest geschikt als analytische aanvulling op datawarehouse/database

Dag-1: Sessie -3: Inleiding tot Big Data-2

NoSQL oplossingen

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Winkel - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (hiërarchisch) - GT.m, cache
  • KV Store (besteld) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV-cache - Memcached, opnieuw gecached, coherentie, Infinispan, EXtremeScale, JBoss cache, snelheid, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Object Database - ZopeDB, DB40, Shoal
  • Documentopslag - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Brede zuilvormige winkel - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Soorten gegevens: Inleiding tot Data Cleaning uitgave in Big Data

  • RDBMS – statische structuur/schema, bevordert geen flexibele, verkennende omgeving.
  • NoSQL – semi-gestructureerd, voldoende structuur om gegevens op te slaan zonder exact schema voordat gegevens worden opgeslagen
  • Problemen met het opschonen van gegevens

Dag-1: Sessie-4: Big Data Introductie-3: Hadoop

  • Wanneer moet u Hadoop selecteren?
  • GESTRUCTUREERD - Datawarehouses/databases voor ondernemingen kunnen enorme hoeveelheden gegevens opslaan (tegen een vergoeding), maar structuur opleggen (niet goed voor actieve verkenning)
  • SEMI GESTRUCTUREERDE data – moeilijk te doen met traditionele oplossingen (DW/DB)
  • Gegevens opslaan = ENORME inspanning en statisch, zelfs na implementatie
  • Voor verscheidenheid en volume aan gegevens, verwerkt op standaardhardware – HADOOP
  • Commodity H/W was nodig om een Hadoop cluster te creëren

Inleiding tot Map Reduce /HDFS

  • MapReduce – distribueer computergebruik over meerdere servers
  • HDFS – gegevens lokaal beschikbaar maken voor het computerproces (met redundantie)
  • Gegevens – kunnen ongestructureerd/schemaloos zijn (in tegenstelling tot RDBMS)
  • De verantwoordelijkheid van ontwikkelaars om betekenis te geven aan data
  • Programming MapReduce = werken met Java (voor-/nadelen), gegevens handmatig in HDFS laden

Dag 2: Sessie 1: Big Data Ecosysteem bouwen Big Data ETL: universum van Big Data Tools - welke te gebruiken en wanneer?

  • Hadoop versus andere NoSQL oplossingen
  • Voor interactieve, willekeurige toegang tot gegevens
  • Hbase (kolomgeoriënteerde database) bovenop Hadoop
  • Willekeurige toegang tot gegevens maar opgelegde beperkingen (max. 1 PB)
  • Niet goed voor ad-hocanalyses, goed voor loggen, tellen, tijdreeksen
  • Sqoop - Importeren uit databases naar Hive of HDFS (JDBC/ODBC-toegang)
  • Flume – Stream gegevens (bijv. loggegevens) naar HDFS

Dag 2: Sessie 2: Big Data Management Systeem

  • Bewegende delen, rekenknooppunten starten/mislukken: ZooKeeper - Voor configuratie-/coördinatie-/naamgevingsservices
  • Complexe pijplijn/workflow: Oozie – beheer workflow, afhankelijkheden, serieschakeling
  • Implementeren, configureren, clusterbeheer, upgrade enz. (sys admin):Ambari
  • In de cloud: zoem

Dag 2: Sessie 3: Voorspellende analyses in Business Intelligentie -1: Fundamentele technieken en op machine learning gebaseerde BI:

  • Inleiding tot machinaal leren
  • Classificatietechnieken leren
  • Bayesiaans trainingsbestand voor het voorbereiden van voorspellingen
  • Ondersteuning van vectormachine
  • KNN p-Tree Algebra en verticale mijnbouw
  • Neuraal netwerk
  • Big Data groot variabel probleem - Willekeurig bos (RF)
  • Big Data Automatiseringsprobleem – Multi-modellenensemble RF
  • Automatisering via Soft10-M
  • Tekstanalysetool-Treeminer
  • Agile leren
  • Agent-gebaseerd leren
  • Gedistribueerd leren
  • Inleiding tot open source-tools voor voorspellende analyses: R, Rapidminer, Mahut

Dag 2: Sessie 4 Ecosysteem voor voorspellende analyses-2: Veelvoorkomende problemen met voorspellende analyses in Govt.

  • Inzicht analytisch
  • Visualisatie analytisch
  • Gestructureerde voorspellende analyse
  • Ongestructureerde voorspellende analyse
  • Dreiging/fraudeur/leveranciersprofilering
  • Aanbevelingsmotor
  • Patroondetectie
  • Ontdekking van regels/scenario’s – mislukking, fraude, optimalisatie
  • Ontdekking van de oorzaak
  • Sentiment analyse
  • CRM-analyse
  • Netwerkanalyse
  • Tekstanalyse
  • Technologieondersteunde beoordeling
  • Fraudeanalyse
  • Realtime analyse

Dag 3: Sessie 1: Realtime en Scalable-analyse gedurende Hadoop

  • Waarom algemene analytische algoritmen falen in Hadoop/HDFS
  • Apache Hama- voor bulksynchrone, gedistribueerde computergebruik
  • Apache SPARK- voor clustercomputing voor realtime analyse
  • CMU Graphics Lab2 - Op grafieken gebaseerde asynchrone benadering van gedistribueerd computergebruik
  • Op KNN p-Algebra gebaseerde aanpak van Treeminer voor lagere hardwarekosten

Dag 3: Sessie 2 : Tools voor eDiscovery en forensisch onderzoek

  • eDiscovery over Big Data versus oudere gegevens – een vergelijking van kosten en prestaties
  • Voorspellende codering en technologieondersteunde beoordeling (TAR)
  • Live demo van een Tar-product (vMiner) om te begrijpen hoe TAR werkt voor snellere ontdekking
  • Snellere indexering via HDFS – snelheid van gegevens
  • NLP of natuurlijke taalverwerking – verschillende technieken en open source-producten
  • eDiscovery in vreemde talen-technologie voor de verwerking van vreemde talen

Dag 3: Sessie 3: Big Data BI voor Cyber Security – Inzicht in het volledige 360-gradenoverzicht van snelle gegevensverzameling tot identificatie van bedreigingen

  • Inzicht in de basisprincipes van beveiligingsanalyses: aanvalsoppervlak, verkeerde configuratie van beveiliging, hostverdediging
  • Netwerkinfrastructuur/grote datapipe/respons-ETL voor realtime analyse
  • Prescriptief versus voorspellend – Vaste, op regels gebaseerde versus automatische detectie van bedreigingsregels uit metagegevens

Dag 3: Sessie 4: Big Data in USDA: toepassing in de landbouw

  • Inleiding tot IoT (Internet of Things) voor landbouw-sensorgebaseerd Big Data en controle
  • Inleiding tot satellietbeelden en de toepassing ervan in de landbouw
  • Integratie van sensor- en beelddata voor bodemvruchtbaarheid, teeltadvies en prognoses
  • Landbouwverzekeringen en Big Data
  • Voorspelling van oogstverlies

Dag 4: Sessie 1: Fraudepreventie BI uit Big Data in Govt-fraudeanalyse:

  • Basisclassificatie van fraudeanalyses: op regels gebaseerde versus voorspellende analyses
  • Onder toezicht versus onbewaakt Machine learning voor detectie van fraudepatronen
  • Leveranciersfraude/te hoge kosten voor projecten
  • Medicare en Medicaid fraude - fraudedetectietechnieken voor claimverwerking
  • Fraude met reisvergoedingen
  • IRS-terugbetalingsfraude
  • Casestudies en live demo's worden gegeven waar gegevens beschikbaar zijn.

Dag 4: Sessie 2: Social Media Analytisch - Verzamelen en analyseren van inlichtingen

  • Big Data ETL API voor het extraheren van sociale mediagegevens
  • Tekst, beeld, metadata en video
  • Sentimentanalyse van social media-feed
  • Contextueel en niet-contextueel filteren van sociale media-feeds
  • Social Media Dashboard om diverse sociale media te integreren
  • Geautomatiseerde profilering van sociale mediaprofielen
  • Live demo van elke analyse wordt gegeven via Treeminer Tool.

Dag 4: Sessie 3: Big Data Analytisch in beeldverwerking en videofeeds

  • Technieken voor beeldopslag in Big Data - Opslagoplossing voor gegevens groter dan petabytes
  • LTFS en LTO
  • GPFS-LTFS (gelaagde opslagoplossing voor grote beeldgegevens)
  • Fundamenteel van beeldanalyse
  • Object herkenning
  • Segmentatie van afbeeldingen
  • Beweging volgen
  • 3D-beeldreconstructie

Dag 4: Sessie 4: Big Data aanvragen bij NIH:

  • Opkomende gebieden van Bio-informatica
  • Meta-genomica en Big Data mijnbouwkwesties
  • Big Data Voorspellende analyse voor farmacogenomica, metabolomics en proteomics
  • Big Data in het stroomafwaartse Genomics-proces
  • Toepassing van voorspellende analyses van big data in de volksgezondheid

Big Data Dashboard voor snelle toegang tot diverse gegevens en weergave:

  • Integratie van bestaand applicatieplatform met Big Data Dashboard
  • Big Data beheer
  • Casestudy van Big Data Dashboard: Tableau en Pentaho
  • Gebruik de app Big Data om locatiegebaseerde services in Govt te pushen.
  • Volgsysteem en beheer

Dag 5: Sessie 1: Hoe Big Data BI-implementatie binnen een organisatie rechtvaardigen:

  • ROI definiëren voor Big Data implementatie
  • Casestudies om tijd voor analisten te besparen bij het verzamelen en voorbereiden van gegevens – verhoging van de productiviteitswinst
  • Casestudy's van inkomstenwinst door het besparen van gelicentieerde databasekosten
  • Inkomstenwinst uit locatiegebaseerde diensten
  • Besparen op fraudepreventie
  • Een geïntegreerde spreadsheetbenadering om ca. kosten versus inkomstenwinst/besparingen uit Big Data implementatie.

Dag 5: Sessie 2: Stapsgewijze procedure om het oude datasysteem te vervangen naar Big Data Systeem:

  • Praktisch inzicht Big Data Migratieroutekaart
  • Wat is de belangrijke informatie die nodig is voordat een Big Data implementatie wordt ontworpen
  • Wat zijn de verschillende manieren om het volume, de snelheid, de variëteit en de waarheidsgetrouwheid van gegevens te berekenen?
  • Hoe de datagroei te schatten
  • Casestudies

Dag 5: Sessie 4: Beoordeling van Big Data leveranciers en beoordeling van hun producten. Vraag/A-sessie:

  • Accenture
  • APTEAN (voorheen CDC-software)
  • Cisco Systemen
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guaves
  • Hitachi-datasystemen
  • Hortonwerken
  • PK
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Voorheen 10Gen)
  • MU Sigma
  • Netapp
  • Opera-oplossingen
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackruimte
  • Revolutieanalyse
  • Salesforce
  • SAP
  • SAS Instituut
  • Sisense
  • Software AG/Terracotta
  • Soft10-automatisering
  • Splunk
  • Sqrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Denk aan grote analyses
  • Getijdenmarkeringssystemen
  • Boommijnwerker
  • VMware (Onderdeel van EMC)

Requirements

  • Basiskennis van bedrijfsvoering en datasystemen bij de overheid. in hun domein
  • Basiskennis van SQL/Oracle of relationele databases
  • Basiskennis van Statistics (op spreadsheetniveau)
  35 Hours
 

Getuigenissen (4)

Related Courses

Related Categories