Course Outline

=====
Dag 01
=====
Overzicht van Big Data Business Inlichtingen voor analyse van criminele inlichtingen

  • Casestudies van wetshandhaving - voorspellend politiewerk
  • Big Data adoptiepercentage bij wetshandhavingsinstanties en hoe zij hun toekomstige activiteiten afstemmen op Big Data Predictive Analytics
  • Opkomende technologische oplossingen zoals geweerschotsensoren, bewakingsvideo en sociale media
  • Het gebruik van Big Data technologie om de informatie-overload te verminderen
  • Interface Big Data met oudere gegevens
  • Basiskennis van ondersteunende technologieën in voorspellende analyses
  • Data Integration & Dashboardvisualisatie
  • Fraudebeheer
  • Business Regels en fraudedetectie
  • Bedreigingsdetectie en profilering
  • Kosten-batenanalyse voor Big Data implementatie

Inleiding tot Big Data

  • Belangrijkste kenmerken van Big Data - Volume, variëteit, snelheid en waarheidsgetrouwheid.
  • MPP-architectuur (Massively Parallel Processing).
  • Data Warehouses – statisch schema, langzaam evoluerende dataset
  • MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica enz.
  • Hadoop Gebaseerde oplossingen – geen voorwaarden aan de structuur van de dataset.
  • Typisch patroon: HDFS, MapReduce (crunch), ophalen uit HDFS
  • Apache Spark voor streamverwerking
  • Batch-geschikt voor analytisch/niet-interactief
  • Volume: CEP-streaminggegevens
  • Typische keuzes – CEP-producten (bijv. Infostreams, Apama, MarkLogic enz.)
  • Minder productieklaar – Storm/S4
  • NoSQL Databases – (kolommen en sleutelwaarde): Meest geschikt als analytische aanvulling op datawarehouse/database

NoSQL oplossingen

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Winkel - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (hiërarchisch) - GT.m, cache
  • KV Store (besteld) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Opnieuw gecached, Coherentie, Infinispan, EXtremeScale, JBossCache, Snelheid, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Object Database - ZopeDB, DB40, Shoal
  • Documentopslag - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Brede zuilvormige winkel - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Soorten gegevens: inleiding tot Data Cleaning kwesties in Big Data

  • RDBMS – statische structuur/schema, bevordert geen flexibele, verkennende omgeving.
  • NoSQL – semi-gestructureerd, voldoende structuur om gegevens op te slaan zonder exact schema voordat gegevens worden opgeslagen
  • Problemen met het opschonen van gegevens

Hadoop

  • Wanneer moet u Hadoop selecteren?
  • GESTRUCTUREERD - Datawarehouses/databases voor ondernemingen kunnen enorme hoeveelheden gegevens opslaan (tegen een vergoeding), maar structuur opleggen (niet goed voor actieve verkenning)
  • SEMI GESTRUCTUREERDE data – moeilijk uit te voeren met traditionele oplossingen (DW/DB)
  • Gegevens opslaan = ENORME inspanning en statisch, zelfs na implementatie
  • Voor verscheidenheid en volume aan gegevens, verwerkt op standaardhardware – HADOOP
  • Commodity H/W was nodig om een cluster Hadoop te creëren

Inleiding tot Map Reduce /HDFS

  • MapReduce – distribueer computergebruik over meerdere servers
  • HDFS – gegevens lokaal beschikbaar maken voor het computerproces (met redundantie)
  • Gegevens – kunnen ongestructureerd/schemaloos zijn (in tegenstelling tot RDBMS)
  • De verantwoordelijkheid van ontwikkelaars om betekenis te geven aan data
  • Programming MapReduce = werken met Java (voor-/nadelen), gegevens handmatig in HDFS laden

=====
Dag 02
=====
Big Data Ecosysteem -- Bouwen Big Data ETL (Extract, Transform, Load) -- Welke Big Data Tools moet ik gebruiken en wanneer?

  • Hadoop versus andere NoSQL oplossingen
  • Voor interactieve, willekeurige toegang tot gegevens
  • Hbase (kolomgeoriënteerde database) bovenop Hadoop
  • Willekeurige toegang tot gegevens maar opgelegde beperkingen (max. 1 PB)
  • Niet goed voor ad-hocanalyses, goed voor loggen, tellen, tijdreeksen
  • Sqoop - Importeren uit databases naar Hive of HDFS (JDBC/ODBC-toegang)
  • Flume – Stream gegevens (bijv. loggegevens) naar HDFS

Big Data Management Systeem

  • Bewegende delen, rekenknooppunten starten/mislukken: ZooKeeper - Voor configuratie-/coördinatie-/naamgevingsservices
  • Complexe pijplijn/workflow: Oozie – beheer workflow, afhankelijkheden, serieschakeling
  • Implementeren, configureren, clusterbeheer, upgrade enz. (sys admin):Ambari
  • In de cloud: zoem

Predictive Analytics -- Fundamentele technieken en Machine Learning gebaseerde Business intelligentie

  • Inleiding tot Machine Learning
  • Classificatietechnieken leren
  • Bayesiaanse voorspelling: een trainingsbestand voorbereiden
  • Ondersteuning van vectormachine
  • KNN p-Tree Algebra en verticale mijnbouw
  • Neural Networks
  • Big Data groot variabel probleem -- Willekeurig bos (RF)
  • Big Data Automatiseringsprobleem – Multi-modellenensemble RF
  • Automatisering via Soft10-M
  • Tekstanalysetool-Treeminer
  • Agile leren
  • Agent-gebaseerd leren
  • Gedistribueerd leren
  • Inleiding tot open source-tools voor voorspellende analyses: R, Python, Rapidminer, Mahut

Predictive Analytics Ecosysteem en de toepassing ervan in de analyse van criminele inlichtingen

  • Technologie en het onderzoeksproces
  • Inzicht analytisch
  • Visualisatie-analyse
  • Gestructureerde voorspellende analyses
  • Ongestructureerde voorspellende analyses
  • Dreiging/fraudeur/leveranciersprofilering
  • Aanbevelingsmotor
  • Patroondetectie
  • Ontdekking van regels/scenario’s – mislukking, fraude, optimalisatie
  • Ontdekking van de oorzaak
  • Sentiment analyse
  • CRM-analyses
  • Netwerkanalyse
  • Tekstanalyse voor het verkrijgen van inzichten uit transcripties, getuigenverklaringen, internetgebabbel, enz.
  • Technologieondersteunde beoordeling
  • Fraudeanalyse
  • Realtime analyse

=====
Dag 03
=====
Realtime en Scalableke analyses meer dan Hadoop

  • Waarom algemene analytische algoritmen falen in Hadoop/HDFS
  • Apache Hama- voor bulksynchrone, gedistribueerde computing
  • Apache SPARK- voor clustercomputing en realtime analyse
  • CMU Graphics Lab2 - Op grafieken gebaseerde asynchrone benadering van gedistribueerd computergebruik
  • KNN p - Op algebra gebaseerde aanpak van Treeminer voor lagere hardwarekosten

Hulpmiddelen voor eDiscovery en forensisch onderzoek

  • eDiscovery over Big Data versus oudere gegevens – een vergelijking van kosten en prestaties
  • Voorspellende codering en Technology Assisted Review (TAR)
  • Live demo van vMiner om te begrijpen hoe TAR snellere detectie mogelijk maakt
  • Snellere indexering via HDFS – Snelheid van gegevens
  • NLP (Natural Language processing) – open source producten en technieken
  • eDiscovery in vreemde talen - technologie voor de verwerking van vreemde talen

Big Data BI voor Cyber Security – Een 360-gradenoverzicht krijgen, snelle gegevensverzameling en identificatie van bedreigingen

  • Inzicht in de basisprincipes van beveiligingsanalyses: aanvalsoppervlak, verkeerde configuratie van de beveiliging, hostverdediging
  • Netwerkinfrastructuur / Grote datapipe / Response ETL voor realtime analyse
  • Prescriptief versus voorspellend – Vaste, op regels gebaseerde versus automatische detectie van bedreigingsregels uit metagegevens

Het verzamelen van uiteenlopende gegevens voor de analyse van criminele inlichtingen

  • IoT (Internet of Things) gebruiken als sensoren voor het vastleggen van gegevens
  • Gebruik van satellietbeelden voor binnenlandse surveillance
  • Gebruik van bewakings- en beeldgegevens voor strafrechtelijke identificatie
  • Andere technologieën voor gegevensverzameling: drones, lichaamscamera's, GPS-taggingsystemen en warmtebeeldtechnologie
  • Het combineren van geautomatiseerd ophalen van gegevens met gegevens verkregen van informanten, ondervragingen en onderzoek
  • Forecasting criminele activiteiten

=====
Dag 04
=====
Fraudepreventie BI uit Big Data in Fraud Analytics

  • Basisclassificatie van fraudeanalyse: op regels gebaseerde versus voorspellende analyses
  • Onder toezicht versus onbewaakt Machine learning voor detectie van fraudepatronen
  • Business tot bedrijfsfraude, fraude met medische claims, verzekeringsfraude, belastingontduiking en het witwassen van geld

Social Media Analytics - Verzamelen en analyseren van inlichtingen

  • Hoe Social Media door criminelen wordt gebruikt om zich te organiseren, te rekruteren en te plannen
  • Big Data ETL API voor het extraheren van sociale mediagegevens
  • Tekst, beeld, metadata en video
  • Sentimentanalyse van social media-feed
  • Contextueel en niet-contextueel filteren van sociale media-feeds
  • Social Media Dashboard om diverse sociale media te integreren
  • Geautomatiseerde profilering van sociale mediaprofielen
  • Live demo van elke analyse wordt gegeven via Treeminer Tool

Big Data Analyses in beeldverwerking en videofeeds

  • Beeldopslagtechnieken in Big Data -- Opslagoplossing voor gegevens groter dan petabytes
  • LTFS (Linear Tape File System) en LTO (Lineair Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) - gelaagde opslagoplossing voor grote afbeeldingsgegevens
  • Grondbeginselen van beeldanalyse
  • Object herkenning
  • Segmentatie van afbeeldingen
  • Beweging volgen
  • 3D-beeldreconstructie

Biometrieken, DNA en identificatieprogramma's van de volgende generatie

  • Meer dan vingerafdrukken en gezichtsherkenning
  • Spraakherkenning, toetsaanslag (analyse van het typpatroon van een gebruiker) en CODIS (gecombineerd DNA Index System)
  • Verder dan DNA-matching: forensische DNA-fenotypering gebruiken om een gezicht te construeren uit DNA-monsters

Big Data Dashboard voor snelle toegankelijkheid van diverse gegevens en weergave:

  • Integratie van bestaand applicatieplatform met Big Data Dashboard
  • Big Data beheer
  • Casestudy van Big Data Dashboard: Tableau en Pentaho
  • Gebruik de app Big Data om locatiegebaseerde services in Govt te pushen.
  • Volgsysteem en beheer

=====
Dag 05
=====
Hoe Big Data BI-implementatie binnen een organisatie rechtvaardigen:

  • Het definiëren van de ROI (Return on Investment) voor implementatie Big Data
  • Casestudies om analistentijd te besparen bij het verzamelen en voorbereiden van gegevens – waardoor de productiviteit toeneemt
  • Inkomstenwinst door lagere licentiekosten voor databases
  • Inkomstenwinst uit locatiegebaseerde diensten
  • Kostenbesparingen door fraudepreventie
  • Een geïntegreerde spreadsheetbenadering voor het berekenen van geschatte kosten versus inkomstenwinst/besparingen uit Big Data implementatie.

Stapsgewijze procedure voor het vervangen van een verouderd datasysteem door een Big Data-systeem

  • Big Data Routekaart voor migratie
  • Welke kritische informatie is nodig voordat een Big Data systeem wordt ontworpen?
  • Wat zijn de verschillende manieren om het volume, de snelheid, de variëteit en de waarheidsgetrouwheid van gegevens te berekenen
  • Hoe de datagroei te schatten
  • Casestudies

Beoordeling van Big Data leveranciers en beoordeling van hun producten.

  • Accenture
  • APTEAN (voorheen CDC-software)
  • Cisco Systemen
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guaves
  • Hitachi-datasystemen
  • Hortonwerken
  • PK
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Voorheen 10Gen)
  • MU Sigma
  • Netapp
  • Opera-oplossingen
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackruimte
  • Revolutieanalyse
  • Salesforce
  • SAP
  • SAS Instituut
  • Sisense
  • Software AG/Terracotta
  • Soft10-automatisering
  • Splunk
  • Sqrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Denk aan grote analyses
  • Getijdenmarkeringssystemen
  • Boommijnwerker
  • VMware (Onderdeel van EMC)

Vraag/A-sessie

Requirements

  • Kennis van rechtshandhavingsprocessen en datasystemen
  • Basiskennis van SQL/Oracle of relationele databases
  • Basiskennis van statistieken (op spreadsheetniveau)
  35 Hours
 

Getuigenissen (4)

Related Courses

Related Categories