Course Outline
=====
Dag 01
=====
Overzicht van Big Data Business Inlichtingen voor analyse van criminele inlichtingen
- Casestudies van wetshandhaving - voorspellend politiewerk
- Big Data adoptiepercentage bij wetshandhavingsinstanties en hoe zij hun toekomstige activiteiten afstemmen op Big Data Predictive Analytics
- Opkomende technologische oplossingen zoals geweerschotsensoren, bewakingsvideo en sociale media
- Het gebruik van Big Data technologie om de informatie-overload te verminderen
- Interface Big Data met oudere gegevens
- Basiskennis van ondersteunende technologieën in voorspellende analyses
- Data Integration & Dashboardvisualisatie
- Fraudebeheer
- Business Regels en fraudedetectie
- Bedreigingsdetectie en profilering
- Kosten-batenanalyse voor Big Data implementatie
Inleiding tot Big Data
- Belangrijkste kenmerken van Big Data - Volume, variëteit, snelheid en waarheidsgetrouwheid.
- MPP-architectuur (Massively Parallel Processing).
- Data Warehouses – statisch schema, langzaam evoluerende dataset
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica enz.
- Hadoop Gebaseerde oplossingen – geen voorwaarden aan de structuur van de dataset.
- Typisch patroon: HDFS, MapReduce (crunch), ophalen uit HDFS
- Apache Spark voor streamverwerking
- Batch-geschikt voor analytisch/niet-interactief
- Volume: CEP-streaminggegevens
- Typische keuzes – CEP-producten (bijv. Infostreams, Apama, MarkLogic enz.)
- Minder productieklaar – Storm/S4
- NoSQL Databases – (kolommen en sleutelwaarde): Meest geschikt als analytische aanvulling op datawarehouse/database
NoSQL oplossingen
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Winkel - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (hiërarchisch) - GT.m, cache
- KV Store (besteld) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Opnieuw gecached, Coherentie, Infinispan, EXtremeScale, JBossCache, Snelheid, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Object Database - ZopeDB, DB40, Shoal
- Documentopslag - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Brede zuilvormige winkel - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Soorten gegevens: inleiding tot Data Cleaning kwesties in Big Data
- RDBMS – statische structuur/schema, bevordert geen flexibele, verkennende omgeving.
- NoSQL – semi-gestructureerd, voldoende structuur om gegevens op te slaan zonder exact schema voordat gegevens worden opgeslagen
- Problemen met het opschonen van gegevens
Hadoop
- Wanneer moet u Hadoop selecteren?
- GESTRUCTUREERD - Datawarehouses/databases voor ondernemingen kunnen enorme hoeveelheden gegevens opslaan (tegen een vergoeding), maar structuur opleggen (niet goed voor actieve verkenning)
- SEMI GESTRUCTUREERDE data – moeilijk uit te voeren met traditionele oplossingen (DW/DB)
- Gegevens opslaan = ENORME inspanning en statisch, zelfs na implementatie
- Voor verscheidenheid en volume aan gegevens, verwerkt op standaardhardware – HADOOP
- Commodity H/W was nodig om een cluster Hadoop te creëren
Inleiding tot Map Reduce /HDFS
- MapReduce – distribueer computergebruik over meerdere servers
- HDFS – gegevens lokaal beschikbaar maken voor het computerproces (met redundantie)
- Gegevens – kunnen ongestructureerd/schemaloos zijn (in tegenstelling tot RDBMS)
- De verantwoordelijkheid van ontwikkelaars om betekenis te geven aan data
- Programming MapReduce = werken met Java (voor-/nadelen), gegevens handmatig in HDFS laden
=====
Dag 02
=====
Big Data Ecosysteem -- Bouwen Big Data ETL (Extract, Transform, Load) -- Welke Big Data Tools moet ik gebruiken en wanneer?
- Hadoop versus andere NoSQL oplossingen
- Voor interactieve, willekeurige toegang tot gegevens
- Hbase (kolomgeoriënteerde database) bovenop Hadoop
- Willekeurige toegang tot gegevens maar opgelegde beperkingen (max. 1 PB)
- Niet goed voor ad-hocanalyses, goed voor loggen, tellen, tijdreeksen
- Sqoop - Importeren uit databases naar Hive of HDFS (JDBC/ODBC-toegang)
- Flume – Stream gegevens (bijv. loggegevens) naar HDFS
Big Data Management Systeem
- Bewegende delen, rekenknooppunten starten/mislukken: ZooKeeper - Voor configuratie-/coördinatie-/naamgevingsservices
- Complexe pijplijn/workflow: Oozie – beheer workflow, afhankelijkheden, serieschakeling
- Implementeren, configureren, clusterbeheer, upgrade enz. (sys admin):Ambari
- In de cloud: zoem
Predictive Analytics -- Fundamentele technieken en Machine Learning gebaseerde Business intelligentie
- Inleiding tot Machine Learning
- Classificatietechnieken leren
- Bayesiaanse voorspelling: een trainingsbestand voorbereiden
- Ondersteuning van vectormachine
- KNN p-Tree Algebra en verticale mijnbouw
- Neural Networks
- Big Data groot variabel probleem -- Willekeurig bos (RF)
- Big Data Automatiseringsprobleem – Multi-modellenensemble RF
- Automatisering via Soft10-M
- Tekstanalysetool-Treeminer
- Agile leren
- Agent-gebaseerd leren
- Gedistribueerd leren
- Inleiding tot open source-tools voor voorspellende analyses: R, Python, Rapidminer, Mahut
Predictive Analytics Ecosysteem en de toepassing ervan in de analyse van criminele inlichtingen
- Technologie en het onderzoeksproces
- Inzicht analytisch
- Visualisatie-analyse
- Gestructureerde voorspellende analyses
- Ongestructureerde voorspellende analyses
- Dreiging/fraudeur/leveranciersprofilering
- Aanbevelingsmotor
- Patroondetectie
- Ontdekking van regels/scenario’s – mislukking, fraude, optimalisatie
- Ontdekking van de oorzaak
- Sentiment analyse
- CRM-analyses
- Netwerkanalyse
- Tekstanalyse voor het verkrijgen van inzichten uit transcripties, getuigenverklaringen, internetgebabbel, enz.
- Technologieondersteunde beoordeling
- Fraudeanalyse
- Realtime analyse
=====
Dag 03
=====
Realtime en Scalableke analyses meer dan Hadoop
- Waarom algemene analytische algoritmen falen in Hadoop/HDFS
- Apache Hama- voor bulksynchrone, gedistribueerde computing
- Apache SPARK- voor clustercomputing en realtime analyse
- CMU Graphics Lab2 - Op grafieken gebaseerde asynchrone benadering van gedistribueerd computergebruik
- KNN p - Op algebra gebaseerde aanpak van Treeminer voor lagere hardwarekosten
Hulpmiddelen voor eDiscovery en forensisch onderzoek
- eDiscovery over Big Data versus oudere gegevens – een vergelijking van kosten en prestaties
- Voorspellende codering en Technology Assisted Review (TAR)
- Live demo van vMiner om te begrijpen hoe TAR snellere detectie mogelijk maakt
- Snellere indexering via HDFS – Snelheid van gegevens
- NLP (Natural Language processing) – open source producten en technieken
- eDiscovery in vreemde talen - technologie voor de verwerking van vreemde talen
Big Data BI voor Cyber Security – Een 360-gradenoverzicht krijgen, snelle gegevensverzameling en identificatie van bedreigingen
- Inzicht in de basisprincipes van beveiligingsanalyses: aanvalsoppervlak, verkeerde configuratie van de beveiliging, hostverdediging
- Netwerkinfrastructuur / Grote datapipe / Response ETL voor realtime analyse
- Prescriptief versus voorspellend – Vaste, op regels gebaseerde versus automatische detectie van bedreigingsregels uit metagegevens
Het verzamelen van uiteenlopende gegevens voor de analyse van criminele inlichtingen
- IoT (Internet of Things) gebruiken als sensoren voor het vastleggen van gegevens
- Gebruik van satellietbeelden voor binnenlandse surveillance
- Gebruik van bewakings- en beeldgegevens voor strafrechtelijke identificatie
- Andere technologieën voor gegevensverzameling: drones, lichaamscamera's, GPS-taggingsystemen en warmtebeeldtechnologie
- Het combineren van geautomatiseerd ophalen van gegevens met gegevens verkregen van informanten, ondervragingen en onderzoek
- Forecasting criminele activiteiten
=====
Dag 04
=====
Fraudepreventie BI uit Big Data in Fraud Analytics
- Basisclassificatie van fraudeanalyse: op regels gebaseerde versus voorspellende analyses
- Onder toezicht versus onbewaakt Machine learning voor detectie van fraudepatronen
- Business tot bedrijfsfraude, fraude met medische claims, verzekeringsfraude, belastingontduiking en het witwassen van geld
Social Media Analytics - Verzamelen en analyseren van inlichtingen
- Hoe Social Media door criminelen wordt gebruikt om zich te organiseren, te rekruteren en te plannen
- Big Data ETL API voor het extraheren van sociale mediagegevens
- Tekst, beeld, metadata en video
- Sentimentanalyse van social media-feed
- Contextueel en niet-contextueel filteren van sociale media-feeds
- Social Media Dashboard om diverse sociale media te integreren
- Geautomatiseerde profilering van sociale mediaprofielen
- Live demo van elke analyse wordt gegeven via Treeminer Tool
Big Data Analyses in beeldverwerking en videofeeds
- Beeldopslagtechnieken in Big Data -- Opslagoplossing voor gegevens groter dan petabytes
- LTFS (Linear Tape File System) en LTO (Lineair Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) - gelaagde opslagoplossing voor grote afbeeldingsgegevens
- Grondbeginselen van beeldanalyse
- Object herkenning
- Segmentatie van afbeeldingen
- Beweging volgen
- 3D-beeldreconstructie
Biometrieken, DNA en identificatieprogramma's van de volgende generatie
- Meer dan vingerafdrukken en gezichtsherkenning
- Spraakherkenning, toetsaanslag (analyse van het typpatroon van een gebruiker) en CODIS (gecombineerd DNA Index System)
- Verder dan DNA-matching: forensische DNA-fenotypering gebruiken om een gezicht te construeren uit DNA-monsters
Big Data Dashboard voor snelle toegankelijkheid van diverse gegevens en weergave:
- Integratie van bestaand applicatieplatform met Big Data Dashboard
- Big Data beheer
- Casestudy van Big Data Dashboard: Tableau en Pentaho
- Gebruik de app Big Data om locatiegebaseerde services in Govt te pushen.
- Volgsysteem en beheer
=====
Dag 05
=====
Hoe Big Data BI-implementatie binnen een organisatie rechtvaardigen:
- Het definiëren van de ROI (Return on Investment) voor implementatie Big Data
- Casestudies om analistentijd te besparen bij het verzamelen en voorbereiden van gegevens – waardoor de productiviteit toeneemt
- Inkomstenwinst door lagere licentiekosten voor databases
- Inkomstenwinst uit locatiegebaseerde diensten
- Kostenbesparingen door fraudepreventie
- Een geïntegreerde spreadsheetbenadering voor het berekenen van geschatte kosten versus inkomstenwinst/besparingen uit Big Data implementatie.
Stapsgewijze procedure voor het vervangen van een verouderd datasysteem door een Big Data-systeem
- Big Data Routekaart voor migratie
- Welke kritische informatie is nodig voordat een Big Data systeem wordt ontworpen?
- Wat zijn de verschillende manieren om het volume, de snelheid, de variëteit en de waarheidsgetrouwheid van gegevens te berekenen
- Hoe de datagroei te schatten
- Casestudies
Beoordeling van Big Data leveranciers en beoordeling van hun producten.
- Accenture
- APTEAN (voorheen CDC-software)
- Cisco Systemen
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guaves
- Hitachi-datasystemen
- Hortonwerken
- PK
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Voorheen 10Gen)
- MU Sigma
- Netapp
- Opera-oplossingen
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackruimte
- Revolutieanalyse
- Salesforce
- SAP
- SAS Instituut
- Sisense
- Software AG/Terracotta
- Soft10-automatisering
- Splunk
- Sqrl
- Supermicro
- Tableau Software
- Teradata
- Denk aan grote analyses
- Getijdenmarkeringssystemen
- Boommijnwerker
- VMware (Onderdeel van EMC)
Vraag/A-sessie
Requirements
- Kennis van rechtshandhavingsprocessen en datasystemen
- Basiskennis van SQL/Oracle of relationele databases
- Basiskennis van statistieken (op spreadsheetniveau)
Getuigenissen (4)
Duidelijke uitleg met goede voorbeelden, zodat ik mij kon identificeren met mijn eigen vakgebied.
Elaine Vermeulen - Sandoz BV
Cursus - Alteryx for Developers
Machine Translated
I enjoyed the exercises session the most as I get to understand how to apply. Would definitely enjoyed it more if there are more combination exercises :)
Joan Ng
Cursus - Data Preparation with Alteryx
Use cases were awesome! and Ray involved each and every one of us in each use case.
Zara - Trench Ltd
Cursus - Alteryx for Data Analysis
team work