Unternehmen sind heutzutage in der Lage ihre Daten mit relativer Leichtigkeit aufzunehmen und zu verwalten. Die Herausforderung besteht nun darin, die verborgenen Muster in den Daten zu erkennen und diese zu verstehen, um einen Mehrwert zu generieren. Aufgrund der großen Datenmengen gelingt dies mit traditionelle Ansätzen zumeist nicht. Das Ergebnis: Organisationen kämpfen, um wirklich zu innovieren und sich zu differenzieren.
17. Titelmasterformat durch Klicken bearbeiten
Wie man aus Daten durch maschinelles
Lernen Wert schafft
Cloudera Webinar
Referent: Dr. Marcel Rothering
Datum: 24.10.2017
21. Titelmasterformat durch Klicken bearbeitensaracus Kompetenzfelder
21saracus consulting - Cloudera Webinar
Integrationsarchitektur
Data Governance
Architekturen für analytische Systeme
Data Warehouse (ETL-Prozesse)
Datenqualität
Master Data Management
Analytische Systeme
Berichtswesen & Analyse
Cockpits & Scorecards
Planungssysteme
Datenmodellierung
Mobile BI
Predictive Analytics
BI-Reviews
Analytisches CRM
Kampagnen-Managementnt
!
Neue Themen
Big Data: Hadoop
Analysen in der Cloud
Agile DWH / Scrum
Data Vault
Maschinelles Lernen
Data Virtualization
DWH-Automation
Social Media Monitoring
22. Titelmasterformat durch Klicken bearbeitensaracus Big Data Consulting
22saracus consulting - Cloudera Webinar
Roadmap Design
Use Case
Identifizierung/
(saracus BDUC)
Design–Lösungen
für Use Cases
Product & Technology
Evaluation
On-premise /Cloud
Consulting/Strategie Pilot Architektur & Design Build & Deploy
Maintenance /
Support / Training
Proof of Concept
(On-premise,
Cloud-Lösung)
Pilot Projekt
Assessment
Scope & Analyse
Architektur-Design
Infrastruktur
Kapazitätsplanung
Applikationen
Realtime Analytics
Advanced Analy.
Data Ingestion
Data Preparation
Data Governance
Performance Tuning
Services
24/7 Support
Hadoop as a Service
Administration
Support in der Cloud
Training
(Diverse Schulungen)
Experten Review
Advising
Produktion
Deployment
23. Titelmasterformat durch Klicken bearbeitenVielfältige Kundenprojekte
23saracus consulting - Cloudera Webinar
Banken &
Finanzdienstleister
Versicherungen Telko & Medien Industrie
Transport & Reise Handel Öffentliche Verwaltung
& Gesundheitswesen
Energie
25. Titelmasterformat durch Klicken bearbeitenWas ist maschinelles Lernen?
Arthur Lee Samuel: "gives computers the ability to learn without being explicitly programmed"
Konstruktion von Algorithmen welche von Daten lernen und Vorhersagen ermöglichen
Use Cases: Spam-Filter, Kundensegmentierung, Next-Best-Offer, Kreditwürdigkeit, Predictive
Maintenance, Cyber-Security, …
25saracus consulting – Cloudera Webinar
27. Titelmasterformat durch Klicken bearbeitenCloudera Distribution für Data Analytics
Integration mit Python Anaconda (Parcels)
Cloudera Data Science Workbench für Data Science Projekte
Einfache Installation verschiedener Services mit dem Cloudera Manager
HUE als open source Analytics Workbench
27saracus consulting – Cloudera Webinar
28. Titelmasterformat durch Klicken bearbeitenApache Spark ML & MLlib
Große Auswahl von verschiedenen Machine Learning Algorithmen: Lineare Regression, naive Bayes, Tree-
Based Models, Alternate Least Square, k-means clustering, …
Parallele und verteilte Implementation der Algorithmen
Iterative Algorithmen profitieren von “in-memory datasets”
Pipeline API zum Erstellen komplexer Datenströme für Data Preprocessing, Feature Extraction, Model
Evaluation, …
Gute Integration ins Hadoop Ökosystem
28saracus consulting – Cloudera Webinar
30. Titelmasterformat durch Klicken bearbeitenMotivation & Ausgangslage
Daten: Kassenbons (über 40 verschiedene Attribute), möglicherweise vorhandene Kundendaten
(Alter, Geschlecht, Wohnort, …)
Ausgangslage: XML-Format, große Datenmengen, Advanced Analytics im klassischen DWH
oftmals nicht möglich
Nutzen: gezielte Werbung z.B. in Prospekten, Personaloptimierung, Rabattaktionen,
Produktplazierung in Regalen, Optimierung des Produktsortiments
30saracus consulting – Cloudera Webinar
31. Titelmasterformat durch Klicken bearbeitenUmsetzung
Anbindung der Kassensysteme an Kafka-Streaming
Transformieren der XML Dateien zu JSON
Ablegen der Daten aufs HDFS
Mögliche Kundendaten mit Sqoop aufs HDFS laden
Aufbereitung der Daten mit Spark SQL
Kundensegmentierung mit Spark ML (k-Means)
31saracus consulting – Cloudera Webinar
32. Titelmasterformat durch Klicken bearbeitenk-Means Algorithmus
32saracus consulting – Cloudera Webinar
Quelle: Introduction to Statistical Learning – Hastie et al.
35. Titelmasterformat durch Klicken bearbeitenMotivation & Ausgangslage
• Challenge E-Commerce: „Kunden helfen
bei der großen Vielfalt an Produkten die
zu finden, welche am besten zu ihnen
passen“
• Zwei verschiedene Strategien:
Content Based Approach
Profiling der Benutzer und
Produkte, um deren
Beziehungen zu finden
Umfangreiche Nutzerprofile
liegen oftmals nicht vor
Collaborative Filtering
Erfordert keine Erstellung
von expliziten Profilen
Basiert allein auf bisherigem
Verhalten von Benutzern
Co-Clustering: „like minded
users“ bzw.
ähnliche Produkte
35saracus consulting – Cloudera Webinar
36. Titelmasterformat durch Klicken bearbeitenCollaborative Filtering und ALS
36saracus consulting – Cloudera Webinar
• Basiert auf Matrix-Faktorisierung
„hidden Features“
• Minimiert RMSE mit alternierender
Vorgehensweise
• Theorie: „Large-scale Parallel
Collaborative Filtering for the Netflix
Prize – Zhou et. al.“
• Riesige Matrizen mit Millionen
Einträgen
• Schnelles Trainieren des Modells
erfordert verteiltes Rechnen
• CDH und Apache Spark sind dafür
bestens geeignet
37. Titelmasterformat durch Klicken bearbeiten
saracus consulting – Cloudera Webinar 37
Umsetzung in der AWS mit CDH
und Apache Spark
• 5-Node Cluster in der AWS mit CDH
• Frei zugänglicher Datensatz von MovieLens
(> 10 000 000 Ratings von >10 000 Filmen)
• Ziel: Eigene Bewertungen hinzufügen, Modell trainieren und Vorhersagen
für Empfehlungen machen
42. Titelmasterformat durch Klicken bearbeitenZusammenfassung: Recommendation Engine
Modell sollte bei neuen Bewertungen der Benutzer regelmäßig neu trainiert werden Training sollte nicht
lange dauern
Erstellung einer Recommendation Engine auf verteilten System gut umsetzbar mit CDH und Apache Spark
Collborative Filtering auch mit implicit feedback möglich: Ableiten der Nutzervorlieben vom Browserverlauf,
Suchmustern, …
Nutzen: Stärkung der Kundenbindung, Steigerung der Einnahmen, Ersparnis von Kosten, …
Justin Basilico (Netlix Recommendation Research Engineer):
„… system influences choice for about 80% of hours streamed“
„…combined effect of personlizations and recommendations saves us more than 1 Billion per year“
42saracus consulting – Cloudera Webinar
44. Titelmasterformat durch Klicken bearbeitenZusammenfassung und Ausblick
Maschinelles Lernen ist essentiell um wettbewerbsfähig zu bleiben
CDH mit Spark ML ideal für Machine Learning Development
Wir unterstützen Sie bei der Entwicklung übers Deployment bis zum Monitoring bei Ihren Use
Cases
Erfahren Sie mehr über uns auf unserer Homepage www.saracus.com, in unseren White Papern
oder im saracus Big Data Blog
44saracus consulting – Cloudera Webinar
45. Titelmasterformat durch Klicken bearbeiten
Ihre Fragen?
Vielen Dank für ihre Aufmerksamkeit
45
Homepage: www.saracus.com
E-Mail: m.rothering@saracus.com