SlideShare ist ein Scribd-Unternehmen logo
1 von 46
1© Cloudera, Inc. All rights reserved.
Wie man aus Daten durch maschinelles
Lernen Wert schafft
Daniel Tydecks, Systems Engineer DACH & CE, Cloudera
Dr. Marcel Rothering, IT Consultant, saracus consulting GmbH
2© Cloudera, Inc. All rights reserved.
“Oil doesn’t
generate more oil
[…] the product of
data will generate
more data”
Piero Scaruffi
3© Cloudera, Inc. All rights reserved.
The most valuable companies are data-driven
0
200
400
600
800
1,000
1,200
1,400
1,600
2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Market capitalization normalized growth ($B) 2007-2017
Apple Google Microsoft Facebook Amazon S&P 500
Normalized 2007 =100
4© Cloudera, Inc. All rights reserved.
The age of “datafication”
Cost of compute
Data volume
Time
Machine
Learning
NO
Machine
Learning
1950s 1960s 1970s 1980s 1990s 2000s 2010s 2020s
5© Cloudera, Inc. All rights reserved.
Key challenge: Extract true useful meaning from data
+ make it actionable
Open science & reproducible research!
6© Cloudera, Inc. All rights reserved.
Open data science in the enterprise
IT
drive adoption while maintaining compliance
Data Scientist
explore, experiment, iterate
7© Cloudera, Inc. All rights reserved.
Sample data science / machine learning workflow
From data to exploration to action
Data Engineering Data Science (Exploratory) Production (Operational)
Data Wrangling
Analysis and
Visualization
Model Training
& Testing
Production
Data Pipelines Batch Scoring
Online Scoring
Serving
Data GovernanceGovernance
Processing
Acquisition
Reports,
Dashboards
Shared: Data, Operations, Governance, Security, Metadata
Dev: Collaboration, Version Control Ops: Deployment, Scheduling, Orchestration, Monitor
8© Cloudera, Inc. All rights reserved.
The good news
Data has never been
more plentiful
Open source data science and
machine learning libraries are
mature and continuously
evolving
Commodity (and on-demand) compute
makes scalable production machine
learning affordable
9© Cloudera, Inc. All rights reserved.
The bad news
Most data science done at
small scale, individually,
and is difficult to replicate
Teams have different,
conflicting requests for
languages & libraries
Data needs to move
across multiple different
systems
10© Cloudera, Inc. All rights reserved.
Access Scale Developer experience
Additional challenges
11© Cloudera, Inc. All rights reserved.
Our goal: An open platform for data science at scale
Help more data scientists
use the power of Hadoop
Use a powerful, familiar
environment with direct access to
Hadoop data and compute
Data Scientist
Data Engineer
Make it easy and secure to
add new users, use cases
Offer secure self-service analytics
and a faster path to production on
common, affordable infrastructure
Enterprise Architect
Hadoop Admin
12© Cloudera, Inc. All rights reserved.
Cloudera Enterprise
1
The modern platform for machine learning and analytics optimized for the cloud
EXTENSIBLE
SERVICES
CORE SERVICES
DATA
ENGINEERING
OPERATIONAL
DATABASE
ANALYTIC
DATABASE
DATA CATALOG
INGEST &
REPLICATION
SECURITY GOVERNANCE
WORKLOAD
MANAGEMENT
DATA
SCIENCE
S3 ADLS HDFS KUDU
STORAGE
SERVICES
13© Cloudera, Inc. All rights reserved.
For data scientists
• Open data science, your way
Use R, Python, or Scala
• No need to sample
Directly access data in secure
clusters via Spark & Impala
• Reproducible, collaborative
research
Share with your whole team
Accelerate data science from exploration to production
For IT professionals
• Bring analysis to the data
Give data science team the
freedom to work how they want,
when they want
• Secure by default
Stay compliant with out-of-the-
box Hadoop security
• Flexible deployment
On-premises or in the cloud
EXTENSIBLE
SERVICES
CORE SERVICES
DATA
ENGINEERING
OPERATIONAL
DATABASE
ANALYTIC
DATABASE
DATA CATALOG
INGEST &
REPLICATION
SECURITY GOVERNANCE
WORKLOAD
MANAGEMENT
DATA
SCIENCE
S3 ADLS HDFS KUDU
STORAGE
SERVICES
DATA
SCIENCE
14© Cloudera, Inc. All rights reserved.
Why is this relevant?
Focus!
15© Cloudera, Inc. All rights reserved.
CDSW
16© Cloudera, Inc. All rights reserved.
Call to action:
1) Talk to our partners or us – we
help to avoid common mistakes
2) Setup a lab with CDH & CDSW
3) Iterate & fail fast: load, transform
& analyze to show value quickly
4) Act business focused
5) Get used to keeping data
centralized
16© Cloudera, Inc. All rights reserved.
Titelmasterformat durch Klicken bearbeiten
Wie man aus Daten durch maschinelles
Lernen Wert schafft
Cloudera Webinar
Referent: Dr. Marcel Rothering
Datum: 24.10.2017
Titelmasterformat durch Klicken bearbeitenAgenda
1. Vorstellung: saracus consulting
2. Machine Learning & Spark MLlib
3. ShowCase I: Retail-Clustering
4. ShowCase II: Movie Recommendation Engine
5. Zusammenfassung und Ausblick
18saracus consulting – Cloudera Webinar
Titelmasterformat durch Klicken bearbeitenAgenda
1. Vorstellung: saracus consulting
2. Machine Learning & Spark MLlib
3. ShowCase I: Retail-Clustering
4. ShowCase II: Movie Recommendation Engine
5. Zusammenfassung und Ausblick
19saracus consulting - Cloudera Webinar
Titelmasterformat durch Klicken bearbeiten
Mit über 25 Jahren Erfahrung sind wir eines der führenden herstellerunabhängigen
Beratungsunternehmen und Systemintegratoren für BI und Big Data Projekten im deutschsprachigen
Raum.
Schwerpunkt-Branchen sind Versicherungen, Banken, Einzelhandel und Telekommunikation.
Gemeinsame Umsetzung von Projekten mit unserem Partner Cloudera.
saracus: Mission und Beratungsprodukte
20saracus consulting - Cloudera Webinar
DWH academy
Utilities
Consulting !
 Inhouse-Seminare
 Studien
 Zertifizierung
 DWtec©-Methodology
 DWH-Automation
 DWinsurance
 Strategie &
Architektur
 Analyse & Design
 Implementierung
 Testing
 Betrieb/Wartung
 Organisation
Titelmasterformat durch Klicken bearbeitensaracus Kompetenzfelder
21saracus consulting - Cloudera Webinar
Integrationsarchitektur
 Data Governance
 Architekturen für analytische Systeme
 Data Warehouse (ETL-Prozesse)
 Datenqualität
 Master Data Management
Analytische Systeme
 Berichtswesen & Analyse
 Cockpits & Scorecards
 Planungssysteme
 Datenmodellierung
 Mobile BI
 Predictive Analytics
 BI-Reviews
 Analytisches CRM
 Kampagnen-Managementnt
!
Neue Themen
 Big Data: Hadoop
 Analysen in der Cloud
 Agile DWH / Scrum
 Data Vault
 Maschinelles Lernen
 Data Virtualization
 DWH-Automation
 Social Media Monitoring
Titelmasterformat durch Klicken bearbeitensaracus Big Data Consulting
22saracus consulting - Cloudera Webinar
Roadmap Design
Use Case
Identifizierung/
(saracus BDUC)
Design–Lösungen
für Use Cases
Product & Technology
Evaluation
On-premise /Cloud
Consulting/Strategie Pilot Architektur & Design Build & Deploy
Maintenance /
Support / Training
Proof of Concept
(On-premise,
Cloud-Lösung)
Pilot Projekt
Assessment
Scope & Analyse
Architektur-Design
Infrastruktur
Kapazitätsplanung
Applikationen
Realtime Analytics
Advanced Analy.
Data Ingestion
Data Preparation
Data Governance
Performance Tuning
Services
24/7 Support
Hadoop as a Service
Administration
Support in der Cloud
Training
(Diverse Schulungen)
Experten Review
Advising
Produktion
Deployment
Titelmasterformat durch Klicken bearbeitenVielfältige Kundenprojekte
23saracus consulting - Cloudera Webinar
Banken &
Finanzdienstleister
Versicherungen Telko & Medien Industrie
Transport & Reise Handel Öffentliche Verwaltung
& Gesundheitswesen
Energie
Titelmasterformat durch Klicken bearbeitenAgenda
1. Vorstellung: saracus consulting
2. Machine Learning & Spark MLlib
3. ShowCase I: Retail-Clustering
4. ShowCase II: Movie Recommendation Engine
5. Zusammenfassung und Ausblick
24saracus consulting – Cloudera Webinar
Titelmasterformat durch Klicken bearbeitenWas ist maschinelles Lernen?
 Arthur Lee Samuel: "gives computers the ability to learn without being explicitly programmed"
 Konstruktion von Algorithmen welche von Daten lernen und Vorhersagen ermöglichen
 Use Cases: Spam-Filter, Kundensegmentierung, Next-Best-Offer, Kreditwürdigkeit, Predictive
Maintenance, Cyber-Security, …
25saracus consulting – Cloudera Webinar
Titelmasterformat durch Klicken bearbeitenVorgehensweise: CRISP DM
26saracus consulting – Cloudera Webinar
Titelmasterformat durch Klicken bearbeitenCloudera Distribution für Data Analytics
 Integration mit Python Anaconda (Parcels)
 Cloudera Data Science Workbench für Data Science Projekte
 Einfache Installation verschiedener Services mit dem Cloudera Manager
 HUE als open source Analytics Workbench
27saracus consulting – Cloudera Webinar
Titelmasterformat durch Klicken bearbeitenApache Spark ML & MLlib
 Große Auswahl von verschiedenen Machine Learning Algorithmen: Lineare Regression, naive Bayes, Tree-
Based Models, Alternate Least Square, k-means clustering, …
 Parallele und verteilte Implementation der Algorithmen
 Iterative Algorithmen profitieren von “in-memory datasets”
 Pipeline API zum Erstellen komplexer Datenströme für Data Preprocessing, Feature Extraction, Model
Evaluation, …
 Gute Integration ins Hadoop Ökosystem
28saracus consulting – Cloudera Webinar
Titelmasterformat durch Klicken bearbeitenAgenda
1. Vorstellung: saracus consulting
2. Machine Learning & Spark MLlib
3. ShowCase I: Retail-Clustering
4. ShowCase II: Movie Recommendation Engine
5. Zusammenfassung und Ausblick
29saracus consulting – Cloudera Webinar
Titelmasterformat durch Klicken bearbeitenMotivation & Ausgangslage
 Daten: Kassenbons (über 40 verschiedene Attribute), möglicherweise vorhandene Kundendaten
(Alter, Geschlecht, Wohnort, …)
 Ausgangslage: XML-Format, große Datenmengen, Advanced Analytics im klassischen DWH
oftmals nicht möglich
 Nutzen: gezielte Werbung z.B. in Prospekten, Personaloptimierung, Rabattaktionen,
Produktplazierung in Regalen, Optimierung des Produktsortiments
30saracus consulting – Cloudera Webinar
Titelmasterformat durch Klicken bearbeitenUmsetzung
 Anbindung der Kassensysteme an Kafka-Streaming
 Transformieren der XML Dateien zu JSON
 Ablegen der Daten aufs HDFS
 Mögliche Kundendaten mit Sqoop aufs HDFS laden
 Aufbereitung der Daten mit Spark SQL
 Kundensegmentierung mit Spark ML (k-Means)
31saracus consulting – Cloudera Webinar
Titelmasterformat durch Klicken bearbeitenk-Means Algorithmus
32saracus consulting – Cloudera Webinar
Quelle: Introduction to Statistical Learning – Hastie et al.
Titelmasterformat durch Klicken bearbeitenShowCase Demo
33saracus consulting – Cloudera Webinar
Retail Clustering
Titelmasterformat durch Klicken bearbeitenAgenda
1. Vorstellung: saracus consulting
2. Machine Learning & Spark MLlib
3. ShowCase I: Retail-Clustering
4. ShowCase II: Movie Recommendation Engine
5. Zusammenfassung und Ausblick
34saracus consulting – Cloudera Webinar
Titelmasterformat durch Klicken bearbeitenMotivation & Ausgangslage
• Challenge E-Commerce: „Kunden helfen
bei der großen Vielfalt an Produkten die
zu finden, welche am besten zu ihnen
passen“
• Zwei verschiedene Strategien:
 Content Based Approach
 Profiling der Benutzer und
Produkte, um deren
Beziehungen zu finden
 Umfangreiche Nutzerprofile
liegen oftmals nicht vor
 Collaborative Filtering
 Erfordert keine Erstellung
von expliziten Profilen
 Basiert allein auf bisherigem
Verhalten von Benutzern
 Co-Clustering: „like minded
users“ bzw.
ähnliche Produkte
35saracus consulting – Cloudera Webinar
Titelmasterformat durch Klicken bearbeitenCollaborative Filtering und ALS
36saracus consulting – Cloudera Webinar
• Basiert auf Matrix-Faktorisierung
„hidden Features“
• Minimiert RMSE mit alternierender
Vorgehensweise
• Theorie: „Large-scale Parallel
Collaborative Filtering for the Netflix
Prize – Zhou et. al.“
• Riesige Matrizen mit Millionen
Einträgen
• Schnelles Trainieren des Modells
erfordert verteiltes Rechnen
• CDH und Apache Spark sind dafür
bestens geeignet
Titelmasterformat durch Klicken bearbeiten
saracus consulting – Cloudera Webinar 37
Umsetzung in der AWS mit CDH
und Apache Spark
• 5-Node Cluster in der AWS mit CDH
• Frei zugänglicher Datensatz von MovieLens
(> 10 000 000 Ratings von >10 000 Filmen)
• Ziel: Eigene Bewertungen hinzufügen, Modell trainieren und Vorhersagen
für Empfehlungen machen
Titelmasterformat durch Klicken bearbeiten
saracus consulting – Cloudera Webinar 38
Erkunden des Datensatzes
Titelmasterformat durch Klicken bearbeiten
saracus consulting – Cloudera Webinar 39
Eigene Bewertungen abgeben
Titelmasterformat durch Klicken bearbeiten
saracus consulting – Cloudera Webinar 40
Modell trainieren und testen
Titelmasterformat durch Klicken bearbeiten
saracus consulting – Cloudera Webinar 41
Unsere Empfehlungen
Titelmasterformat durch Klicken bearbeitenZusammenfassung: Recommendation Engine
 Modell sollte bei neuen Bewertungen der Benutzer regelmäßig neu trainiert werden  Training sollte nicht
lange dauern
 Erstellung einer Recommendation Engine auf verteilten System gut umsetzbar mit CDH und Apache Spark
 Collborative Filtering auch mit implicit feedback möglich: Ableiten der Nutzervorlieben vom Browserverlauf,
Suchmustern, …
 Nutzen: Stärkung der Kundenbindung, Steigerung der Einnahmen, Ersparnis von Kosten, …
 Justin Basilico (Netlix Recommendation Research Engineer):
 „… system influences choice for about 80% of hours streamed“
 „…combined effect of personlizations and recommendations saves us more than 1 Billion per year“
42saracus consulting – Cloudera Webinar
Titelmasterformat durch Klicken bearbeitenAgenda
1. Vorstellung: saracus consulting
2. Machine Learning & Spark MLlib
3. ShowCase I: Retail-Clustering
4. ShowCase II: Movie Recommendation Engine
5. Zusammenfassung und Ausblick
43saracus consulting – Cloudera Webinar
Titelmasterformat durch Klicken bearbeitenZusammenfassung und Ausblick
 Maschinelles Lernen ist essentiell um wettbewerbsfähig zu bleiben
 CDH mit Spark ML ideal für Machine Learning Development
 Wir unterstützen Sie bei der Entwicklung übers Deployment bis zum Monitoring bei Ihren Use
Cases
 Erfahren Sie mehr über uns auf unserer Homepage www.saracus.com, in unseren White Papern
oder im saracus Big Data Blog
44saracus consulting – Cloudera Webinar
Titelmasterformat durch Klicken bearbeiten
Ihre Fragen?
Vielen Dank für ihre Aufmerksamkeit
45
Homepage: www.saracus.com
E-Mail: m.rothering@saracus.com
46© Cloudera, Inc. All rights reserved.
Thank you

Weitere ähnliche Inhalte

Was ist angesagt?

22. Jahrestagung: Die MainDays finden vom 23./24.11.21 in Berlin statt
22. Jahrestagung: Die MainDays finden vom 23./24.11.21 in Berlin statt22. Jahrestagung: Die MainDays finden vom 23./24.11.21 in Berlin statt
22. Jahrestagung: Die MainDays finden vom 23./24.11.21 in Berlin stattargvis GmbH
 
Harald Kriener (ASCUS Group International)
Harald Kriener (ASCUS Group International)Harald Kriener (ASCUS Group International)
Harald Kriener (ASCUS Group International)Praxistage
 
Data Fabric (German)
Data Fabric (German)Data Fabric (German)
Data Fabric (German)NetApp
 
SplunkLive Zurich Overview
SplunkLive Zurich OverviewSplunkLive Zurich Overview
SplunkLive Zurich OverviewGeorg Knon
 
Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...
Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...
Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...confluent
 
SAP Leonardo Overview and Internet of Things Basics
SAP Leonardo Overview and Internet of Things BasicsSAP Leonardo Overview and Internet of Things Basics
SAP Leonardo Overview and Internet of Things BasicsManjunath Belgal
 
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...Precisely
 
SDIC'16 - Erfolgsgeschichte aus dem Smart Data Solution Center (SDSC-BW)
SDIC'16 - Erfolgsgeschichte aus dem Smart Data Solution Center (SDSC-BW)SDIC'16 - Erfolgsgeschichte aus dem Smart Data Solution Center (SDSC-BW)
SDIC'16 - Erfolgsgeschichte aus dem Smart Data Solution Center (SDSC-BW)Smart Data Innovation Lab
 
Data lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesData lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesComsysto Reply GmbH
 
Pivotal Digital Transformation Forum: Fraport AG
Pivotal Digital Transformation Forum: Fraport AGPivotal Digital Transformation Forum: Fraport AG
Pivotal Digital Transformation Forum: Fraport AGVMware Tanzu
 
BITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-KourilBITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-KourilStefan Schwarz
 
Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)AWS Germany
 
"Mit HP zum Rechenzentrum der Zukunft". Wolfgang Egger at HP Ideas 2008
"Mit HP zum Rechenzentrum der Zukunft". Wolfgang Egger at HP Ideas 2008"Mit HP zum Rechenzentrum der Zukunft". Wolfgang Egger at HP Ideas 2008
"Mit HP zum Rechenzentrum der Zukunft". Wolfgang Egger at HP Ideas 2008hpaustria
 
Die Macht der Daten - CeBIT 2017
Die Macht der Daten - CeBIT 2017Die Macht der Daten - CeBIT 2017
Die Macht der Daten - CeBIT 2017Detlev Sandel
 
Sas unternehmenspräsentation 2013
Sas unternehmenspräsentation 2013Sas unternehmenspräsentation 2013
Sas unternehmenspräsentation 2013tnittel
 
Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...
Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...
Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...Trivadis
 
Portfolio 2016 animated style
Portfolio 2016   animated stylePortfolio 2016   animated style
Portfolio 2016 animated styleSascha Oehl
 
SVA IoT - Splunk Industry Roundtable
SVA IoT - Splunk Industry RoundtableSVA IoT - Splunk Industry Roundtable
SVA IoT - Splunk Industry RoundtableSplunk
 

Was ist angesagt? (20)

22. Jahrestagung: Die MainDays finden vom 23./24.11.21 in Berlin statt
22. Jahrestagung: Die MainDays finden vom 23./24.11.21 in Berlin statt22. Jahrestagung: Die MainDays finden vom 23./24.11.21 in Berlin statt
22. Jahrestagung: Die MainDays finden vom 23./24.11.21 in Berlin statt
 
Harald Kriener (ASCUS Group International)
Harald Kriener (ASCUS Group International)Harald Kriener (ASCUS Group International)
Harald Kriener (ASCUS Group International)
 
Data Fabric (German)
Data Fabric (German)Data Fabric (German)
Data Fabric (German)
 
Big Data - einfach erklärt!
Big Data - einfach erklärt!Big Data - einfach erklärt!
Big Data - einfach erklärt!
 
SplunkLive Zurich Overview
SplunkLive Zurich OverviewSplunkLive Zurich Overview
SplunkLive Zurich Overview
 
Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...
Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...
Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...
 
SAP Leonardo Overview and Internet of Things Basics
SAP Leonardo Overview and Internet of Things BasicsSAP Leonardo Overview and Internet of Things Basics
SAP Leonardo Overview and Internet of Things Basics
 
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
 
SDIC'16 - Erfolgsgeschichte aus dem Smart Data Solution Center (SDSC-BW)
SDIC'16 - Erfolgsgeschichte aus dem Smart Data Solution Center (SDSC-BW)SDIC'16 - Erfolgsgeschichte aus dem Smart Data Solution Center (SDSC-BW)
SDIC'16 - Erfolgsgeschichte aus dem Smart Data Solution Center (SDSC-BW)
 
Webinar big data für unternehmen
Webinar big data für unternehmenWebinar big data für unternehmen
Webinar big data für unternehmen
 
Data lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesData lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid Architectures
 
Pivotal Digital Transformation Forum: Fraport AG
Pivotal Digital Transformation Forum: Fraport AGPivotal Digital Transformation Forum: Fraport AG
Pivotal Digital Transformation Forum: Fraport AG
 
BITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-KourilBITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
 
Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)
 
"Mit HP zum Rechenzentrum der Zukunft". Wolfgang Egger at HP Ideas 2008
"Mit HP zum Rechenzentrum der Zukunft". Wolfgang Egger at HP Ideas 2008"Mit HP zum Rechenzentrum der Zukunft". Wolfgang Egger at HP Ideas 2008
"Mit HP zum Rechenzentrum der Zukunft". Wolfgang Egger at HP Ideas 2008
 
Die Macht der Daten - CeBIT 2017
Die Macht der Daten - CeBIT 2017Die Macht der Daten - CeBIT 2017
Die Macht der Daten - CeBIT 2017
 
Sas unternehmenspräsentation 2013
Sas unternehmenspräsentation 2013Sas unternehmenspräsentation 2013
Sas unternehmenspräsentation 2013
 
Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...
Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...
Azure Days 2019: Azure@Helsana: Die Erweiterung von Dynamics CRM mit Azure Po...
 
Portfolio 2016 animated style
Portfolio 2016   animated stylePortfolio 2016   animated style
Portfolio 2016 animated style
 
SVA IoT - Splunk Industry Roundtable
SVA IoT - Splunk Industry RoundtableSVA IoT - Splunk Industry Roundtable
SVA IoT - Splunk Industry Roundtable
 

Andere mochten auch

Security implementation on hadoop
Security implementation on hadoopSecurity implementation on hadoop
Security implementation on hadoopWei-Chiu Chuang
 
Using Big Data to Transform Your Customer’s Experience - Part 1

Using Big Data to Transform Your Customer’s Experience - Part 1
Using Big Data to Transform Your Customer’s Experience - Part 1

Using Big Data to Transform Your Customer’s Experience - Part 1
Cloudera, Inc.
 
Real-Time Analytics Visualized w/ Kafka + Streamliner + MemSQL + ZoomData, An...
Real-Time Analytics Visualized w/ Kafka + Streamliner + MemSQL + ZoomData, An...Real-Time Analytics Visualized w/ Kafka + Streamliner + MemSQL + ZoomData, An...
Real-Time Analytics Visualized w/ Kafka + Streamliner + MemSQL + ZoomData, An...confluent
 
빅데이터윈윈 컨퍼런스_데이터시각화자료
빅데이터윈윈 컨퍼런스_데이터시각화자료빅데이터윈윈 컨퍼런스_데이터시각화자료
빅데이터윈윈 컨퍼런스_데이터시각화자료ABRC_DATA
 
Spark as part of a Hybrid RDBMS Architecture-John Leach Cofounder Splice Machine
Spark as part of a Hybrid RDBMS Architecture-John Leach Cofounder Splice MachineSpark as part of a Hybrid RDBMS Architecture-John Leach Cofounder Splice Machine
Spark as part of a Hybrid RDBMS Architecture-John Leach Cofounder Splice MachineData Con LA
 
Apache Spark—Apache HBase Connector: Feature Rich and Efficient Access to HBa...
Apache Spark—Apache HBase Connector: Feature Rich and Efficient Access to HBa...Apache Spark—Apache HBase Connector: Feature Rich and Efficient Access to HBa...
Apache Spark—Apache HBase Connector: Feature Rich and Efficient Access to HBa...Spark Summit
 
Cloudera and Qlik: Big Data Analytics for Business
Cloudera and Qlik: Big Data Analytics for BusinessCloudera and Qlik: Big Data Analytics for Business
Cloudera and Qlik: Big Data Analytics for BusinessData IQ Argentina
 
The Evolution of Data Architecture
The Evolution of Data ArchitectureThe Evolution of Data Architecture
The Evolution of Data ArchitectureWei-Chiu Chuang
 
Spark meetup - Zoomdata Streaming
Spark meetup  - Zoomdata StreamingSpark meetup  - Zoomdata Streaming
Spark meetup - Zoomdata StreamingZoomdata
 
Put Alternative Data to Use in Capital Markets

Put Alternative Data to Use in Capital Markets
Put Alternative Data to Use in Capital Markets

Put Alternative Data to Use in Capital Markets
Cloudera, Inc.
 
The Fast Path to Building Operational Applications with Spark
The Fast Path to Building Operational Applications with SparkThe Fast Path to Building Operational Applications with Spark
The Fast Path to Building Operational Applications with SparkSingleStore
 
Building the Ideal Stack for Real-Time Analytics
Building the Ideal Stack for Real-Time AnalyticsBuilding the Ideal Stack for Real-Time Analytics
Building the Ideal Stack for Real-Time AnalyticsSingleStore
 
Partner Ecosystem Showcase for Apache Ranger and Apache Atlas
Partner Ecosystem Showcase for Apache Ranger and Apache AtlasPartner Ecosystem Showcase for Apache Ranger and Apache Atlas
Partner Ecosystem Showcase for Apache Ranger and Apache AtlasDataWorks Summit
 
CWIN17 Frankfurt / Cloudera
CWIN17 Frankfurt / ClouderaCWIN17 Frankfurt / Cloudera
CWIN17 Frankfurt / ClouderaCapgemini
 
MatFast: In-Memory Distributed Matrix Computation Processing and Optimization...
MatFast: In-Memory Distributed Matrix Computation Processing and Optimization...MatFast: In-Memory Distributed Matrix Computation Processing and Optimization...
MatFast: In-Memory Distributed Matrix Computation Processing and Optimization...Spark Summit
 
Benefits of Transferring Real-Time Data to Hadoop at Scale
Benefits of Transferring Real-Time Data to Hadoop at ScaleBenefits of Transferring Real-Time Data to Hadoop at Scale
Benefits of Transferring Real-Time Data to Hadoop at ScaleHortonworks
 

Andere mochten auch (20)

Security implementation on hadoop
Security implementation on hadoopSecurity implementation on hadoop
Security implementation on hadoop
 
Softnix Messaging Server
Softnix Messaging ServerSoftnix Messaging Server
Softnix Messaging Server
 
Using Big Data to Transform Your Customer’s Experience - Part 1

Using Big Data to Transform Your Customer’s Experience - Part 1
Using Big Data to Transform Your Customer’s Experience - Part 1

Using Big Data to Transform Your Customer’s Experience - Part 1

 
Real-Time Analytics Visualized w/ Kafka + Streamliner + MemSQL + ZoomData, An...
Real-Time Analytics Visualized w/ Kafka + Streamliner + MemSQL + ZoomData, An...Real-Time Analytics Visualized w/ Kafka + Streamliner + MemSQL + ZoomData, An...
Real-Time Analytics Visualized w/ Kafka + Streamliner + MemSQL + ZoomData, An...
 
빅데이터윈윈 컨퍼런스_데이터시각화자료
빅데이터윈윈 컨퍼런스_데이터시각화자료빅데이터윈윈 컨퍼런스_데이터시각화자료
빅데이터윈윈 컨퍼런스_데이터시각화자료
 
Spark as part of a Hybrid RDBMS Architecture-John Leach Cofounder Splice Machine
Spark as part of a Hybrid RDBMS Architecture-John Leach Cofounder Splice MachineSpark as part of a Hybrid RDBMS Architecture-John Leach Cofounder Splice Machine
Spark as part of a Hybrid RDBMS Architecture-John Leach Cofounder Splice Machine
 
Apache Spark—Apache HBase Connector: Feature Rich and Efficient Access to HBa...
Apache Spark—Apache HBase Connector: Feature Rich and Efficient Access to HBa...Apache Spark—Apache HBase Connector: Feature Rich and Efficient Access to HBa...
Apache Spark—Apache HBase Connector: Feature Rich and Efficient Access to HBa...
 
Cloudera and Qlik: Big Data Analytics for Business
Cloudera and Qlik: Big Data Analytics for BusinessCloudera and Qlik: Big Data Analytics for Business
Cloudera and Qlik: Big Data Analytics for Business
 
Ibm watson
Ibm watsonIbm watson
Ibm watson
 
The Evolution of Data Architecture
The Evolution of Data ArchitectureThe Evolution of Data Architecture
The Evolution of Data Architecture
 
Softnix Security Data Lake
Softnix Security Data Lake Softnix Security Data Lake
Softnix Security Data Lake
 
Spark meetup - Zoomdata Streaming
Spark meetup  - Zoomdata StreamingSpark meetup  - Zoomdata Streaming
Spark meetup - Zoomdata Streaming
 
Zoomdata
ZoomdataZoomdata
Zoomdata
 
Put Alternative Data to Use in Capital Markets

Put Alternative Data to Use in Capital Markets
Put Alternative Data to Use in Capital Markets

Put Alternative Data to Use in Capital Markets

 
The Fast Path to Building Operational Applications with Spark
The Fast Path to Building Operational Applications with SparkThe Fast Path to Building Operational Applications with Spark
The Fast Path to Building Operational Applications with Spark
 
Building the Ideal Stack for Real-Time Analytics
Building the Ideal Stack for Real-Time AnalyticsBuilding the Ideal Stack for Real-Time Analytics
Building the Ideal Stack for Real-Time Analytics
 
Partner Ecosystem Showcase for Apache Ranger and Apache Atlas
Partner Ecosystem Showcase for Apache Ranger and Apache AtlasPartner Ecosystem Showcase for Apache Ranger and Apache Atlas
Partner Ecosystem Showcase for Apache Ranger and Apache Atlas
 
CWIN17 Frankfurt / Cloudera
CWIN17 Frankfurt / ClouderaCWIN17 Frankfurt / Cloudera
CWIN17 Frankfurt / Cloudera
 
MatFast: In-Memory Distributed Matrix Computation Processing and Optimization...
MatFast: In-Memory Distributed Matrix Computation Processing and Optimization...MatFast: In-Memory Distributed Matrix Computation Processing and Optimization...
MatFast: In-Memory Distributed Matrix Computation Processing and Optimization...
 
Benefits of Transferring Real-Time Data to Hadoop at Scale
Benefits of Transferring Real-Time Data to Hadoop at ScaleBenefits of Transferring Real-Time Data to Hadoop at Scale
Benefits of Transferring Real-Time Data to Hadoop at Scale
 

Ähnlich wie Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen Wert schafft

Data Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtData Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtIBsolution GmbH
 
Informatica cloud datenblatt_de
Informatica cloud datenblatt_deInformatica cloud datenblatt_de
Informatica cloud datenblatt_deMullrich1012
 
Informatica Cloud - Informatica Cloud: Integration und Datenmanagement
Informatica Cloud - Informatica Cloud: Integration und DatenmanagementInformatica Cloud - Informatica Cloud: Integration und Datenmanagement
Informatica Cloud - Informatica Cloud: Integration und DatenmanagementSalesforce Deutschland
 
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzenAWS Germany
 
CLOUDSERVICES FÜR ISVs
CLOUDSERVICES FÜR ISVsCLOUDSERVICES FÜR ISVs
CLOUDSERVICES FÜR ISVsacentrix GmbH
 
SAP Trends 2014 - die Entscheider kennen sollten
SAP Trends 2014 - die Entscheider kennen solltenSAP Trends 2014 - die Entscheider kennen sollten
SAP Trends 2014 - die Entscheider kennen solltenIT-Onlinemagazin
 
Logical Data Warehouse - SQL mit Oracle DB und Hadoop
Logical Data Warehouse - SQL mit Oracle DB und HadoopLogical Data Warehouse - SQL mit Oracle DB und Hadoop
Logical Data Warehouse - SQL mit Oracle DB und HadoopOPITZ CONSULTING Deutschland
 
Webcast: SAP on Azure für den Mittelstand - Erfolgsfaktor Integration
Webcast: SAP on Azure für den Mittelstand - Erfolgsfaktor IntegrationWebcast: SAP on Azure für den Mittelstand - Erfolgsfaktor Integration
Webcast: SAP on Azure für den Mittelstand - Erfolgsfaktor IntegrationQUIBIQ Hamburg
 
Internet of Things Architecture
Internet of Things ArchitectureInternet of Things Architecture
Internet of Things ArchitectureChristian Waha
 
Der erste Schritt – idealtypische Wege in die Cloud und in der Cloud für Unte...
Der erste Schritt – idealtypische Wege in die Cloud und in der Cloud für Unte...Der erste Schritt – idealtypische Wege in die Cloud und in der Cloud für Unte...
Der erste Schritt – idealtypische Wege in die Cloud und in der Cloud für Unte...AWS Germany
 
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...inovex GmbH
 
Einführung in das Customer Success Management von Oracle Deutschland
Einführung in das Customer Success Management von Oracle DeutschlandEinführung in das Customer Success Management von Oracle Deutschland
Einführung in das Customer Success Management von Oracle DeutschlandCarsten Muetzlitz
 
20181120_DOAG_OracleNoSQLDB_KPatenge
20181120_DOAG_OracleNoSQLDB_KPatenge20181120_DOAG_OracleNoSQLDB_KPatenge
20181120_DOAG_OracleNoSQLDB_KPatengeKarin Patenge
 
Multi-Cloud eGov Webinar 20220322
Multi-Cloud eGov Webinar 20220322Multi-Cloud eGov Webinar 20220322
Multi-Cloud eGov Webinar 20220322Thomas Treml
 
Infrastructure Solution Day | Hybrid
Infrastructure Solution Day | HybridInfrastructure Solution Day | Hybrid
Infrastructure Solution Day | HybridMicrosoft Österreich
 
Impulsseminar cloud computing - ufz.ch 20120521
Impulsseminar cloud computing - ufz.ch 20120521Impulsseminar cloud computing - ufz.ch 20120521
Impulsseminar cloud computing - ufz.ch 20120521ihrepartner.ch gmbh
 

Ähnlich wie Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen Wert schafft (20)

Modernes Rechenzentrum
Modernes Rechenzentrum Modernes Rechenzentrum
Modernes Rechenzentrum
 
IBM Connected
IBM ConnectedIBM Connected
IBM Connected
 
Data Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtData Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedacht
 
Informatica cloud datenblatt_de
Informatica cloud datenblatt_deInformatica cloud datenblatt_de
Informatica cloud datenblatt_de
 
Informatica Cloud - Informatica Cloud: Integration und Datenmanagement
Informatica Cloud - Informatica Cloud: Integration und DatenmanagementInformatica Cloud - Informatica Cloud: Integration und Datenmanagement
Informatica Cloud - Informatica Cloud: Integration und Datenmanagement
 
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
 
CLOUDSERVICES FÜR ISVs
CLOUDSERVICES FÜR ISVsCLOUDSERVICES FÜR ISVs
CLOUDSERVICES FÜR ISVs
 
SAP Trends 2014 - die Entscheider kennen sollten
SAP Trends 2014 - die Entscheider kennen solltenSAP Trends 2014 - die Entscheider kennen sollten
SAP Trends 2014 - die Entscheider kennen sollten
 
Logical Data Warehouse - SQL mit Oracle DB und Hadoop
Logical Data Warehouse - SQL mit Oracle DB und HadoopLogical Data Warehouse - SQL mit Oracle DB und Hadoop
Logical Data Warehouse - SQL mit Oracle DB und Hadoop
 
Syntegris Unternehmensprofil
Syntegris UnternehmensprofilSyntegris Unternehmensprofil
Syntegris Unternehmensprofil
 
Webcast: SAP on Azure für den Mittelstand - Erfolgsfaktor Integration
Webcast: SAP on Azure für den Mittelstand - Erfolgsfaktor IntegrationWebcast: SAP on Azure für den Mittelstand - Erfolgsfaktor Integration
Webcast: SAP on Azure für den Mittelstand - Erfolgsfaktor Integration
 
Internet of Things Architecture
Internet of Things ArchitectureInternet of Things Architecture
Internet of Things Architecture
 
Der erste Schritt – idealtypische Wege in die Cloud und in der Cloud für Unte...
Der erste Schritt – idealtypische Wege in die Cloud und in der Cloud für Unte...Der erste Schritt – idealtypische Wege in die Cloud und in der Cloud für Unte...
Der erste Schritt – idealtypische Wege in die Cloud und in der Cloud für Unte...
 
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
 
Einführung in das Customer Success Management von Oracle Deutschland
Einführung in das Customer Success Management von Oracle DeutschlandEinführung in das Customer Success Management von Oracle Deutschland
Einführung in das Customer Success Management von Oracle Deutschland
 
20181120_DOAG_OracleNoSQLDB_KPatenge
20181120_DOAG_OracleNoSQLDB_KPatenge20181120_DOAG_OracleNoSQLDB_KPatenge
20181120_DOAG_OracleNoSQLDB_KPatenge
 
Multi-Cloud eGov Webinar 20220322
Multi-Cloud eGov Webinar 20220322Multi-Cloud eGov Webinar 20220322
Multi-Cloud eGov Webinar 20220322
 
Infrastructure Solution Day | Hybrid
Infrastructure Solution Day | HybridInfrastructure Solution Day | Hybrid
Infrastructure Solution Day | Hybrid
 
Impulsseminar cloud computing - ufz.ch 20120521
Impulsseminar cloud computing - ufz.ch 20120521Impulsseminar cloud computing - ufz.ch 20120521
Impulsseminar cloud computing - ufz.ch 20120521
 
Vodafone Cloud & Hosting Services
Vodafone Cloud & Hosting Services Vodafone Cloud & Hosting Services
Vodafone Cloud & Hosting Services
 

Mehr von Cloudera, Inc.

Partner Briefing_January 25 (FINAL).pptx
Partner Briefing_January 25 (FINAL).pptxPartner Briefing_January 25 (FINAL).pptx
Partner Briefing_January 25 (FINAL).pptxCloudera, Inc.
 
Cloudera Data Impact Awards 2021 - Finalists
Cloudera Data Impact Awards 2021 - Finalists Cloudera Data Impact Awards 2021 - Finalists
Cloudera Data Impact Awards 2021 - Finalists Cloudera, Inc.
 
2020 Cloudera Data Impact Awards Finalists
2020 Cloudera Data Impact Awards Finalists2020 Cloudera Data Impact Awards Finalists
2020 Cloudera Data Impact Awards FinalistsCloudera, Inc.
 
Edc event vienna presentation 1 oct 2019
Edc event vienna presentation 1 oct 2019Edc event vienna presentation 1 oct 2019
Edc event vienna presentation 1 oct 2019Cloudera, Inc.
 
Machine Learning with Limited Labeled Data 4/3/19
Machine Learning with Limited Labeled Data 4/3/19Machine Learning with Limited Labeled Data 4/3/19
Machine Learning with Limited Labeled Data 4/3/19Cloudera, Inc.
 
Data Driven With the Cloudera Modern Data Warehouse 3.19.19
Data Driven With the Cloudera Modern Data Warehouse 3.19.19Data Driven With the Cloudera Modern Data Warehouse 3.19.19
Data Driven With the Cloudera Modern Data Warehouse 3.19.19Cloudera, Inc.
 
Introducing Cloudera DataFlow (CDF) 2.13.19
Introducing Cloudera DataFlow (CDF) 2.13.19Introducing Cloudera DataFlow (CDF) 2.13.19
Introducing Cloudera DataFlow (CDF) 2.13.19Cloudera, Inc.
 
Introducing Cloudera Data Science Workbench for HDP 2.12.19
Introducing Cloudera Data Science Workbench for HDP 2.12.19Introducing Cloudera Data Science Workbench for HDP 2.12.19
Introducing Cloudera Data Science Workbench for HDP 2.12.19Cloudera, Inc.
 
Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19
Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19
Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19Cloudera, Inc.
 
Leveraging the cloud for analytics and machine learning 1.29.19
Leveraging the cloud for analytics and machine learning 1.29.19Leveraging the cloud for analytics and machine learning 1.29.19
Leveraging the cloud for analytics and machine learning 1.29.19Cloudera, Inc.
 
Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19
Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19
Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19Cloudera, Inc.
 
Leveraging the Cloud for Big Data Analytics 12.11.18
Leveraging the Cloud for Big Data Analytics 12.11.18Leveraging the Cloud for Big Data Analytics 12.11.18
Leveraging the Cloud for Big Data Analytics 12.11.18Cloudera, Inc.
 
Modern Data Warehouse Fundamentals Part 3
Modern Data Warehouse Fundamentals Part 3Modern Data Warehouse Fundamentals Part 3
Modern Data Warehouse Fundamentals Part 3Cloudera, Inc.
 
Modern Data Warehouse Fundamentals Part 2
Modern Data Warehouse Fundamentals Part 2Modern Data Warehouse Fundamentals Part 2
Modern Data Warehouse Fundamentals Part 2Cloudera, Inc.
 
Modern Data Warehouse Fundamentals Part 1
Modern Data Warehouse Fundamentals Part 1Modern Data Warehouse Fundamentals Part 1
Modern Data Warehouse Fundamentals Part 1Cloudera, Inc.
 
Extending Cloudera SDX beyond the Platform
Extending Cloudera SDX beyond the PlatformExtending Cloudera SDX beyond the Platform
Extending Cloudera SDX beyond the PlatformCloudera, Inc.
 
Federated Learning: ML with Privacy on the Edge 11.15.18
Federated Learning: ML with Privacy on the Edge 11.15.18Federated Learning: ML with Privacy on the Edge 11.15.18
Federated Learning: ML with Privacy on the Edge 11.15.18Cloudera, Inc.
 
Analyst Webinar: Doing a 180 on Customer 360
Analyst Webinar: Doing a 180 on Customer 360Analyst Webinar: Doing a 180 on Customer 360
Analyst Webinar: Doing a 180 on Customer 360Cloudera, Inc.
 
Build a modern platform for anti-money laundering 9.19.18
Build a modern platform for anti-money laundering 9.19.18Build a modern platform for anti-money laundering 9.19.18
Build a modern platform for anti-money laundering 9.19.18Cloudera, Inc.
 
Introducing the data science sandbox as a service 8.30.18
Introducing the data science sandbox as a service 8.30.18Introducing the data science sandbox as a service 8.30.18
Introducing the data science sandbox as a service 8.30.18Cloudera, Inc.
 

Mehr von Cloudera, Inc. (20)

Partner Briefing_January 25 (FINAL).pptx
Partner Briefing_January 25 (FINAL).pptxPartner Briefing_January 25 (FINAL).pptx
Partner Briefing_January 25 (FINAL).pptx
 
Cloudera Data Impact Awards 2021 - Finalists
Cloudera Data Impact Awards 2021 - Finalists Cloudera Data Impact Awards 2021 - Finalists
Cloudera Data Impact Awards 2021 - Finalists
 
2020 Cloudera Data Impact Awards Finalists
2020 Cloudera Data Impact Awards Finalists2020 Cloudera Data Impact Awards Finalists
2020 Cloudera Data Impact Awards Finalists
 
Edc event vienna presentation 1 oct 2019
Edc event vienna presentation 1 oct 2019Edc event vienna presentation 1 oct 2019
Edc event vienna presentation 1 oct 2019
 
Machine Learning with Limited Labeled Data 4/3/19
Machine Learning with Limited Labeled Data 4/3/19Machine Learning with Limited Labeled Data 4/3/19
Machine Learning with Limited Labeled Data 4/3/19
 
Data Driven With the Cloudera Modern Data Warehouse 3.19.19
Data Driven With the Cloudera Modern Data Warehouse 3.19.19Data Driven With the Cloudera Modern Data Warehouse 3.19.19
Data Driven With the Cloudera Modern Data Warehouse 3.19.19
 
Introducing Cloudera DataFlow (CDF) 2.13.19
Introducing Cloudera DataFlow (CDF) 2.13.19Introducing Cloudera DataFlow (CDF) 2.13.19
Introducing Cloudera DataFlow (CDF) 2.13.19
 
Introducing Cloudera Data Science Workbench for HDP 2.12.19
Introducing Cloudera Data Science Workbench for HDP 2.12.19Introducing Cloudera Data Science Workbench for HDP 2.12.19
Introducing Cloudera Data Science Workbench for HDP 2.12.19
 
Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19
Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19
Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19
 
Leveraging the cloud for analytics and machine learning 1.29.19
Leveraging the cloud for analytics and machine learning 1.29.19Leveraging the cloud for analytics and machine learning 1.29.19
Leveraging the cloud for analytics and machine learning 1.29.19
 
Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19
Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19
Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19
 
Leveraging the Cloud for Big Data Analytics 12.11.18
Leveraging the Cloud for Big Data Analytics 12.11.18Leveraging the Cloud for Big Data Analytics 12.11.18
Leveraging the Cloud for Big Data Analytics 12.11.18
 
Modern Data Warehouse Fundamentals Part 3
Modern Data Warehouse Fundamentals Part 3Modern Data Warehouse Fundamentals Part 3
Modern Data Warehouse Fundamentals Part 3
 
Modern Data Warehouse Fundamentals Part 2
Modern Data Warehouse Fundamentals Part 2Modern Data Warehouse Fundamentals Part 2
Modern Data Warehouse Fundamentals Part 2
 
Modern Data Warehouse Fundamentals Part 1
Modern Data Warehouse Fundamentals Part 1Modern Data Warehouse Fundamentals Part 1
Modern Data Warehouse Fundamentals Part 1
 
Extending Cloudera SDX beyond the Platform
Extending Cloudera SDX beyond the PlatformExtending Cloudera SDX beyond the Platform
Extending Cloudera SDX beyond the Platform
 
Federated Learning: ML with Privacy on the Edge 11.15.18
Federated Learning: ML with Privacy on the Edge 11.15.18Federated Learning: ML with Privacy on the Edge 11.15.18
Federated Learning: ML with Privacy on the Edge 11.15.18
 
Analyst Webinar: Doing a 180 on Customer 360
Analyst Webinar: Doing a 180 on Customer 360Analyst Webinar: Doing a 180 on Customer 360
Analyst Webinar: Doing a 180 on Customer 360
 
Build a modern platform for anti-money laundering 9.19.18
Build a modern platform for anti-money laundering 9.19.18Build a modern platform for anti-money laundering 9.19.18
Build a modern platform for anti-money laundering 9.19.18
 
Introducing the data science sandbox as a service 8.30.18
Introducing the data science sandbox as a service 8.30.18Introducing the data science sandbox as a service 8.30.18
Introducing the data science sandbox as a service 8.30.18
 

Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen Wert schafft

  • 1. 1© Cloudera, Inc. All rights reserved. Wie man aus Daten durch maschinelles Lernen Wert schafft Daniel Tydecks, Systems Engineer DACH & CE, Cloudera Dr. Marcel Rothering, IT Consultant, saracus consulting GmbH
  • 2. 2© Cloudera, Inc. All rights reserved. “Oil doesn’t generate more oil […] the product of data will generate more data” Piero Scaruffi
  • 3. 3© Cloudera, Inc. All rights reserved. The most valuable companies are data-driven 0 200 400 600 800 1,000 1,200 1,400 1,600 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 Market capitalization normalized growth ($B) 2007-2017 Apple Google Microsoft Facebook Amazon S&P 500 Normalized 2007 =100
  • 4. 4© Cloudera, Inc. All rights reserved. The age of “datafication” Cost of compute Data volume Time Machine Learning NO Machine Learning 1950s 1960s 1970s 1980s 1990s 2000s 2010s 2020s
  • 5. 5© Cloudera, Inc. All rights reserved. Key challenge: Extract true useful meaning from data + make it actionable Open science & reproducible research!
  • 6. 6© Cloudera, Inc. All rights reserved. Open data science in the enterprise IT drive adoption while maintaining compliance Data Scientist explore, experiment, iterate
  • 7. 7© Cloudera, Inc. All rights reserved. Sample data science / machine learning workflow From data to exploration to action Data Engineering Data Science (Exploratory) Production (Operational) Data Wrangling Analysis and Visualization Model Training & Testing Production Data Pipelines Batch Scoring Online Scoring Serving Data GovernanceGovernance Processing Acquisition Reports, Dashboards Shared: Data, Operations, Governance, Security, Metadata Dev: Collaboration, Version Control Ops: Deployment, Scheduling, Orchestration, Monitor
  • 8. 8© Cloudera, Inc. All rights reserved. The good news Data has never been more plentiful Open source data science and machine learning libraries are mature and continuously evolving Commodity (and on-demand) compute makes scalable production machine learning affordable
  • 9. 9© Cloudera, Inc. All rights reserved. The bad news Most data science done at small scale, individually, and is difficult to replicate Teams have different, conflicting requests for languages & libraries Data needs to move across multiple different systems
  • 10. 10© Cloudera, Inc. All rights reserved. Access Scale Developer experience Additional challenges
  • 11. 11© Cloudera, Inc. All rights reserved. Our goal: An open platform for data science at scale Help more data scientists use the power of Hadoop Use a powerful, familiar environment with direct access to Hadoop data and compute Data Scientist Data Engineer Make it easy and secure to add new users, use cases Offer secure self-service analytics and a faster path to production on common, affordable infrastructure Enterprise Architect Hadoop Admin
  • 12. 12© Cloudera, Inc. All rights reserved. Cloudera Enterprise 1 The modern platform for machine learning and analytics optimized for the cloud EXTENSIBLE SERVICES CORE SERVICES DATA ENGINEERING OPERATIONAL DATABASE ANALYTIC DATABASE DATA CATALOG INGEST & REPLICATION SECURITY GOVERNANCE WORKLOAD MANAGEMENT DATA SCIENCE S3 ADLS HDFS KUDU STORAGE SERVICES
  • 13. 13© Cloudera, Inc. All rights reserved. For data scientists • Open data science, your way Use R, Python, or Scala • No need to sample Directly access data in secure clusters via Spark & Impala • Reproducible, collaborative research Share with your whole team Accelerate data science from exploration to production For IT professionals • Bring analysis to the data Give data science team the freedom to work how they want, when they want • Secure by default Stay compliant with out-of-the- box Hadoop security • Flexible deployment On-premises or in the cloud EXTENSIBLE SERVICES CORE SERVICES DATA ENGINEERING OPERATIONAL DATABASE ANALYTIC DATABASE DATA CATALOG INGEST & REPLICATION SECURITY GOVERNANCE WORKLOAD MANAGEMENT DATA SCIENCE S3 ADLS HDFS KUDU STORAGE SERVICES DATA SCIENCE
  • 14. 14© Cloudera, Inc. All rights reserved. Why is this relevant? Focus!
  • 15. 15© Cloudera, Inc. All rights reserved. CDSW
  • 16. 16© Cloudera, Inc. All rights reserved. Call to action: 1) Talk to our partners or us – we help to avoid common mistakes 2) Setup a lab with CDH & CDSW 3) Iterate & fail fast: load, transform & analyze to show value quickly 4) Act business focused 5) Get used to keeping data centralized 16© Cloudera, Inc. All rights reserved.
  • 17. Titelmasterformat durch Klicken bearbeiten Wie man aus Daten durch maschinelles Lernen Wert schafft Cloudera Webinar Referent: Dr. Marcel Rothering Datum: 24.10.2017
  • 18. Titelmasterformat durch Klicken bearbeitenAgenda 1. Vorstellung: saracus consulting 2. Machine Learning & Spark MLlib 3. ShowCase I: Retail-Clustering 4. ShowCase II: Movie Recommendation Engine 5. Zusammenfassung und Ausblick 18saracus consulting – Cloudera Webinar
  • 19. Titelmasterformat durch Klicken bearbeitenAgenda 1. Vorstellung: saracus consulting 2. Machine Learning & Spark MLlib 3. ShowCase I: Retail-Clustering 4. ShowCase II: Movie Recommendation Engine 5. Zusammenfassung und Ausblick 19saracus consulting - Cloudera Webinar
  • 20. Titelmasterformat durch Klicken bearbeiten Mit über 25 Jahren Erfahrung sind wir eines der führenden herstellerunabhängigen Beratungsunternehmen und Systemintegratoren für BI und Big Data Projekten im deutschsprachigen Raum. Schwerpunkt-Branchen sind Versicherungen, Banken, Einzelhandel und Telekommunikation. Gemeinsame Umsetzung von Projekten mit unserem Partner Cloudera. saracus: Mission und Beratungsprodukte 20saracus consulting - Cloudera Webinar DWH academy Utilities Consulting !  Inhouse-Seminare  Studien  Zertifizierung  DWtec©-Methodology  DWH-Automation  DWinsurance  Strategie & Architektur  Analyse & Design  Implementierung  Testing  Betrieb/Wartung  Organisation
  • 21. Titelmasterformat durch Klicken bearbeitensaracus Kompetenzfelder 21saracus consulting - Cloudera Webinar Integrationsarchitektur  Data Governance  Architekturen für analytische Systeme  Data Warehouse (ETL-Prozesse)  Datenqualität  Master Data Management Analytische Systeme  Berichtswesen & Analyse  Cockpits & Scorecards  Planungssysteme  Datenmodellierung  Mobile BI  Predictive Analytics  BI-Reviews  Analytisches CRM  Kampagnen-Managementnt ! Neue Themen  Big Data: Hadoop  Analysen in der Cloud  Agile DWH / Scrum  Data Vault  Maschinelles Lernen  Data Virtualization  DWH-Automation  Social Media Monitoring
  • 22. Titelmasterformat durch Klicken bearbeitensaracus Big Data Consulting 22saracus consulting - Cloudera Webinar Roadmap Design Use Case Identifizierung/ (saracus BDUC) Design–Lösungen für Use Cases Product & Technology Evaluation On-premise /Cloud Consulting/Strategie Pilot Architektur & Design Build & Deploy Maintenance / Support / Training Proof of Concept (On-premise, Cloud-Lösung) Pilot Projekt Assessment Scope & Analyse Architektur-Design Infrastruktur Kapazitätsplanung Applikationen Realtime Analytics Advanced Analy. Data Ingestion Data Preparation Data Governance Performance Tuning Services 24/7 Support Hadoop as a Service Administration Support in der Cloud Training (Diverse Schulungen) Experten Review Advising Produktion Deployment
  • 23. Titelmasterformat durch Klicken bearbeitenVielfältige Kundenprojekte 23saracus consulting - Cloudera Webinar Banken & Finanzdienstleister Versicherungen Telko & Medien Industrie Transport & Reise Handel Öffentliche Verwaltung & Gesundheitswesen Energie
  • 24. Titelmasterformat durch Klicken bearbeitenAgenda 1. Vorstellung: saracus consulting 2. Machine Learning & Spark MLlib 3. ShowCase I: Retail-Clustering 4. ShowCase II: Movie Recommendation Engine 5. Zusammenfassung und Ausblick 24saracus consulting – Cloudera Webinar
  • 25. Titelmasterformat durch Klicken bearbeitenWas ist maschinelles Lernen?  Arthur Lee Samuel: "gives computers the ability to learn without being explicitly programmed"  Konstruktion von Algorithmen welche von Daten lernen und Vorhersagen ermöglichen  Use Cases: Spam-Filter, Kundensegmentierung, Next-Best-Offer, Kreditwürdigkeit, Predictive Maintenance, Cyber-Security, … 25saracus consulting – Cloudera Webinar
  • 26. Titelmasterformat durch Klicken bearbeitenVorgehensweise: CRISP DM 26saracus consulting – Cloudera Webinar
  • 27. Titelmasterformat durch Klicken bearbeitenCloudera Distribution für Data Analytics  Integration mit Python Anaconda (Parcels)  Cloudera Data Science Workbench für Data Science Projekte  Einfache Installation verschiedener Services mit dem Cloudera Manager  HUE als open source Analytics Workbench 27saracus consulting – Cloudera Webinar
  • 28. Titelmasterformat durch Klicken bearbeitenApache Spark ML & MLlib  Große Auswahl von verschiedenen Machine Learning Algorithmen: Lineare Regression, naive Bayes, Tree- Based Models, Alternate Least Square, k-means clustering, …  Parallele und verteilte Implementation der Algorithmen  Iterative Algorithmen profitieren von “in-memory datasets”  Pipeline API zum Erstellen komplexer Datenströme für Data Preprocessing, Feature Extraction, Model Evaluation, …  Gute Integration ins Hadoop Ökosystem 28saracus consulting – Cloudera Webinar
  • 29. Titelmasterformat durch Klicken bearbeitenAgenda 1. Vorstellung: saracus consulting 2. Machine Learning & Spark MLlib 3. ShowCase I: Retail-Clustering 4. ShowCase II: Movie Recommendation Engine 5. Zusammenfassung und Ausblick 29saracus consulting – Cloudera Webinar
  • 30. Titelmasterformat durch Klicken bearbeitenMotivation & Ausgangslage  Daten: Kassenbons (über 40 verschiedene Attribute), möglicherweise vorhandene Kundendaten (Alter, Geschlecht, Wohnort, …)  Ausgangslage: XML-Format, große Datenmengen, Advanced Analytics im klassischen DWH oftmals nicht möglich  Nutzen: gezielte Werbung z.B. in Prospekten, Personaloptimierung, Rabattaktionen, Produktplazierung in Regalen, Optimierung des Produktsortiments 30saracus consulting – Cloudera Webinar
  • 31. Titelmasterformat durch Klicken bearbeitenUmsetzung  Anbindung der Kassensysteme an Kafka-Streaming  Transformieren der XML Dateien zu JSON  Ablegen der Daten aufs HDFS  Mögliche Kundendaten mit Sqoop aufs HDFS laden  Aufbereitung der Daten mit Spark SQL  Kundensegmentierung mit Spark ML (k-Means) 31saracus consulting – Cloudera Webinar
  • 32. Titelmasterformat durch Klicken bearbeitenk-Means Algorithmus 32saracus consulting – Cloudera Webinar Quelle: Introduction to Statistical Learning – Hastie et al.
  • 33. Titelmasterformat durch Klicken bearbeitenShowCase Demo 33saracus consulting – Cloudera Webinar Retail Clustering
  • 34. Titelmasterformat durch Klicken bearbeitenAgenda 1. Vorstellung: saracus consulting 2. Machine Learning & Spark MLlib 3. ShowCase I: Retail-Clustering 4. ShowCase II: Movie Recommendation Engine 5. Zusammenfassung und Ausblick 34saracus consulting – Cloudera Webinar
  • 35. Titelmasterformat durch Klicken bearbeitenMotivation & Ausgangslage • Challenge E-Commerce: „Kunden helfen bei der großen Vielfalt an Produkten die zu finden, welche am besten zu ihnen passen“ • Zwei verschiedene Strategien:  Content Based Approach  Profiling der Benutzer und Produkte, um deren Beziehungen zu finden  Umfangreiche Nutzerprofile liegen oftmals nicht vor  Collaborative Filtering  Erfordert keine Erstellung von expliziten Profilen  Basiert allein auf bisherigem Verhalten von Benutzern  Co-Clustering: „like minded users“ bzw. ähnliche Produkte 35saracus consulting – Cloudera Webinar
  • 36. Titelmasterformat durch Klicken bearbeitenCollaborative Filtering und ALS 36saracus consulting – Cloudera Webinar • Basiert auf Matrix-Faktorisierung „hidden Features“ • Minimiert RMSE mit alternierender Vorgehensweise • Theorie: „Large-scale Parallel Collaborative Filtering for the Netflix Prize – Zhou et. al.“ • Riesige Matrizen mit Millionen Einträgen • Schnelles Trainieren des Modells erfordert verteiltes Rechnen • CDH und Apache Spark sind dafür bestens geeignet
  • 37. Titelmasterformat durch Klicken bearbeiten saracus consulting – Cloudera Webinar 37 Umsetzung in der AWS mit CDH und Apache Spark • 5-Node Cluster in der AWS mit CDH • Frei zugänglicher Datensatz von MovieLens (> 10 000 000 Ratings von >10 000 Filmen) • Ziel: Eigene Bewertungen hinzufügen, Modell trainieren und Vorhersagen für Empfehlungen machen
  • 38. Titelmasterformat durch Klicken bearbeiten saracus consulting – Cloudera Webinar 38 Erkunden des Datensatzes
  • 39. Titelmasterformat durch Klicken bearbeiten saracus consulting – Cloudera Webinar 39 Eigene Bewertungen abgeben
  • 40. Titelmasterformat durch Klicken bearbeiten saracus consulting – Cloudera Webinar 40 Modell trainieren und testen
  • 41. Titelmasterformat durch Klicken bearbeiten saracus consulting – Cloudera Webinar 41 Unsere Empfehlungen
  • 42. Titelmasterformat durch Klicken bearbeitenZusammenfassung: Recommendation Engine  Modell sollte bei neuen Bewertungen der Benutzer regelmäßig neu trainiert werden  Training sollte nicht lange dauern  Erstellung einer Recommendation Engine auf verteilten System gut umsetzbar mit CDH und Apache Spark  Collborative Filtering auch mit implicit feedback möglich: Ableiten der Nutzervorlieben vom Browserverlauf, Suchmustern, …  Nutzen: Stärkung der Kundenbindung, Steigerung der Einnahmen, Ersparnis von Kosten, …  Justin Basilico (Netlix Recommendation Research Engineer):  „… system influences choice for about 80% of hours streamed“  „…combined effect of personlizations and recommendations saves us more than 1 Billion per year“ 42saracus consulting – Cloudera Webinar
  • 43. Titelmasterformat durch Klicken bearbeitenAgenda 1. Vorstellung: saracus consulting 2. Machine Learning & Spark MLlib 3. ShowCase I: Retail-Clustering 4. ShowCase II: Movie Recommendation Engine 5. Zusammenfassung und Ausblick 43saracus consulting – Cloudera Webinar
  • 44. Titelmasterformat durch Klicken bearbeitenZusammenfassung und Ausblick  Maschinelles Lernen ist essentiell um wettbewerbsfähig zu bleiben  CDH mit Spark ML ideal für Machine Learning Development  Wir unterstützen Sie bei der Entwicklung übers Deployment bis zum Monitoring bei Ihren Use Cases  Erfahren Sie mehr über uns auf unserer Homepage www.saracus.com, in unseren White Papern oder im saracus Big Data Blog 44saracus consulting – Cloudera Webinar
  • 45. Titelmasterformat durch Klicken bearbeiten Ihre Fragen? Vielen Dank für ihre Aufmerksamkeit 45 Homepage: www.saracus.com E-Mail: m.rothering@saracus.com
  • 46. 46© Cloudera, Inc. All rights reserved. Thank you