SlideShare ist ein Scribd-Unternehmen logo
1 von 66
Data Analytics 3.0
PUC CCE
Março, 2017
Dan Reznik, PhD
Principal Consultant, Microsoft Consulting Services
dareznik@Microsoft.com
dan@upperwestsolucoes.com
1(c) 2016 Upper West Soluções
2(c) 2016 Upper West Soluções
Plano
• Big Data
• Internet of Things (IoT)
• Data Science / Machine Learning
• Lab
• Azure ML
• R
• Practical Aspects in Data Projects
(c) 2016 Upper West Soluções 3
Big Data
4(c) 2016 Upper West Soluções
5(c) 2016 Upper West Soluções
6(c) 2016 Upper West Soluções
(c) 2016 Upper West Soluções 7
SPARK!
Do DW para o BD
8
Multi-structured
(c) 2016 Upper West Soluções
9(c) 2016 Upper West Soluções
(c) 2016 Upper West Soluções 10
11(c) 2016 Upper West Soluções
12(c) 2016 Upper West Soluções
13(c) 2016 Upper West Soluções
14(c) 2016 Upper West Soluções
15(c) 2016 Upper West Soluções
16
Data Storage, Access, Management
Analytics, Visualization, Machine Learning
Applications, BusinessesDATASTACK
(c) 2016 Upper West Soluções
17(c) 2016 Upper West Soluções
18(c) 2016 Upper West Soluções
19(c) 2016 Upper West Soluções
20(c) 2016 Upper West Soluções
21(c) 2016 Upper West Soluções
22(c) 2016 Upper West Soluções
Internet of Things (IoT)
23(c) 2016 Upper West Soluções
24(c) 2016 Upper West Soluções
25(c) 2016 Upper West Soluções
26(c) 2016 Upper West Soluções
IoT: Business Drivers
• Increased efficiency (38.3%)
• Pursuit of a competitive market advantage (28.4%)
• Market share growth (15.9%)
• Cost savings (14.9%).
• Expertise areas:
• Hardware engineering (30.4%)
• Sensors development (57.7%)
• Systems design and integration (32.3%)
• Data analytics (28.9%)
• Machine learning (27.4%)
• Security (20.9%)
27(c) 2016 Upper West Soluções
28(c) 2016 Upper West Soluções
29(c) 2016 Upper West Soluções
30(c) 2016 Upper West Soluções
31(c) 2016 Upper West Soluções
32(c) 2016 Upper West Soluções
Data Science
33(c) 2016 Upper West Soluções
34(c) 2016 Upper West Soluções
35(c) 2016 Upper West Soluções
36(c) 2016 Upper West Soluções
37(c) 2016 Upper West Soluções
38(c) 2016 Upper West Soluções
CRISP-DM
(c) 2016 Upper West Soluções 39
(c) 2016 Upper West Soluções 40
Machine Learning
41(c) 2016 Upper West Soluções
Típos de Analítica
42(c) 2016 Upper West Soluções
43(c) 2016 Upper West Soluções
44(c) 2016 Upper West Soluções
45(c) 2016 Upper West Soluções
46(c) 2016 Upper West Soluções
Apache Spark’s Mllib
(9x faster than Mahout)
1) Descriptive: Summary statistics, correlations, stratified sampling,
hypothesis testing, random data generation
2) Classification: support vector machines, logistic regression, linear
regression, decision trees, naive Bayes classification
3) Collaborative filtering: alternating least squares (ALS)
4) Clustering: k-means, and Latent Dirichlet Allocation (LDA)
5) Dimensionality reduction: SVD and PCA
6) Feature extraction and transformation functions
7) Optimization: stochastic gradient descent, L-BFGS
47(c) 2016 Upper West Soluções
Azure ML
(c) 2016 Upper West Soluções 48
Data Project Planning
49(c) 2016 Upper West Soluções
50(c) 2016 Upper West Soluções
51(c) 2016 Upper West Soluções
52(c) 2016 Upper West Soluções
53(c) 2016 Upper West Soluções
Practical Aspects: Projects
54(c) 2016 Upper West Soluções
(c) 2016 Upper West Soluções 55
Sources of business value
•Reduce operational costs
•Increase revenues
•Reduce risk
(c) 2016 Upper West Soluções 56
57(c) 2016 Upper West Soluções
Ecossistema de Dados
58(c) 2016 Upper West Soluções
Fluxo de Trabalho
59(c) 2016 Upper West Soluções
60
Pirâmide de Maslow
- Qualidade
- Integração
- Governança
• 360 Cust. View
• Anti-Fraud
• Anti Churn
ESTRATÉGIA, ROI+
(c) 2016 Upper West Soluções
Maturidade
61
Ambiente Heterogêneo
Processos Informais
Dados Caóticos
Ambiente Integrado
Processos controlados
Dados Coerentes
Simplificação
Encurtar tempo de Entrega
Redução de Custos
(c) 2016 Upper West Soluções
Barreiras
62(c) 2016 Upper West Soluções
Dan S. Reznik
dareznik@microsoft.com
dan@upperwestsolucoes.com
63(c) 2016 Upper West Soluções
Diagrama de Dependencias R (2015)
(c) 2016 Upper West Soluções 64
Crescimento Pacotes R (2016)
(c) 2016 Upper West Soluções 65
Microsoft Data Science Virtual Machine
Ecosystem (DSVM)
(c) 2016 Upper West Soluções 66

Weitere ähnliche Inhalte

Ähnlich wie Advanced Data Analytics -- PUC CCE Março 2017

Mini-Curso: Introdução à Big Data e Data Science - Aula 3 - Ferramentas para ...
Mini-Curso: Introdução à Big Data e Data Science - Aula 3 - Ferramentas para ...Mini-Curso: Introdução à Big Data e Data Science - Aula 3 - Ferramentas para ...
Mini-Curso: Introdução à Big Data e Data Science - Aula 3 - Ferramentas para ...Diego Nogare
 
Ferramentas e Aplicações em Big Data
Ferramentas e Aplicações em Big DataFerramentas e Aplicações em Big Data
Ferramentas e Aplicações em Big DataAlvaro Viebrantz
 
Project model-canvas-apresentacao
Project model-canvas-apresentacaoProject model-canvas-apresentacao
Project model-canvas-apresentacaoleopaiva217101
 
DataOps: da teoria a prática, como realmente se aplica em projetos de BigData
DataOps: da teoria a prática, como realmente se aplica em projetos de BigDataDataOps: da teoria a prática, como realmente se aplica em projetos de BigData
DataOps: da teoria a prática, como realmente se aplica em projetos de BigDataEduardo Hahn
 
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...Ciro Cavani
 
Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...
Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...
Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...GiovanniGuimares2
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
Research Group on High Performance Computing - MDCC/UFC - Fortaleza, Brazil
Research Group on High Performance Computing - MDCC/UFC - Fortaleza, BrazilResearch Group on High Performance Computing - MDCC/UFC - Fortaleza, Brazil
Research Group on High Performance Computing - MDCC/UFC - Fortaleza, BrazilHeron Carvalho
 
TDC2016SP - Trilha Data Science
TDC2016SP - Trilha Data ScienceTDC2016SP - Trilha Data Science
TDC2016SP - Trilha Data Sciencetdc-globalcode
 
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningEiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningDevCamp Campinas
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Map reduce novas abordagens para o processo de datamining em grandes volumn...
Map reduce   novas abordagens para o processo de datamining em grandes volumn...Map reduce   novas abordagens para o processo de datamining em grandes volumn...
Map reduce novas abordagens para o processo de datamining em grandes volumn...João Gabriel Lima
 
2016 - WebGis para apoio ao licenciamento e regularização ambiental
2016 - WebGis para apoio ao licenciamento e regularização ambiental2016 - WebGis para apoio ao licenciamento e regularização ambiental
2016 - WebGis para apoio ao licenciamento e regularização ambientalGeorge Porto Ferreira
 
Apresentação Programação Concorrente USP
Apresentação Programação Concorrente USPApresentação Programação Concorrente USP
Apresentação Programação Concorrente USPVinícius Barros
 
TDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONTDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONThiago Santiago
 
Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotaç...
Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotaç...Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotaç...
Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotaç...Elaine Naomi
 
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningPalestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningJosias Oliveira
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...Cicero Joasyo Mateus de Moura
 

Ähnlich wie Advanced Data Analytics -- PUC CCE Março 2017 (20)

Mini-Curso: Introdução à Big Data e Data Science - Aula 3 - Ferramentas para ...
Mini-Curso: Introdução à Big Data e Data Science - Aula 3 - Ferramentas para ...Mini-Curso: Introdução à Big Data e Data Science - Aula 3 - Ferramentas para ...
Mini-Curso: Introdução à Big Data e Data Science - Aula 3 - Ferramentas para ...
 
Ferramentas e Aplicações em Big Data
Ferramentas e Aplicações em Big DataFerramentas e Aplicações em Big Data
Ferramentas e Aplicações em Big Data
 
Project model-canvas-apresentacao
Project model-canvas-apresentacaoProject model-canvas-apresentacao
Project model-canvas-apresentacao
 
DataOps: da teoria a prática, como realmente se aplica em projetos de BigData
DataOps: da teoria a prática, como realmente se aplica em projetos de BigDataDataOps: da teoria a prática, como realmente se aplica em projetos de BigData
DataOps: da teoria a prática, como realmente se aplica em projetos de BigData
 
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...
 
Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...
Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...
Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Research Group on High Performance Computing - MDCC/UFC - Fortaleza, Brazil
Research Group on High Performance Computing - MDCC/UFC - Fortaleza, BrazilResearch Group on High Performance Computing - MDCC/UFC - Fortaleza, Brazil
Research Group on High Performance Computing - MDCC/UFC - Fortaleza, Brazil
 
BigData MapReduce
BigData MapReduceBigData MapReduce
BigData MapReduce
 
TDC2016SP - Trilha Data Science
TDC2016SP - Trilha Data ScienceTDC2016SP - Trilha Data Science
TDC2016SP - Trilha Data Science
 
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningEiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Map reduce novas abordagens para o processo de datamining em grandes volumn...
Map reduce   novas abordagens para o processo de datamining em grandes volumn...Map reduce   novas abordagens para o processo de datamining em grandes volumn...
Map reduce novas abordagens para o processo de datamining em grandes volumn...
 
2016 - WebGis para apoio ao licenciamento e regularização ambiental
2016 - WebGis para apoio ao licenciamento e regularização ambiental2016 - WebGis para apoio ao licenciamento e regularização ambiental
2016 - WebGis para apoio ao licenciamento e regularização ambiental
 
Apresentação Programação Concorrente USP
Apresentação Programação Concorrente USPApresentação Programação Concorrente USP
Apresentação Programação Concorrente USP
 
TDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONTDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ON
 
Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotaç...
Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotaç...Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotaç...
Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotaç...
 
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningPalestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
 

Advanced Data Analytics -- PUC CCE Março 2017