5. 5
会社概要
チーム概要
2011年12月創業、米国カリフォルニア州。
創業者は日本人3人組。2013年12月現在、
社員約30名。
Hiro Yoshikawa – CEO
Open source business veteran
Kaz Ohta – CTO
Founder of world’s largest Hadoop Group
Company & Product Over View
ビッグデータの収集・保存・解析を一手に行
Jeff Yuan – Director, Engineering
LinkedIn, MIT / Michale Stonebraker Lab
えるクラウドサービスを提供。他のサービス
と異なり、数日で始められるのが特徴。
Keith Goldstein – VP Sales & BD
VP, Business Devt, Tibco and Talend
Presented
by
サービスコンセプト
• すぐに使い始められる
• クラウドサービスとしての提供を行う
• シンプルな機能セット、手厚いサポート
• “Trend Setting Products” in Data for
2014
(Database Trends and Applications)
• “5 Hot Big Data Startups”
(Enterprise Apps Today)
Rich Ghiossi – VP Marketing
VP Marketing, ParAccel and HP
Takahiro
Inoue
–
Chief
Data
Scien:st
投資家概要
Sierra Ventures – (Tim Guleri)
Leading venture capital firm in Big Data
Bill Tai
Renown investor, GP Charles River Ventures
Jerry Yang
Founder, Yahoo!
Yukihiro “Matz” Matusmoto
Creator, “Ruby” programming language
James Lindenbaum
Founder, Heroku
6. 6
事業概要
(2013年12月8日現在)
>50%
>100
顧客数
Company & Product Over View
四半期のアカウント数の伸び
Presented
by
>4,000
>150,000
Takahiro
Inoue
–
Chief
Data
Scien:st
顧客がデータ収集を行っている
アプリケーションサーバー数
1秒間に保存されている
レコード数
>7,000,000
>2,500,000,000,000
実行した解析ジョブの数
お客様から預かっている
レコード数
7. 7
Product
Overview
収集・保存・解析まで単一のサービスでの提供を行うサービスはTreasure Dataのみ。
Data Collection
Data Storage
Data Analysis
Company & Product Over View
Web logs
Treasure Agent
App logs
Streaming Log !
Collector (JSON)!
Sensor
Cloud DB, Web App,
& Command Line
BI Connectivity
Flexible, Scalable,
Columnar Storage!
Presented
by
REST API, SQL, Pig,
JDBC / ODBC!
Tableau, Metric Insights,
BI Tools
Dr.Sum, Excel, etc.
New!!
Treasure Viewer
Treasure Batch Query
Takahiro
Inoue
–
Chief
Data
Scien:st
&
New!!
Treasure Query Accelerator
RDBMS
Bulk Import
CRM
Parallel Upload from
CSV, MySQL, etc.!
ERP
Time to Value
Value
Proposi-on
1
New!!
Management Console
No Command Line,!
Every Operation is Here! !
Economy & Flexibility
Value
Proposi-on
2
Result Push
REST API, SQL,
Pig!
Dashboards
Custom App, Local DB,
FTP Server, etc.
Simple & Supported
Value
Proposi-on
3
8. 8
ビッグデータ活用:7つのステージ
最適化
データ解析
What s
the
best?
予測分析
What s
a
trend?
統計分析
Presented
by
Why?
アラート
Takahiro
Inoue
–
Chief
Data
Scien:st
Error?
ドリルダウン
アドホックレポート
Where?
定型レポート
レポーティング
Where
exactly?
What
happened?
お客様の進化に合わせて、我々のサービスも進化を続ける。
11. 11
なぜ Treasure
Data?
–
実装の早さ、本質的な作業に集中
• 既存のデータウェアハウスの実装プロセス
Data Collection
ETL
Data Warehouse
BI/Reporting
6ヶ月 ~ 1年, 5-10億円+maintenance, ベンダーロックイン
• Treasure Dataのクラウドサービス
Data Collection
ETL
Data Warehouse
2 – 3週間
月額課金制での支払い
既存のBI/Reportingが利用可能
BI/Reporting
12. 12
Value
Proposi-on
• Faster
-me
to
value
• Cloud
flexibility
and
economics
• Simple
and
well
supported
13. 13
Advantage
of
Treasure
Data
Value
Advantage
Faster
-me
to
Value
Data Collection
•
•
Bulk Import 機能が大規模データの高速インポートを
サポート。
Streaming 機能によってほぼリアルタイムにデータ収
集を開始できる。
Data Processing
•
•
計算ノードのオンタイムによる追加で高速に並列処理
が実行可能。
Streaming 機能によって,デイリーのバッチ処理を待
たずして分析が可能。
14. 14
Advantage
of
Treasure
Data
Value
Advantage
Cloud flexibility and economics
Data Collection
•
•
テキスト,DB,FTP など多様なデータソースへのプラグ
インを用意。
Streaming 機能によってほぼリアルタイムにデータ収
集を開始できる。
Data Storage
•
•
最低限のコストで∞ストレージを提供。
JSON ライクの,スキーマレスを実現。
Data Processing
•
•
必要に応じてノード数をオンタイムで変更可能。
ストレージ・ノード数に応じた従量制の価格体系。
Data Result Export
•
JDBC, ODBC プラグインを用意。
•
集計済のデータのエクスポート先 CSV,ダッシュボード,
BI,DB など多様なプラグインを用意。
15. 15
Advantage
of
Treasure
Data
Value
Advantage
Simple
and
well
supported
Data Collection
•
Fluentd の豊富なドキュメントと様々なプラグインに
よってラーニングコストを最小化。
Data Storage
•
Management Console からデータの参照が可能。
Data Processing
•
SQL ライクの簡潔なクエリ言語によって実行可能。
Data Result Export
•
Treasure Viewer, Metric Insights, Tableau をサポート。
24. Heroku
Add-‐on:
Treasure
Data
Hadoop
hTps://addons.heroku.com/treasure-‐data
Before
After
Heroku Add-on: Treasure Data Hadoop によって Herokuアプリケーションからの
ログのストリーミング収集が容易かつ低コストで実現。
*
参考記事: hTp://doryokujin.hatenablog.jp/entry/2012/07/05/025737
25. 25
Project
•
Treasure
Data
のデータコレクタ部分は、オープンソース化
– 2013年、国内外で広く浸透
– 世界中でデータを解析可能な形で収集するのに一役買っている
"We use Fluentd to collect massive data logs for our platforms. Having
developed a system based on Fluentd, we are now effectively monitoring
and analyzing our services in real-time. We are very much satisfied with
its flexibility, especially how easy it is to use in tandem with other
systems."
"We utilize Fluentd to collect a very large amount of logs. The
logs are written into Hadoop HDFS clusters, and are also used
to analyze various service statuses in realtime. We also use
many plugins from rubygems.org to further enhance this
mechanism."
Fluentd is very similar to Apache Flume or Facebook’s
Scribe [but] it’s easier to install and maintain and has
better documentation and support than either Flume or
Scribe”
Fluentd
オープンソースプロジェクトのユーザー例
38. 38
データ横串分析1:中古車相場データからの応用
業者間オークション :
B to B の中古車相場
個人間オークション :
C to C の中古車相場
業者が卸してから販売
する際のマージンに注目
業者の販売値と個人間の
販売値との乖離 = (整
備・保証料) に注目
Car Sensor :
B to C の中古車相場
新車からの値落ち率と
年式等との関係に注目
新車カタログ :
新車価格,車両情報
レビューの高さと中古車
相場の関係に注目
レビューサイト :
車両レビュー
43. 43
Leading/Well-Known Auto Manufacturer
• Telematics!
– 200 sensors in new cars!
– Each collect data every 10 seconds!
• Business Benefits!
– Dramatically lowers friction for!
new projects!
• And prototypes!
– Focus resources on the cars !
and the data!
• Not the data collection or storage!
– Big Data pipeline up in days!
• Minimal upfront investment!
• Initial results in few days!
44. 44
World’s largest OBD provider
• Telematics!
– On-board Diagnostics (OBD) vendor!
– Building a embeddable solution for auto
manufacturers!
• Business Benefits!
– Looking to build a turn-key !
solution for auto manufacturers
• But they don’t have Big Data expertise!
• They want to focus on their OBD solution
and leadership position!
– ROI expected at 25-50x!
• Over using a traditional data warehouse
approach!
45. 45
Innovative Semiconductor Company
• Wearable Sensors!
– Wrist-band activity sensor!
– Tracks movement & exercise!
• Business Benefits!
– Looking to build a turn-key solution !
for fitness brands
• As a semiconductor company, !
they don’t have in-house expertise !
on Big Data infrastructure!
– They need to develop quickly !
to secure a leadership position !
with major brands before their competitors
do!
Androi
d
46. 46
Sec.3
Data
Management
• Treasure
Management
Console
47. 47
Sec.3
Data
Management
Data Collection
Data Storage
Data Analysis
Web logs
Treasure Agent
App logs
Streaming Log !
Collector (JSON)!
Cloud DB, Web App,
& Command Line
BI Connectivity
REST API, SQL, Pig,
JDBC / ODBC!
Flexible, Scalable,
Columnar Storage!
Sensor
Treasure Batch Query
&
New!!
Treasure Query Accelerator
Tableau, Tools etc.
BI Dr.Sum,
New!!
Treasure Viewer
RDBMS
Bulk Import
CRM
Parallel Upload from
CSV, MySQL, etc.!
ERP
Result Push
New!!
Management Console
No Command Line,!
Every Operation is Here! !
REST API, SQL,
Pig!
Dashboards
Metric Insights, etc.
Focus!
Time to Value
Economy & Flexibility
Simple & Supported
56. 56
Sec.4
Data
Processing
Data Collection
Data Storage
Data Analysis
Web logs
Treasure Agent
App logs
Streaming Log !
Collector (JSON)!
Cloud DB, Web App,
& Command Line
BI Connectivity
REST API, SQL, Pig,
JDBC / ODBC!
Flexible, Scalable,
Columnar Storage!
Sensor
Treasure Batch Query
&
New!!
Treasure Query Accelerator
New!!
Treasure Viewer
Focus!
RDBMS
Bulk Import
CRM
Tableau, Tools etc.
BI Dr.Sum,
Parallel Upload from
CSV, MySQL, etc.!
ERP
Time to Value
New!!
Management Console
No Command Line,!
Every Operation is Here! !
Economy & Flexibility
Result Push
REST API, SQL,
Pig!
Dashboards
Metric Insights, etc.
Simple & Supported
57. 57
Big Data Infrastructure
…and building a Big Data infrastructure is complicated,
expensive, and requires skills that are very hard to hire.
Streaming
Collec:on
Batch
Collec:on
Business
Rules
Data
Integra:on
Consump:on
/
Analy:cs
Applica:on
Interfaces
Processing
Engines
Frameworks
Storage
Layer
Networking
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
O/S
Hardware
58. 58
Cube
BI
Tools
Pig
Open
Source
MapReduce
Date,
Product
Category,
Area
Dashboard
Human
Decision
Database
Granularity
Interac-ve
Business
Goal
What
Helps?
Hive
Batch
Process
Intermediate
Data
Data
Insight
Aggregator
Batch
Data
Analysis
Machine
Learning
File
/
HDFS
User
Id
Ad-‐hoc
Impala
Small
Auto
ML
/
Graph
Mining
Deep
Enterprise
Their
Own
Products
60. 60
Data Analysis
REST
API
Heavy
Liing
SQL
(Hive):
-‐ Hive’s
Built-‐in
UDFs
-‐ TD
Added
Func:ons:
-‐ Time
Func:ons
-‐ First,
Last,
Rank
-‐ Sessionize
Scheduled
Jobs
-‐ SQL,
Pig
Scripts
-‐ Data
Pushes
JDBC
Connec-vity:
-‐ Custom
Java
Apps
-‐ Standards-‐based
-‐ BI
Tool
Integra:on
Tableau
ODBC
connector
-‐ Leverages
Impala
Interac-ve
SQL
Treasure
Query
Accelerator
(Impala)
Scripted
Processing
(Pig):
-‐ DataFu
(LinkedIn)
-‐ Piggybank
(Apache)
Push
Query
Results:
-‐ MySQL,
PostgreSQL
-‐ Google
Spreadsheet
-‐ Web,
FTP,
S3
-‐ Le{ronic,
Indicee
-‐ Treasure
Data
Table
61. 61
Granularity
Interac-ve
What
Helps?
Batch
Process
Business
Goal
Data
Insight
Aggregator
Intermediate
Data
Dashboard
Cube
User
Id
BI
Tools
Batch
Ad-‐hoc
New!!
File
/
HDFS
Small
Auto
Data
Analysis
Deep
Treasure Query
Accelerator
(Impala)
Machine
Learning
SQL-‐like Query
Language
Treasure
Batch
Query
(Hive)
Database
Human
Decision
Treasure
Scripted
Query
(Pig)
Date,
Product
Category,
Area
Script
多段MapReduce
62. 62
Comparison
Between
Batch
and
Ad-‐hoc
バッチ型クエリ
SQL-‐style
Query
Language
Monitoring
アドホック型クエリ
〃
-‐
ラーニングコストが低い
-‐
参考になる情報が溢れている
-‐
Join,
Group
by,
Where
の概念は馴染み
やすい
JDBC/ODBC
Driver
BI
Tools
-‐
多数のBIがJDBC/ODBCに対応
-‐
それ以外のBIでもコネクタを作る事が
可能
For
R/Excel/SPSS
Data
Analysis
-‐
解析に必要なデータセットの抽出
-‐
Hiveの出力データ構造と解析ツールの
入力形式の親和性が良い
-‐
入力データ抽出→解析→入力データ修
正→…
のイテレーション
Yes!
Interac-ve!!
-‐
インタラクティブな操作が実現
-‐ クリック・ドラッグ操操作で直接
Treasure
Cloud
Storage
へアクセスが
可能に
For
Automa-c
System
-‐
リコメンドエンジンや広告配信システム
など,常に結果を参照し続けるシステム
に対応
69. 69
1.
Cubic
Data
Processing
Design:
Goal
Source
Tables
Big
Cube
Mini
Cubes
Cross
Tables
Visualize
Dashboard
非専門家による
Mini
Cube
の作成,クロス集計,
Dashboard
埋め込み
専門アナリストに
よる前処理,
Big
Cube
の作成
パターンプロセス
専門アナリストによる
KPI
レポーティング
Big
Cube
BI
Tools
専門アナリストによる
応用分析
70. 70
1.
Cubic
Data
Processing
Design:
For
Treasure
Data
Source
Tables
Big
Cube
専門アナリストに
よる前処理,
Big
Cube
の作成
Mini
Cubes
Cross
Tables
Visualize
非専門家による
Mini
Cube
の作成,クロス集計,
Dashboard
埋め込み
パターンプロセス
Dashboard
専門アナリストによる
KPI
レポーティング
BI
Tools
専門アナリストによる
応用分析
71. 71
1.
Cubic
Data
Processing
Design:
For
Treasure
Data
Source
Big
Tables
Batch
Process
Cube
Batch
Process
Mini
Cubes
Interac-ve
Cross
Tables
Interac-ve
Visualize
Excel
Import
Treasure
Batch
Query
BI
Tools
Dashboard
Import
Treasure
Batch
Query
Treasure
Ad-‐hoc
Query
Connector
Treasure
Batch
Query
BI
Tools
On
Memory
Treasure
Ad-‐hoc
Query
72. 72
Source
Big
Tables
Batch
Process
Cube
1-‐1.
Making
Big
Cube
専門アナリスト
•
JOIN
可能な複数のデータソースを1
つのテーブルにまとめる。
•
全てのディメンジョンをGROUPキーに
した集計を実行する。
•
大規模なデータ処理になる場合は,
時間分割などをする。
Dashboard
や
BI
から直接
Big
Cube
を参照することはない。(Ad-‐hoc
クエ
リは例外。)
•
Treasure
Batch
Query
•
•
Focus!
i.e.
一度Big
Cubeを作ったら,ソース
テーブルは二度と参照しない。
全ての項目を「メジャー」と「ディメン
ジョン」に分類する。
73. 73
1.
Table
Join
hTp://doryokujin.hatenablog.jp/entry/2014/01/22/184300
Schema:
Car
Sensor:
brand_master
table
name
country_name
…
pref_master
table
code
large_area_name
…
carsensor
table
id
name
grade
model
code
body_name
price
year
shop_pref_code
shop_pref_name
Car
...
Hierarchy
catalog
table
Name
code
grade
model
series
body_code
body_name
period
…
74. 74
1.
Cubic
Data
Processing
Design
Data
Cube
ディメンジョン(階層がある場合は最上位階層を選択する)を固定することで,各ディ
メンジョンを次元軸に,1つのメジャーを各セルに取ったData
Cubeを作成できる
Ex.
Cube
for
(
Country,
Car
Name,
Year
)
Date
Products
Car
Name
Level
Cell:
(
Prius,
Korea,
2005)
-‐-‐>
10,000
PRIUS
MARK
X
2007
FAIRLADY
Z
2006
ROAD
STAR
2005
USA
Canada
Japan
Korea
Country
Level
Year
Level
Loca-on
75. 75
1.
Cubic
Data
Processing
Design
Star
Schema
Dimension
tables
Loca-on
Country
State
City
Products
Company
Car
Type
Car
Name
Hierarchy
(level-‐of-‐detail)
Fact
table
State
Month
Car
Name
Profit
Sales
Payroll
Marke-ng
Inventory
Margin
...
Hierarchy
Car
Date
Year
Month
Day
76. 76
3.
Business
Intelligence
Dimension,
Measure
*
Date
Dimension
はツール側で自動的にlevelを考慮してくれる
Most
Detailed
Dimensions
<city,
car
name>
– Original
Table
Most
Detailed
Dimensions
Measure
County
State
City
Company
Car
Type
Car
Name
Date
USA
California
San
Jones
TOYOTA
Sedan
Corolla
2012-‐08-‐15
36
$3,000
USA
California
Palo
Alto
TOYOTA
Sedan
Alion
2012-‐08-‐15
24
$2,000
USA
California
Los
Altos
NISSAN
SUV
X-‐TRAIL
2012-‐08-‐16
100
$1,000
USA
New
York
ManhaTan
NISSAN
Sport
FAIRLADY
Z
2012-‐08-‐16
64
$500
Canada
Alberta
Airdrie
Sport
Road
Star
2012-‐08-‐15
4
$3,000
MAZDA
Loca:on
Hierarchy
Products
Hierarchy
– Big
Cube
<city
County
,
car
nam
e>
<sta
USA
te,
c
ar
n
ame
<cou
>
USA
nty,
car
nam
<*,
c
eUSA
>
ar
n
ame
<cou
>
ALL
ntry
,
car
typ
<cou
eUSA
>
ntry
,
car
nam
<cou
e>
USA
ntry
,
*>
USA
…
<*,
*
>
ALL
Date
Hierarchy
Units
Sales
Holis-c
Measure
State
City
Company
Car
Type
Car
Name
Date
Avg
of
Top
20
California
San
Jones
TOYOTA
Sedan
Corolla
2012-‐08-‐15
$3,600
California
ALL
TOYOTA
Sedan
Alion
2012-‐08-‐15
$2,400
ALL
ALL
NISSAN
SUV
X-‐TRAIL
2012-‐08-‐16
$1,000
ALL
ALL
NISSAN
Sport
FAIRLADY
Z
2012-‐08-‐16
$640
California
San
Jones
TOYOTA
Sedan
ALL
2012-‐08-‐15
$3,600
California
San
Jones
TOYOTA
ALL
ALL
2012-‐08-‐15
$1,100
California
San
Jones
ALL
ALL
ALL
2012-‐08-‐15
$2,300
…
…
…
…
…
…
ALL
ALL
ALL
ALL
ALL
ALL
…
$720
77. 77
1-‐2.
Making
Mini
Cubes
from
Big
Cube
Big
Cube
Batch
Process
Mini
Cubes
非専門家による
パターンプロセス
•
•
Focus!
例1.Time:
year
>
month
>
day
>
hour
•
例2.Item:category
>
sub_category
>
item_name
•
On
Memory
階層を持ったディメンジョンは1つの
ディメンジョンとして扱う。
•
Treasure
Batch
Query
必要名ディメンジョンの組み合わせ
だけ,Mini
Cubeが作られる。
•
Treasure
Batch
Query
軸にするディメンジョンを最大2つ選
択し,Mini
Cubeを作成する。
Dashboard
や
BIから直接参照するこ
とを前提としているので,Mini
Cubes
の保存場所はデータベース(イン
デックスをきちんと作成しておく),メ
モリ上になる。
78. 78
1-‐3.
Making
Cross
Table
from
Mini
Cubes
Mini
Cubes
Interac-ve
Cross
Tables
Excel
非専門家による
パターンプロセス
Mini
Cube
を2つのディメンジョンに限
定したのはクロス集計における2軸
の設定を自動で行うため。
•
クロステーブルの各セルの値には合
計,数,平均などが入る。
•
Treasure
Batch
Query
さらに
Mini
Cube
の中でクロス集計
が必要なものは
Excel
などの統計
ツールや
BI
の機能を使って作成す
る。
•
Treasure
Batch
Query
•
クロス集計をインプットとした可視化
はよりわかりやすいものになりやす
い。
BI
Tools
On
Memory
Focus!
79. 79
1-‐4.
Repor-ng
from
Mini
Cube
or
Cross
Table
Mini
Cubes
Interac-ve
Cross
Tables
Interac-ve
Visualize
非専門家による
パターンプロセス
Excel
•
Treasure
Batch
Query
作成したMini
Cubeお
よびCross
Tableを
Dashboard
および
BI
のインプットデータと
する。
•
Import
レポーティング中に新
しい項目の集計が必
要な場合はBig
Cube
からMini
Cubeに切り
出してそれを新たな
インプットとする。
BI
Tools
Dashboard
Import
Treasure
Ad-‐hoc
Query
Connector
Treasure
Batch
Query
BI
Tools
On
Memory
Treasure
Ad-‐hoc
Query
専門アナリスト
Focus!