Suche senden
Hochladen
トレジャーデータ流,データ分析の始め方
•
40 gefällt mir
•
28,248 views
Takahiro Inoue
Folgen
Technologie
Melden
Teilen
Melden
Teilen
1 von 34
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
データ分析基盤運⽤チームの 運⽤業務を改善してみた話
データ分析基盤運⽤チームの 運⽤業務を改善してみた話
Recruit Lifestyle Co., Ltd.
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
Satoru Ishikawa
Snowflake Architecture and Performance
Snowflake Architecture and Performance
Mineaki Motohashi
MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来
株式会社MonotaRO Tech Team
エンジニアも知っておきたいAI倫理のはなし
エンジニアも知っておきたいAI倫理のはなし
Yasunori Nihei
グラフ構造のデータモデルをPower BIで可視化してみた
グラフ構造のデータモデルをPower BIで可視化してみた
CData Software Japan
BigData Architecture for Azure
BigData Architecture for Azure
Ryoma Nagata
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Satoru Ishikawa
Weitere ähnliche Inhalte
Was ist angesagt?
データ分析基盤について
データ分析基盤について
Yuta Inamura
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
cyberagent
Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツール
hoxo_m
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
Tokoroten Nakayama
ビッグデータ処理データベースの全体像と使い分け 2018年version
ビッグデータ処理データベースの全体像と使い分け 2018年version
Tetsutaro Watanabe
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
え!?データがオンプレにあるけどPower BI で BI したいの?
え!?データがオンプレにあるけどPower BI で BI したいの?
Yugo Shimizu
Prophet入門【理論編】Facebookの時系列予測ツール
Prophet入門【理論編】Facebookの時系列予測ツール
hoxo_m
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
Tokoroten Nakayama
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
Techon Organization
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
Yosuke Katsuki
SQL大量発行処理をいかにして高速化するか
SQL大量発行処理をいかにして高速化するか
Shogo Wakayama
全社のデータ活用を一段階上げる取り組み
全社のデータ活用を一段階上げる取り組み
株式会社MonotaRO Tech Team
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
NTT DATA Technology & Innovation
マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話
cyberagent
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
Google Cloud Platform - Japan
各種データベースの特徴とパフォーマンス比較
各種データベースの特徴とパフォーマンス比較
株式会社オプト 仙台ラボラトリ
MLflowで学ぶMLOpsことはじめ
MLflowで学ぶMLOpsことはじめ
Kenichi Sonoda
オントロジーとは?
オントロジーとは?
Kouji Kozaki
シリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのか
Atsushi Nakada
Was ist angesagt?
(20)
データ分析基盤について
データ分析基盤について
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツール
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
ビッグデータ処理データベースの全体像と使い分け 2018年version
ビッグデータ処理データベースの全体像と使い分け 2018年version
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
え!?データがオンプレにあるけどPower BI で BI したいの?
え!?データがオンプレにあるけどPower BI で BI したいの?
Prophet入門【理論編】Facebookの時系列予測ツール
Prophet入門【理論編】Facebookの時系列予測ツール
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
SQL大量発行処理をいかにして高速化するか
SQL大量発行処理をいかにして高速化するか
全社のデータ活用を一段階上げる取り組み
全社のデータ活用を一段階上げる取り組み
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
各種データベースの特徴とパフォーマンス比較
各種データベースの特徴とパフォーマンス比較
MLflowで学ぶMLOpsことはじめ
MLflowで学ぶMLOpsことはじめ
オントロジーとは?
オントロジーとは?
シリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのか
Ähnlich wie トレジャーデータ流,データ分析の始め方
20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション
Takahiro Inoue
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
Recruit Technologies
Treasure Data Intro for Data Enthusiast!!
Treasure Data Intro for Data Enthusiast!!
Takahiro Inoue
トレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解する
Takahiro Inoue
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Recruit Technologies
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
Insight Technology, Inc.
事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612
Takahiro Inoue
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Treasure Data, Inc.
この Visualization がすごい2014 〜データ世界を彩るツール6選〜
この Visualization がすごい2014 〜データ世界を彩るツール6選〜
Takahiro Inoue
Big data解析ビジネス
Big data解析ビジネス
Mie Mori
SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews, Inc.
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
Hideo Takagi
気象庁XMLのSPARQL APIを利用してデータを俯瞰しよう -SPARQLとRによる可視化-
気象庁XMLのSPARQL APIを利用してデータを俯瞰しよう -SPARQLとRによる可視化-
Yasuyuki Sugai
第2回 R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜相関分析による需要予測編〜
第2回 R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜相関分析による需要予測編〜
Yasuyuki Sugai
tut_pfi_2012
tut_pfi_2012
Preferred Networks
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
Recruit Technologies
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
Recruit Technologies
#経済学のための実践的データ分析 11. データのビジュアライゼーション
#経済学のための実践的データ分析 11. データのビジュアライゼーション
Yasushi Hara
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...
Insight Technology, Inc.
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
Takahiro Inoue
Ähnlich wie トレジャーデータ流,データ分析の始め方
(20)
20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
Treasure Data Intro for Data Enthusiast!!
Treasure Data Intro for Data Enthusiast!!
トレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解する
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
この Visualization がすごい2014 〜データ世界を彩るツール6選〜
この Visualization がすごい2014 〜データ世界を彩るツール6選〜
Big data解析ビジネス
Big data解析ビジネス
SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
気象庁XMLのSPARQL APIを利用してデータを俯瞰しよう -SPARQLとRによる可視化-
気象庁XMLのSPARQL APIを利用してデータを俯瞰しよう -SPARQLとRによる可視化-
第2回 R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜相関分析による需要予測編〜
第2回 R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜相関分析による需要予測編〜
tut_pfi_2012
tut_pfi_2012
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
#経済学のための実践的データ分析 11. データのビジュアライゼーション
#経済学のための実践的データ分析 11. データのビジュアライゼーション
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
Mehr von Takahiro Inoue
Treasure Data × Wave Analytics EC Demo
Treasure Data × Wave Analytics EC Demo
Takahiro Inoue
トレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティング
Takahiro Inoue
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界
Takahiro Inoue
オンラインゲームソリューション@トレジャーデータ
オンラインゲームソリューション@トレジャーデータ
Takahiro Inoue
Hadoop and the Data Scientist
Hadoop and the Data Scientist
Takahiro Inoue
MongoDB: Intro & Application for Big Data
MongoDB: Intro & Application for Big Data
Takahiro Inoue
An Introduction to Fluent & MongoDB Plugins
An Introduction to Fluent & MongoDB Plugins
Takahiro Inoue
An Introduction to Tinkerpop
An Introduction to Tinkerpop
Takahiro Inoue
An Introduction to Neo4j
An Introduction to Neo4j
Takahiro Inoue
The Definition of GraphDB
The Definition of GraphDB
Takahiro Inoue
Large-Scale Graph Processing〜Introduction〜(完全版)
Large-Scale Graph Processing〜Introduction〜(完全版)
Takahiro Inoue
Large-Scale Graph Processing〜Introduction〜(LT版)
Large-Scale Graph Processing〜Introduction〜(LT版)
Takahiro Inoue
Advanced MongoDB #1
Advanced MongoDB #1
Takahiro Inoue
はじめてのGlusterFS
はじめてのGlusterFS
Takahiro Inoue
はじめてのMongoDB
はじめてのMongoDB
Takahiro Inoue
MongoDB & Hadoop: Flexible Hourly Batch Processing Model
MongoDB & Hadoop: Flexible Hourly Batch Processing Model
Takahiro Inoue
MongoDB: Replication,Sharding,MapReduce
MongoDB: Replication,Sharding,MapReduce
Takahiro Inoue
MongoDB Oplog入門
MongoDB Oplog入門
Takahiro Inoue
Map Reduce ~Continuous Map Reduce Design~
Map Reduce ~Continuous Map Reduce Design~
Takahiro Inoue
Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜
Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜
Takahiro Inoue
Mehr von Takahiro Inoue
(20)
Treasure Data × Wave Analytics EC Demo
Treasure Data × Wave Analytics EC Demo
トレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティング
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界
オンラインゲームソリューション@トレジャーデータ
オンラインゲームソリューション@トレジャーデータ
Hadoop and the Data Scientist
Hadoop and the Data Scientist
MongoDB: Intro & Application for Big Data
MongoDB: Intro & Application for Big Data
An Introduction to Fluent & MongoDB Plugins
An Introduction to Fluent & MongoDB Plugins
An Introduction to Tinkerpop
An Introduction to Tinkerpop
An Introduction to Neo4j
An Introduction to Neo4j
The Definition of GraphDB
The Definition of GraphDB
Large-Scale Graph Processing〜Introduction〜(完全版)
Large-Scale Graph Processing〜Introduction〜(完全版)
Large-Scale Graph Processing〜Introduction〜(LT版)
Large-Scale Graph Processing〜Introduction〜(LT版)
Advanced MongoDB #1
Advanced MongoDB #1
はじめてのGlusterFS
はじめてのGlusterFS
はじめてのMongoDB
はじめてのMongoDB
MongoDB & Hadoop: Flexible Hourly Batch Processing Model
MongoDB & Hadoop: Flexible Hourly Batch Processing Model
MongoDB: Replication,Sharding,MapReduce
MongoDB: Replication,Sharding,MapReduce
MongoDB Oplog入門
MongoDB Oplog入門
Map Reduce ~Continuous Map Reduce Design~
Map Reduce ~Continuous Map Reduce Design~
Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜
Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜
Kürzlich hochgeladen
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
Shumpei Kishi
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
Tetsuya Nihonmatsu
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
arts yokohama
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor
arts yokohama
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
ssuser539845
20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf
Ayachika Kitazaki
What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
ssuser370dd7
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
Sadao Tokuyama
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
Matsushita Laboratory
2024 03 CTEA
2024 03 CTEA
arts yokohama
2024 04 minnanoito
2024 04 minnanoito
arts yokohama
Kürzlich hochgeladen
(12)
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf
What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
2024 03 CTEA
2024 03 CTEA
2024 04 minnanoito
2024 04 minnanoito
トレジャーデータ流,データ分析の始め方
1.
Copyright ©2014 Treasure
Data. All Rights Reserved. トレジャーデータ流 データ分析の始め方 ∼データサイエンティストがもたらす新しい価値∼ 2014/6/27 Takahiro Inoue (Chief Data Scientist) taka@treasure-data.com 1
2.
Copyright ©2014 Treasure
Data. All Rights Reserved. アジェンダ • トレジャーデータサービス概要 • データサイエンティストのプロセス • 事例(オンラインゲーム) 2 目的:数多くの事例を通してデータ分析のヒントを得てほしい
3.
Copyright ©2014 Treasure
Data. All Rights Reserved. 自己紹介 • 井上 敬浩 (Twitter: @doryokujin ) • チーフデータ サイエンティスト • 慶應大学院数学科統計専攻 • トレジャーデータ公式ブログ オーサー • MongoDBマスター 3 h=p://treasure-‐data.hateblo.jp
4.
Copyright ©2014 Treasure
Data. All Rights Reserved. データサイエンティストがCXOを補佐 この二つのアプローチを兼ね備えた人(チーム)が 新しい経営を支える 4 目的 データ収集 分析 考察 施策PDCA ルール (モデル) 可視化テ ンプレート クエリテン プレート データ 仮説
5.
Copyright ©2014 Treasure
Data. All Rights Reserved. トレジャーデータサービス概要 5
6.
Copyright ©2014 Treasure
Data. All Rights Reserved. 2011年12月、米Mountain Viewにて創業 • 従業員約50名(著名データベース技術者が多数所属) うち15名が東京丸の内の日本支社勤務 • 米有力VCのSierra Ventures、Yahoo! Inc.創業者Jerry Yang氏等多数の有力投資家より支援 • 2012年後半に商用サービス提供開始
7.
Copyright ©2014 Treasure
Data. All Rights Reserved. “データ解析の世界をシンプルにしたい” すぐに簡単にビッグデータの解析を始められる クラウド型のデータマネージメントサービス Acquire Store Analyze 大規模初期投資不要 インフラはTDが管理 面倒な拡張・保守・ 運用から解放 日米トップクラスのデータベースエンジニア、サイエンティストが支える技術基盤
8.
Copyright ©2014 Treasure
Data. All Rights Reserved. KPI データ可視化・共有 分析ツール連携 他製品連携 RDBMS, Google Docs, AWS S3, FTP Server, etc. MoOon Board, Metric Insights, etc. Tableau, Dr.Sum, Power BI, Excel, etc. Treasure Data Service 8 Result Output クエリ結果自動書込 データ収集 データ分析 データ保管 収集・保存・分析をワンストップに、柔軟なインターフェイスで提供。 データ集計 SQL, Pig ストレージ Flexible, Scalable, Columnar Storage バッチ型 分析 アドホック型 分析 分析エンジン Hadoop, Treasure Query Accelerator データ抽出 REST API ODBC/JDBC (SQL, Pig) Webログ Appログ センサー CRM ERP RDBMS TD Toolbelt 並列バルク インポーター Treasure Agent ストリーミング ログコレクター POS
9.
Copyright ©2014 Treasure
Data. All Rights Reserved. 分析レイヤーの詳解 9 4. Data Processing 5. Data Visualiza5on 3. Data Storage 2. Data Collec5on 1. Data Source
10.
Copyright ©2014 Treasure
Data. All Rights Reserved. データサイエンティストのプロセス 10
11.
Copyright ©2014 Treasure
Data. All Rights Reserved. 一般的なデータ分析プロセス 11 1. 目的明確化 2. 目標設定 3. データ収集 4. データ分析 5. 考察・仮説 6. Plan 7. Do 8. Data Check 9. Action
12.
Copyright ©2014 Treasure
Data. All Rights Reserved. 一般的なデータ分析プロセス 12 1. 目的明確化 2. 目標設定 3. データ収集
13.
Copyright ©2014 Treasure
Data. All Rights Reserved. 一般的なデータ分析プロセス 13 1. 目的明確化 2. 目標設定 3. データ収集 1. 目的明確化 • そもそも何を目的とすえるのかもわからない(だから分析に助けを求めるので…) 2. 目標設定 • 「売上を上げる」といった緩い目標しか立たないのでデータ収集へ進めない… 3. データ収集 • どのようなデータが活用できそうかわからない • (自分のサービスであっても)データの内容を知らない 目的・目標が未設定,さらにデータの内容がわからない。故に次の 4〜9. のデータ分析サ イクルを回せない。
14.
Copyright ©2014 Treasure
Data. All Rights Reserved. トレジャーデータが可能にする分析アプローチ • データ分析を始める前に,明確な「目標」など無くて当たり前 • データ分析を始める前に,高尚な「仮説」など無くて当たり前 • データ分析を始める前に,とにかくデータを集めよう(例え中身など知らなくても) • データ分析を始める前に,データを「見る」ことで大概のことが見えてくる • データを収集を頑張ったリターンとして,データを「見る」ところまでは誰でも必ず到達 できる(成果物の担保)。そして「見る」ことは多くの知見・考察を生み出してくれる。 14 2. Data Watch
15.
Copyright ©2014 Treasure
Data. All Rights Reserved. トレジャーデータ流,データ分析プロセス 15 1. データ収集 2. Data Watch 3. 目標設定 4. データ分析 5. 考察・仮説 6. Plan 7. Do 8. Data Check 9. Action トレジャーデータ流:まずはとにかくデータ収集,そしてデータを「見る」ことに専念しましょう
16.
Copyright ©2014 Treasure
Data. All Rights Reserved. 1. データ収集 16 1. データ収集 1. 「とにかく集められるログを探してくる」 • サーバーに垂れ流しにされているアクセスログ,システムログ • MySQLに格納されている購買ログ • アプリケーションに仕込まれたデバッグログ • etc… 2. 「ログがどこにも無ければ簡単なログ収集から始める」 • Webアプリケーションなら「Login(Access)」ログを収集する • 参考リンク:Login ログからわかる12の指標 h=p://treasure-‐data.hateblo.jp/entry/2014/05/09/112107
17.
Copyright ©2014 Treasure
Data. All Rights Reserved. 2. Data Watch: 定型化された3つの「見る」プロセス 17 a. データの「項目」を見る • データにどのような項目があるか? • 各項目にはどのような値が入っているか? • 各項目を「ディメンジョン」「メジャー」に分類 b. データの「内訳」を見る • どの値がどれくらいの割合で登場しているか? • テンプレートに従ったデータ集計 c. データの「分布」を見る • どのような値にデータが密集しているか? • テンプレートに従った分布計算 2. Data Watch1. データ収集
18.
Copyright ©2014 Treasure
Data. All Rights Reserved. a. データの「項目」を見る • データにどのような項目があるか? • 各項目にはどのような値が入っているか? • 各項目を「ディメンジョン」「メジャー」に分類 ↓ 2-‐a. 「項目を見る」: ディメンジョン・メジャー分類 18 メジャー:値が数値(定量)で COUNT,SUM, AVGなどを求め る対象となる項目 ディメンジョン:この値各々に 対してメジャーが集計される。 非数値や年などの非順序数値 データサイエンティストのためのHiveQL分析クエリテンプレート その1 h=p://treasure-‐data.hateblo.jp/entry/2014/05/07/000000
19.
Copyright ©2014 Treasure
Data. All Rights Reserved. 2-‐b. 「内訳を見る」: 集計テンプレートクエリの適用 b. データの「内訳」を見る • どの値がどれくらいの割合で登場しているか? • 提供するテンプレートクエリに従ったデータ集計 ↓ -‐-‐ #mをメジャー,%dim1をディメンジョンとする -‐-‐ SELECT SUM(#m) [, COUNT(1), AVG(#m) , etc...] FROM table WHERE condiOon GROUP BY %dim1 -‐-‐ #mをメジャー,%dim1, %dim2をディメンジョンとする -‐-‐ SELECT SUM(#m) [,COUNT( 1 ) AS cnt, etc...] FROM table WHERE condiOon GROUP BY %dim1, %dim2 SELECT %year, %month, %day, SUM(#m) [, COUNT(1), etc...] FROM table WHERE condiOon GROUP BY %year, %month, %day ORDER BY %year, %month, %day 分類したメジャー,ディメンジョンの任意の 組み合わせで集計するテンプレートクエリ データサイエンティストのためのHiveQL分析クエリテンプレート その1 h=p://treasure-‐data.hateblo.jp/entry/2014/05/07/000000
20.
Copyright ©2014 Treasure
Data. All Rights Reserved. 2-‐b. 「内訳を見る」: 内訳可視化テンプレートの適用 20 b. データの「内訳」を見る • 「内訳」可視化テンプレートを適用
21.
Copyright ©2014 Treasure
Data. All Rights Reserved. 2-‐c. 「分布を見る」: 分布テンプレートクエリの適用 21 c. データの「分布」を見る • どのような値にデータが密集しているか? • 分布テンプレートクエリの適用 • ↓ 2次元分布 / 3次元分布 → SELECT ceil( #m/width )*width AS x, COUNT(1) AS cnt FROM ( SELECT #m, 1 AS one FROM table WHERE condiOon ) t1 JOIN ( SELECT POW(10,floor(LOG10(MAX( #m )))-‐1) / n AS width, 1 AS one FROM table WHERE condiOon ) t2 ON t1.one = t2.one GROUP BY ceil( #m/width )*width ORDER BY x SELECT ceil( #m1/t2.width)*t2.width AS x, ceil( #m2/t3.width)*t3.width AS y, COUNT(1) AS cnt FROM ( SELECT #m1, #m2, 1 AS one FROM table WHERE condiOon ) t1 JOIN ( SELECT POW(10,floor(LOG10(MAX( #1 )))-‐1) AS width, 1 AS one FROM table WHERE condiOon ) t2 ON t1.one = t2.one JOIN ( SELECT POW(10,floor(LOG10(MAX( #m2 )))-‐1) AS width, 1 AS one FROM table WHERE condiOon ) t3 ON t1.one = t3.one GROUP BY ceil( #m1/t2.width)*t2.width, ceil(#m2/t3.width)*t3.width ORDER BY x, y データサイエンティストのためのHiveQL分析クエリテンプレート その2 h=p://treasure-‐data.hateblo.jp/entry/2014/05/29/000000
22.
Copyright ©2014 Treasure
Data. All Rights Reserved. 2-‐c. 「分布を見る」: 分布可視化テンプレートの適用 22 c. データの「分布」を見る • どのような値にデータが密集しているか? • 分布可視化テンプレートの適用 • ↓ 2次元分布 / 3次元分布 → データサイエンティストのためのHiveQL分析クエリテンプレート その2 h=p://treasure-‐data.hateblo.jp/entry/2014/05/29/000000
23.
Copyright ©2014 Treasure
Data. All Rights Reserved. まとめ: データ収集から目標設定まではノンストップ行える 3. 目標設定 1. データ収集 2. Data Watch 多少のコストをかけてデータ収集することには意義がある: データを「見る」というステップに進めて示唆に富んだ情報が 得られる。 「項目」を見る 「内訳」を見る 「分布」を見る • データの「見る」に特化したダッシュボード • SQL-‐Lessで直感的に操作できるツール データを見る事で 興味,問題意識 が,目標が生ま れる。
24.
Copyright ©2014 Treasure
Data. All Rights Reserved. Data Watch のための VisualizaOon Tools 24 データを「見る」ことへの投資 → 可視化ツールの採用 • (誰でも):SQL などの低レイヤーのラーニングコストを無くしたい • (すぐに):より効率良く簡潔にデータを見たい • (直感的に):データと直感を結びつけたい 2. Data Watch 最短ルートでデータを 「見る」プロセスを回す
25.
Copyright ©2014 Treasure
Data. All Rights Reserved. Data Watch のための Visualization Tools 25 a. データの「項目」を見る データソースを指定すれば自動的 にディメンジョン / メジャーに分類 b. データの「内訳」を見る ディメンジョン / メジャーを x-‐軸,y-‐軸 へドラッグするだけで可視化が可能 c. データの「分布」を見る 分布を見るための機能も用意
26.
Copyright ©2014 Treasure
Data. All Rights Reserved. トレジャーデータ流:データ分析の始め方(POC) 26 1. データ収集 2. Data Watch 3. 目標設定 POCの目線:データを「見る」こと,そこから何ができるか(目標)を描く (スモールスタート → 期間:1 〜 3ヶ月,使用するコア数レコード数で決まる従量課金体系)
27.
Copyright ©2014 Treasure
Data. All Rights Reserved. トレジャーデータにおけるデータ分析プロジェクト 27 4. データ分析 5. 考察・仮説 6. Plan 7. Do 8. Data Check 9. Action 本プロジェクト
28.
Copyright ©2014 Treasure
Data. All Rights Reserved. 3. 事例紹介:オンラインゲーム 28 〜データを「見る」ことに徹底的にこだわったトレジャーデータのソリューション〜 トレジャーデータ事例集 1(a).「オンラインゲームソリューション」 h=p://treasure-‐data.hateblo.jp/entry/2014/06/13/150608
29.
Copyright ©2014 Treasure
Data. All Rights Reserved. オンラインゲームソリューションとは 29 ログインログ Treasure Data Service データ統合 課金ログ 招待ログ KPI: PV KPI: ARPU KPI: リテンション 提供するログテンプレートを活用する事で,容易に多種多様なKPI群のモニタリング がすぐに実現可能に。
30.
Copyright ©2014 Treasure
Data. All Rights Reserved. 1. テンプレートに従ったデータ収集 30 1. データ収集 2. Data Watch 3. 目標設定 # Applica5on Ruby Code TD.event.post( ’login', { :uid => 123, :device => ’smart phone’, :5me => 138959673 }) TD.event.post( ’pay', { :uid => 123, :name => ’ItemA’, :sub_category => ’a’, :category => A, :count => 2, :price => 300, :5me => 138959673 }) Login テーブル Pay テーブル Inviteテーブル ユーザー属性 情報テーブル 指定したログテンプレートに 沿って収集することでトレ ジャークラウドに随時データ がアップロードされていく
31.
Copyright ©2014 Treasure
Data. All Rights Reserved. 2. データを徹底的に「見る」ための ダッシュボード 31 1. データ収集 2. Data Watch 3. 目標設定 KPI: PV KPI: ARPU KPI: レベル分布
32.
Copyright ©2014 Treasure
Data. All Rights Reserved. 3. 目標:コンバージョンのボトルネックを調べる 4. 分析:ファンネル分析 32 4. データ分析 3. 目標設定 チュートリアル開始から登録(コンバー ジョン)までに至るステップで,どのス テップが離脱率が高いのかを調べる。
33.
Copyright ©2014 Treasure
Data. All Rights Reserved. 続きは公式ブログで 33 • http://treasure-data.hateblo.jp
34.
Copyright ©2014 Treasure
Data. All Rights Reserved. Q and A 34
Jetzt herunterladen