10. 活動領域
ソーシャルメディアのデータマイニング活用
2000万人以上の人々へ
各人のつながり・楽しみ・好み 個性にあった適切なサービス提供
Social Media
Social Graph
Fun Like Personality
Objective Process
Data Mining
Machine Learning
各人のつながり、楽しみ、好み、個性にあった
より適切なサービス提供
18. 数理解析手法の実ビジネスへの適用
2004年 博士号取得後
数理解析手法を実ビジネス適用の方法論構築
主な領域
◆活動の数理モデル化・解析手法
◆活動の分析手法・再構築手法
◆活動の実行制御・実績解析システム
…
内容抜粋
“Decoupling Executions in Navigating Manufacturing "Unified graph representation of processes
Processes for Shortening Lead Time and Its Implementation for scheduling with flexible resource
to an Unmanned Machine Shop”, assignment",
18
19. 数理解析手法の実ビジネスへの適用:活動例
活動例
活動の統一グラフモデルを構築・解析
Unified graphical model of processes and resources
青字:割付モデル属性
[ ] : Optional
Node ・priority(優先度) Edge
・duration(予定時間)
[・earliest(再早開始日時) ] Process Edge
Process [・deadline(納期) ]
[・or(条件集約数) ]
前プロセスの終了後に後プロセスが
プロセスを表す 開始できること表す
・attributes(属性)
preemptable(中断可否),
successive(引継ぎ可否)
Uses Edge
workload(作業負荷) Processが使用する
uses uses uses uses uses uses Assign Region を表す
Assign Region Assigns from Edge
同一Resourceを割付け続ける Assign Regionに
assigns from assigns from 指定Resourceの子Resource集合の
範囲を表す
assigns assigns 中から割付けることを示す
企業01 [process]
has has [startDate(開始日時)]
[endDate(終了日時)] Assigns Edge
製品01 組織A StartDateからEndDateまでの間
Resource has Assign RegionにResourceを
割付対象要素を表す has has has has has has 割付けることを表す
・capacity(容量)
・calender(カレンダー)
AAA01 AAB02 … 山田さん 田中さん 鈴木さん ・attributes(属性) Has Edge
東さん Resourceの所有関係を表す
19
21. 数理解析手法の実ビジネスへの適用:活動例
ビジネスとともに
学術分野でも貢献
変動性から生じる動的な課題
・リソースの競合 ・滞留 ・納期遅延 …
一品一様な業務プロセスを含む
統計解析・制御数理モデル
・統計的な有効変数算出
・統計数理モデル化
-優先順位制御
-実行タイミング制御
-統計フィードバック
-適正リソース量算出
・予測数理体系
論文(体系の一部)
M.Nakao, N. Kobayashi, K.Hamada, T.Totsuka, S.Yamada,
“Decoupling Executions in Navigating Manufacturing Processes for Shortening Lead Time and Its Implementation
to an Unmanned Machine Shop”,
CIRP Annals - Manufacturing Technology Volume 56, Issue 1, Pages 171-174 (2007) 21
22. 思い
より広く蓄積されたデータを有効活用し
世界の未来をよりよいものにしていきたい
データマイニング+WEB勉強会@東京
Google Group: http://groups.google.com/group/webmining-tokyo 22
23. 現在の活動領域
ソーシャルメディアのデータマイニング活用
2000万人以上の人々へ
各人のつながり・楽しみ・好み 個性にあった適切なサービス配信
日々20億以上の活動の活用
Social Media
Social Graph
Fun Like Personality
Objective Process
Data Mining
Machine Learning
各人のつながり、楽しみ、好み、個性にあった
より適切なサービス提供
23
24. よりよい世界の実現
ソーシャル・活動情報の活用により
より適切な情報・サービス配信される世界を実現したい
Social Media
Social Graph
Fun Like Personality
Objective Process
Data Mining
Machine Learning
各人のつながり、楽しみ、好み、個性にあった
より適切なサービス提供
24
25. よりよい世界の実現
ソーシャル・活動情報の活用により
より適切な情報・サービス配信される世界を実現したい
世界中の人々が
個々人のつながり・楽しみ・好みにあった適切な情報・サービスを
自ら探さなくても得ることができる世界
Social Media
Social Graph
Fun Like Personality
Objective Process
Data Mining
Machine Learning
各人のつながり、楽しみ、好み、個性にあった
より適切なサービス提供
25
59. Random Forest とは
決定木の集団学習により
高精度の分類・予測を行う
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
分類・予測結果 59
60. Random Forest : 長所
Random Forest の
主な長所
・精度が高い
・説明変数が数百、数千でも効率的に作動
・目的変数に対する説明変数の重要度を推定
・欠損値を持つデータでも有効に動作
・個体数がアンバランスでもエラーバランスが保たれる
60
62. Random Forest とは
決定木の集団学習により
高精度の分類・予測を行う
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
分類・予測結果 62
63. Random Forest とは
決定木の集団学習により
高精度の分類・予測を行う
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
分類・予測結果 63
64. Random Forest とは
決定木の集団学習により
高精度の分類・予測を行う
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
分類・予測結果 64
83. 決定木: 分岐基準
条件ノード A を条件ノードALとARに分けるとき
以下のΔIを最大化する分割を行う
Classification And Regression Trees (CART)
(Breiman et al, 1984)
分類木
Entropy
GINI係数
※ :条件ノード A で クラス k をとる確率
回帰木
尤離度(deviance)
※ :条件ノード A での目標変数 t の平均値 83
92. Random Forest とは
決定木の集団学習により
高精度の分類・予測を行う
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
分類・予測結果 92
93. Random Forest とは
決定木の集団学習により
高精度の分類・予測を行う
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
分類・予測結果 93
103. Random Forest
樹木モデルの集団学習による
高精度の分類・予測(回帰)
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
分類・予測結果 103
112. Random Forest アルゴリズム
全木モデルで
分類・回帰予測の結果算出
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
112
113. Random Forest アルゴリズム
全木モデルの結果を統合する
分類:多数決、回帰予測:平均
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
分類・予測結果 113
114. Random Forest アルゴリズム
木モデルの集団学習による
高精度の分類・予測(回帰)
学習用データ
Random Sampling 1 Sampling 2 … Sampling B
Forest
Forest
Tree 1 Tree 2 … Tree B
予測対象
Result 1 Result 2 … Result B
分類・予測結果 114
115. Random Forest : 長所
Random Forest の
主な長所
・精度が高い
・説明変数が数百、数千でも効率的に作動
・目的変数に対する説明変数の重要度を推定
・欠損値を持つデータでも有効に動作
・個体数がアンバランスでもエラーバランスが保たれる
115
129. 参考資料:R/CART/Random Forest
Rによるデータサイエンス Rによる統計解析
~データ解析の基礎から最新手法まで ~
■CART:
L. Breiman, J. H. Friedman, R. A. Olshen and. C. J. Stone:
“Classification and Regression Trees.”, Wadsworth (1984)
■Random Forest:
L. Breiman. Random forests. Machine Learning, 45, 5–32 (2001)