「R言語による Random Forest 徹底入門－集団学習による分類・予測－」 - #TokyoR #11

Tokyo.R #11
2011/1/29

R言語による

Random Forest 徹底入門
－集団学習による分類・予測－

hamadakoichi
濱田晃一

AGENDA
◆講師紹介
◆Random Forestとは
◆決定木
◆決定木とは
◆R言語での実行
◆集団学習
◆Random Forest
◆アルゴリズム
◆R言語での実行
◆参考資料
◆最後に

hamadakoichi
濱田晃一
http://iddy.jp/profile/hamadakoichi

4

資料

各種講師資料を公開しています

http://www.slideshare.net/hamadakoichi

データマイニング+WEB勉強会＠東京
データマイニング+WEB勉強会＠東京主催者です
ぜひご参加下さい

Google Group： http://groups.google.com/group/webmining-tokyo 6

たくさんの会場参加、UST参加、Bookmark
ありがとうございます

開催内容まとめ
http://d.hatena.ne.jp/hamadakoichi/
7

３つの進行方針
充分な時間を充て
理解・議論を優先する
１．充分な時間：
各テーマごとにしっかり時間を充てる
（浅く多くではなく、少ないテーマでも深く）

２．理解：
進行を急がない。分からないところはすぐ質問。
講師・各メンバーからの返答で、みなで理解を深めることを優先する。

３．議論：
議論時間をしっかりとる。
各分野の意見の共有、皆での発想・創造を優先する。
全員でのフラットな議論。講師にとっても有意義な場となるようにする。

8

活動領域

ソーシャルメディアのデータマイニング活用
2000万人以上の人々へ
各人のつながり・楽しみ・好み個性にあった適切なサービス提供

Social Media
Social Graph
Fun Like Personality
Objective Process

Data Mining
Machine Learning
各人のつながり、楽しみ、好み、個性にあった
より適切なサービス提供

活動領域

活動が紹介されました

11

活動領域

活動が紹介されました
Tech総研

12
（※記事から抜粋）

hamadakoichi 濱田晃一

13

理論物理博士(2004.3取得)
量子統計場の理論
Statistical Field Theory Spontaneously
Time-Reversal Symmetry Breaking

Anisotropic Massless Dirac Fermions

博士論文： http://hosi.phys.s.u-tokyo.ac.jp/~koichi/PhD-thesis.pdf 14


文部大臣に褒められた
元文部大臣・法務大臣六法全書著者・元法学政治学研究科長
森山眞弓さん菅野和夫さん

15


Los Angelesでプロダンサーに褒められた

・HIP HOP/House ダンス歴１３年
・ダンス開始後 1年半でL.A.でプロダンサーに褒められる

Youtube Channel： http://www.youtube.com/hamadakoichi 16


毎週末３時間ダンスコーチをしています

■過去、東京と京都でも
ダンス部を創設。
コーチをしていました
駒場物理ダンス部京都大学基礎物理学研究所ダンス部
部長兼コーチ部長兼コーチ

現在：毎週末３時間ダンスコーチ
Youtube Channel： http://www.youtube.com/hamadakoichi 17

数理解析手法の実ビジネスへの適用
2004年博士号取得後
数理解析手法を実ビジネス適用の方法論構築
主な領域
◆活動の数理モデル化・解析手法
◆活動の分析手法・再構築手法
◆活動の実行制御・実績解析システム
…
内容抜粋
“Decoupling Executions in Navigating Manufacturing "Unified graph representation of processes
Processes for Shortening Lead Time and Its Implementation for scheduling with flexible resource
to an Unmanned Machine Shop”, assignment",

18

数理解析手法の実ビジネスへの適用：活動例
活動例
活動の統一グラフモデルを構築・解析
Unified graphical model of processes and resources
青字：割付モデル属性
[ ] : Optional
Node ・priority(優先度) Edge
・duration(予定時間)
[・earliest(再早開始日時) ] Process Edge
Process [・deadline(納期) ]
[・or(条件集約数) ]
前プロセスの終了後に後プロセスが
プロセスを表す開始できること表す
・attributes（属性）
preemptable(中断可否),
successive(引継ぎ可否)
Uses Edge
workload(作業負荷) Processが使用する
uses uses uses uses uses uses Assign Region を表す

Assign Region Assigns from Edge
同一Resourceを割付け続ける Assign Regionに
assigns from assigns from 指定Resourceの子Resource集合の
範囲を表す
assigns assigns 中から割付けることを示す
企業01 [process]
has has [startDate(開始日時)]
[endDate(終了日時)] Assigns Edge
製品01 組織A StartDateからEndDateまでの間
Resource has Assign RegionにResourceを
割付対象要素を表す has has has has has has 割付けることを表す
・capacity(容量)
・calender(カレンダー)
AAA01 AAB02 … 山田さん田中さん鈴木さん・attributes(属性) Has Edge
東さん Resourceの所有関係を表す
19

一品一様の業務プロセスの
動的なプロセス制御数理体系を構築
全体生産リードタイム中央値を 1/2.7に短縮
設計開始～頭だし出荷リードタイム
体系適用
設計開始～頭だし出荷CT対週集計開始日時の箱ひげ図
500
適用後
設計開始～頭だし出荷CT

400

360.4h(15.0日)
1/2.7
300

200

100
0 0 0 0 0 0 0 0 0 0 0 0
141.6h(5.9日)
0 0
9: 0 9 :0 9:0 9:0 9: 0 9 :0 9:0 9:0 9: 0 9 :0 9 :0 9:0 9: 0 9 :0
0 7 4 1 8 5 1 8 5 2 9 6 3 0
/2 /2 /0 /1 /1 /2 1/0 /0 /1 /2 1/2 /0 /1 /2
09 /09 /10 1 0 /1 0 / 1 0 1 1 1 /1 1 / 1 1 1 1 2 / 12 / 1 2
4/ 4 4 4/ 4 4 4/ 4/ 4 4 4/ 4/ 4 4
2 0 0 2 00 2 00 200 200 200 2 00 200 200 200 2 00 200 200 200
週集計開始日時

20

ビジネスとともに
学術分野でも貢献
変動性から生じる動的な課題
・リソースの競合・滞留・納期遅延 …

一品一様な業務プロセスを含む
統計解析・制御数理モデル
・統計的な有効変数算出
・統計数理モデル化
－優先順位制御
－実行タイミング制御
－統計フィードバック
－適正リソース量算出
・予測数理体系
論文（体系の一部）
M.Nakao, N. Kobayashi, K.Hamada, T.Totsuka, S.Yamada,
“Decoupling Executions in Navigating Manufacturing Processes for Shortening Lead Time and Its Implementation
to an Unmanned Machine Shop”,
CIRP Annals - Manufacturing Technology Volume 56, Issue 1, Pages 171-174 (2007) 21

思い
より広く蓄積されたデータを有効活用し
世界の未来をよりよいものにしていきたい


現在の活動領域

ソーシャルメディアのデータマイニング活用
2000万人以上の人々へ
各人のつながり・楽しみ・好み個性にあった適切なサービス配信
日々20億以上の活動の活用

Social Media
Social Graph
Objective Process

Data Mining
Machine Learning
23

よりよい世界の実現
ソーシャル・活動情報の活用により
より適切な情報・サービス配信される世界を実現したい

Social Media
Social Graph
Objective Process

Data Mining
Machine Learning
24

ソーシャル・活動情報の活用により
より適切な情報・サービス配信される世界を実現したい
世界中の人々が
個々人のつながり・楽しみ・好みにあった適切な情報・サービスを
自ら探さなくても得ることができる世界

Social Media
Social Graph
Objective Process

Data Mining
Machine Learning
25

思うこと
蓄積されたデータを有効活用し


思うこと
統計解析・データマイニング・機械学習、重要



思うこと
統計解析・データマイニング・機械学習、重要
R言語使い重要


課題意識

R言語人材がそのスキルを十分に活かし
活躍できる場が提供されているか？

31

調査結果

早速
R言語での人材募集要項を検索してみた
「R言語募集要項」

32

調査結果

早速

SASやSPSS使いは人材募集がある

調査結果

早速

R言語の人材募集は見つからなかった。。。
（※海外ではFacebook等、募集）

調査結果

早速

R言語の人材募集は見つからなかった。。。
（※海外ではFacebook等、募集）

（2011/01/27までは）
35

2011/01/28
新たな変化

36

新たな変化

検索してみると

37

新たな変化

発見！

38

新たな変化

日本初
R言語の人材募集要項
http://www.dena.jp/recruit/sp2/career/guide09.html

Ｒ言語人材の活躍の場
39

思い

R言語人材募集を作った思い

41

思い

統計解析・データマイニング・機械学習
R言語・R人材の活用・活躍の場を広げたい

42

思い


ソーシャル業界全体や、他業界の追従も歓迎

43

思い



より広く、蓄積されたデータを有効活用し
世界中のサービスが継続的進化される世界を実現したい

44

思い



より広く、蓄積されたデータを有効活用し
世界中のサービスが継続的進化される世界を実現したい
※もちろん、個人としては
一緒に活動し実現できたら嬉しい
45

より蓄積されたデータを有効活用し


よりよい世界を実現したい
一緒に実現する仲間を募集しています

47


48

大規模ソーシャルメディアのデータマイニング（2100万会員１日20億アクション以上）

（※2100万会員モバゲータウンはデータマイニングの宝の山／Tech総研より抜粋）
・統計解析／データマイニング／機械学習／自然言語処理
・大規模分散処理

ぜひご連絡下さい
koichi.hamada@gmail.com 49


R



R Hadoop/Pig/Hive/Zebra



R Hadoop/Pig/Hive/Zebra Mahout



R Hadoop/Pig/Hive/Zebra Mahout …etc


Random Forest とは

集団学習により

55



高精度の分類・予測を実現する

56




機械学習アルゴリズム

57




機械学習アルゴリズム

“Random forests”
(L. Breiman, 2001)

58

決定木の集団学習により
高精度の分類・予測を行う
学習用データ

Random Sampling 1 Sampling 2 … Sampling B

Forest
Forest
Tree 1 Tree 2 … Tree B

予測対象

Result 1 Result 2 … Result B

分類・予測結果 59

Random Forest ：長所
Random Forest の
主な長所

・精度が高い
・説明変数が数百、数千でも効率的に作動
・目的変数に対する説明変数の重要度を推定
・欠損値を持つデータでも有効に動作
・個体数がアンバランスでもエラーバランスが保たれる

60

決定木、Support Vector Machine(SVM)、等
他分類器に比べ分類・予測精度が高い
例：11人の著者の10テーマ110編の文章分類
精度：高い（49個の特徴語。100回の学習・テストでの比較）

Random Forest
ＢａｇｇｉｎｇＡｄａＢｏｏｓｔ
F1値平均

ニューラルネット
決定木 (量子ベクトル化)
(CART)
ＳＶＭ
K近傍法

カーネルK近傍法

引用元：「ESTRELA」 2009年05月号統計的テキスト解析(15) ～テキストの分類分析2～
http://mjin.doshisha.ac.jp/R/200905_70.pdf
61

学習用データ


Forest
Forest

予測対象



決定木とは
目的変数に影響が大きい変数・境界値・順序を
算出することができる

67

決定木とは

影響大
データ木構造

68

決定木とは

影響大
データ木構造

今まで気づかなかった重要な条件を知り
サービスやプロセスを改良することができる 69

解決する課題
■丌具合発生率が大きい製造工程にはどのような特徴があるのか？


解決する課題
⇒ 丌具合原因の特定・改善


解決する課題
■広告効果が高いユーザーにはどのような特徴があるのか？


解決する課題
⇒ 投資対効果の高いターゲット選定


解決する課題
■優良ユーザーはどのような楽しみかたをしているか？


解決する課題
⇒ より継続的に楽しんでもらえるサービス改良


決定木とは
木構造の条件分岐で
分類・予測(回帰)を行う
例：植物の分類
Iris（アヤメ）データ
花葉と花びらの長さ・幅から
種類の分類構造算出
説明変数目的変数
花葉（長さ・幅）花びら（長さ・幅）種類

77

決定木とは
例：植物の分類分類花びらの長さ
花葉と花びらの長さ・幅から花びらの幅
setosa

virginica

versicolor

78

決定木とは
例：植物の分類分類花びらの長さ
花葉と花びらの長さ・幅から花びらの幅

virginica setosa

setosa
virginica
versicolor virginica

versicolor virginica

79

決定木とは
例：ブレーキ後停車距離予測
carsデータ
車速度と
ブレーキ後の停車距離の関係構造算出
ブレーキ後の
車の速度
停車までの距離

80

決定木とは
例：ブレーキ後停車距離予測回帰（予測）スピード(speed)
carsデータ
車速度と
ブレーキ後の
車の速度
停車までの距離

ブレーキ後の停車距離

81

決定木とは
例：ブレーキ後停車距離予測回帰（予測）スピード(speed)
carsデータ
車速度と

ブレーキ後の停車距離

82

決定木：分岐基準
条件ノード A を条件ノードALとARに分けるとき
以下のΔIを最大化する分割を行う
Classification And Regression Trees (CART)
(Breiman et al, 1984)
分類木

Entropy
GINI係数

※ ：条件ノード A でクラス k をとる確率
回帰木

尤離度(deviance)

※ ：条件ノード A での目標変数 t の平均値 83

決定木の実行

パッケージインストール
# 決定木のインストール
install.packages("mvpart")
library(mvpart)

85

決定木の実行

# 決定木のインストール
install.packages("mvpart")
library(mvpart)

# Species(種類)を分類変数として樹木モデルを生成
# iris（アヤメ）データを使用
tree <- rpart(Species~., data = iris, method = "class")

サンプルデータ
iris(アヤメ)データ：よい性質を持ちよく使用される
(R環境で標準提供されている) 説明変数目的変数
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
5.1 3.5 1.4 0.2 setosa
4.9 3.0 1.4 0.2 setosa
4.7 3.2 1.3 0.2 setosa
4.6 3.1 1.5 0.2 setosa
5.0 3.6 1.4 0.2 setosa
Iris Sanguinea 86

決定木の実行

生成された決定木の表示
#Tree の表示 (全分岐での分布表示(all=TRUE) 、個数も表示(use.n =TRUE)）
plot.rpart(tree)
text.rpart(tree, all = TRUE, use.n = TRUE)
花びらの長さ

花びらの幅

setosa

versicolor virginica 87

決定木を用いた予測

predtree <- predict(tree, data = newdata, type = "class")

88

決定木の実行
学習・予測データに分け
学習用データで決定木作成

data <- iris
# 学習用データとテスト用データをランダムサンプリング
ndata <- nrow(data)#データ行数
ridx <- sample(ndata, ndata*0.5) #50%のランダム抽出で学習・予測データ分割
data.learn <- data[ridx,] #学習用データ作成
data.test <- data[-ridx,] #予測用データ作成

# Species(種類)を分類変数として決定木を生成
tree <- rpart(Species~., data = data.learn, method = "class")

89

決定木の実行

樹木モデルを用いた予測

# 樹木モデルを用いた予測 (新データ data.test に対する種類分類を予測）
predtree <- predict(tree, data.test, type = "class")

90

決定木の実行

樹木モデルを用いた予測

# 決定木を用いた予測 (新データ data.test に対する種類分類を予測）
predtree <- predict(tree, data.test, type = "class")

# 解との比較
table(predtree,data.test$Species)

予測結果： Tree 予測
predtree setosa versicolor virginica
setosa 24 0 0
versicolor 0 22 3
virginica 0 3 23

91

学習用データ


Forest
Forest

予測対象



集団学習とは

95

集団学習とは
複数モデル生成し結果を統合
精度を向上させる機械学習のアルゴリズム

96

集団学習とは

■異なるサンプル、異なる重みの
複数の学習モデルを生成

97

集団学習とは


■各モデルの結果を統合・組合せにより
精度・汎用性を向上

98

集団学習とは


結果の統合・分類：多数決
・回帰：平均値

99

集団学習とは


結果の統合・分類：多数決
・回帰：平均値

100

Random Forest
樹木モデルの集団学習による
高精度の分類・予測(回帰)
学習用データ


Forest
Forest

予測対象



学習と予測

学習

104

Random Forest アルゴリズム：学習

Random
Forest

105


ブートストラップサンプリング
学習データから重複を許しランダムに B組のサンプル集合抽出

学習用データ


Forest

106


ランダム抽出変数での決定木生成
各ノード展開で M個の説明変数からm個変数をランダム抽出

学習用データ


Forest
Tree 1

107

全サンプル集合で
決定木を生成
学習用データ


Forest

108

複数の木モデル
= Forest (森) モデル
学習用データ


Forest

109

複数の木モデル
= Forest (森) モデル
学習用データ


Forest
Forest

110

学習と予測

予測

111

Random Forest アルゴリズム
全木モデルで
分類・回帰予測の結果算出
学習用データ


Forest
Forest

予測対象


112


全木モデルの結果を統合する
分類：多数決、回帰予測：平均

学習用データ


Forest
Forest

予測対象



木モデルの集団学習による
高精度の分類・予測(回帰)
学習用データ


Forest
Forest

予測対象



Random Forest の
主な長所

・精度が高い
・説明変数が数百、数千でも効率的に作動
・目的変数に対する説明変数の重要度を推定
・欠損値を持つデータでも有効に動作
・個体数がアンバランスでもエラーバランスが保たれる

115

決定木、Support Vector Machine(SVM)、等
他分類器に比べ分類・予測精度が高い
例：11人の著者の10テーマ110編の文章分類
精度：高い（49個の特徴語。100回の学習・テストでの比較）

Random Forest
ＢａｇｇｉｎｇＡｄａＢｏｏｓｔ
F1値平均

ニューラルネット
樹木モデル (量子ベクトル化)
(CART)
ＳＶＭ
K近傍法

カーネルK近傍法

引用元：「ESTRELA」 2009年05月号統計的テキスト解析(15) ～テキストの分類分析2～
http://mjin.doshisha.ac.jp/R/200905_70.pdf
116

Random Forest の実行

# randomForest のインストール
install.packages("randomForest")
library(randomForest)

118


学習用・予測用データ作成
data <- iris
# 学習用データとテスト用データをランダムサンプリング
ndata <- nrow(data)#データ行数
ridx <- sample(ndata, ndata*0.5) #50%のランダム抽出で学習・予測データ分割
data.learn <- data[ridx,] #学習用データ作成
data.test <- data[-ridx,] #予測用データ作成
サンプルデータ
iris(アヤメ)データ：よい性質を持ちよく使用される
(R環境で標準提供されている) 説明変数目的変数
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
5.1 3.5 1.4 0.2 setosa
4.9 3.0 1.4 0.2 setosa
4.7 3.2 1.3 0.2 setosa
4.6 3.1 1.5 0.2 setosa
5.0 3.6 1.4 0.2 setosa
Iris Sanguinea 119


Random Forest の生成
# Species(種類)を分類変数として Random Forest を生成
forest <- randomForest(Species~.,data = data.learn)

120


Random Forest の生成
# Species(種類)を分類変数として Random Forest を生成
forest <- randomForest(Species~.,data = data.learn)

関数
randomForest(formula, data = NULL, …, ..., subset, na.action=na.fail)

主要な引数内容
formula モデルの形式
x, y 目的変数と説明変数 (formula 代わりに用いる）
data, subset 用いるデータ
na.action 欠損値の表記型の指定
ntree 生成する木の数 (デフォルトは 500)
mtry 分岐に用いる変数の数 (デフォルト, 分類 √M, 回帰 M/3, M:変数総数)
importance 変数の重要度出力 (デフォルトは FALSE）

121

生成されたForest を用いた
高精度の予測
# Forestを用いた予測の実行
pred.forest <- predict(forest, newdata = data.test, type = "class")

# 解との比較
table(pred.forest, data.test[,5])

122

高精度の予測

# 解との比較

予測結果： Random Forest 予測
pred.forest setosa versicolor virginica
setosa 27 0 0
versicolor 0 28 0
virginica 0 0 20

分類間違いなし

123

高精度の予測

# 解との比較

予測結果： Random Forest 予測 ※比較参照予測結果：分類木 (rpart)
pred.forest setosa versicolor virginica pred.dt setosa versicolor virginica
setosa 27 0 0 setosa 27 0 0
versicolor 0 28 0 versicolor 0 26 1
virginica 0 0 20 virginica 0 2 19

分類間違いなし

124

樹木モデルとの比較
きわどいところも
分類できている

予測結果： Random Forest 予測 ※比較参照予測結果：分類木 (rpart)
pred.forest setosa versicolor virginica pred.dt setosa versicolor virginica
setosa 27 0 0 setosa 27 0 0
versicolor 0 28 0 versicolor 0 26 1
virginica 0 0 20 virginica 0 2 19

分類木のエラー箇所

virginica

setosa

virginica
versicolor

125

重要度算出
各変数の目的変数に対する重要度
重要度グラフ表示
#重要度グラフ表示
varImpPlot(forest)

#重要度出力
Importance(forest)

重要度出力
> importance(forest)
MeanDecreaseGini
Sepal.Length 4.791776
Sepal.Width 2.102875
Petal.Length 20.811569
Petal.Width 20.627166

126

参考資料：R／CART／Random Forest

Rによるデータサイエンス Rによる統計解析
～データ解析の基礎から最新手法まで～

■CART：
L. Breiman, J. H. Friedman, R. A. Olshen and. C. J. Stone:
“Classification and Regression Trees.”, Wadsworth (1984)
■Random Forest：
L. Breiman. Random forests. Machine Learning, 45, 5–32 (2001)

最後に

蓄積されたデータを有効活用してきたい

131

最後に

蓄積されたデータを有効活用してきたい

Google Group： http://groups.google.com/group/webmining-tokyo

132

最後に
データマイニング+WEB勉強会
発表者を募集しています

連絡
Google Group： http://groups.google.com/group/webmining-tokyo
Twitter ： http://twitter.com/hamadakoichi
133

最後に

日本初
R言語の人材募集要項
http://www.dena.jp/recruit/sp2/career/guide09.html

135

より蓄積されたデータを有効活用し



137


R Hadoop/Pig/Hive/Zebra Mahout …etc


ご清聴ありがとうございました

139

「R言語による Random Forest 徹底入門－集団学習による分類・予測－」 - #TokyoR #11

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie 「R言語による Random Forest 徹底入門－集団学習による分類・予測－」 - #TokyoR #11

Ähnlich wie 「R言語による Random Forest 徹底入門－集団学習による分類・予測－」 - #TokyoR #11 (20)

Mehr von Koichi Hamada

Mehr von Koichi Hamada (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (9)