SlideShare ist ein Scribd-Unternehmen logo
1 von 53
Downloaden Sie, um offline zu lesen
2015/11/28
ARG 第7回Webインテリジェンスとインタラクション研究会
企画セッション2「不 いなデータ達の分析を行う前のTips」
データ分析でよく使う前処理の整理と対処
佐々木一
Hajime SASAKI
1
自己紹介
✓ 氏名:佐々木一 (Hajime SASAKI)
✓ 出処:柏市出身、新宿区在住。
✓ 最近の趣味:海釣り。キャンプ。
✓ 好きな言葉:ランダムフォレスト
✓ 嫌いな言葉:多重共線性、3D円グラフ
✓ 背景:航空宇宙工学 →某重工業@名古屋→ 技術経営(東工大)→技術経営(東大)
✓ 技術経営(MOT):技術を差別化の根幹とする企業の経営課題における領域およびその
学問体系。
✓ 人工知能とか機械学習とか統計学の手法研究は専門ではありません ><
✓ どちらかというと、ビジネスの意志決定や科学技術政策のためのデータ分析が多いで
す。
2
こんなことをやっています(その1)
✓ 学術/技術俯瞰分析: 膨大に増加する学術論文や特許の引用関係ネットワー
クをクラスタリング、ラベリングによって構造化。
✓ 萌芽予測: 将来注目される確率の高い学術論文や特許技術の予測。
•  	
early&stage&
Core&Paper
matura0on&stage&
7
#1.4
1,497 , 1997
#1.2
1,149 , 1997
#1.3
1,003 , 1985
#1.5
369 , 2000 #2.1
Cu(In,Ga)Se2
888 , 2001
#2.2 CdS/CdTe
873 , 1998
#2.3
798 , 1993
#2.4 CuInS2
316 , 2000
#2.5
260 , 1999
#3.1	
737 , 2002
#3.2
715 , 2004
#3.4
205 , 2003
#4.1
448 , 2004
#4.2
373 , 2002
#4.3
328 , 1997
#4.4
120 , 2004
#1
4,634 , 1995
#2
3,481 , 1998
#4
1,390 , 2002
#3
2,267 , 2003
ID16,199
(1959-2006 , = 13,682 ))
#3.3
498 , 2003
#1.1
1,497 , 1997
0
500
1000
1500
2000
2500
3000
3500
4000
1970 1975 1980 1985 1990 1995 2000 2005 2010
Background !
!
!
3
こんなことをやっています(その2)
✓ 企業取引ネットワークによる地域中小企業クラスタの評価と提案
(RESAS, 2015)4
こんなことをやっています(その3)
✓ リンク予測による特許技術の異分野への適用の予測モデル
Noise insulation materials
inside fairing panel.
Acoustic glass fiber
for room interior
Gas Initiation technology
for air bag
Ignition plug technology of
torpedoes
Deployable Structures
technology
Drinking cans package
航空宇宙、原子力、防衛産業などでは、当初想定していなかった全く異なる市場で技術が生かされることがある。
→technological spin-offと呼ぶ
→事前に予測が可能となれば、政策的にも企業戦略的にも資するモデルが提案できる。
5
Contents
✓ データ分析プロセスのフレームワーク
✓ なぜ前処理が大変なのか
✓ 代表的な前処理
✓ 前処理その1:欠損値の対応(Missing Data)
✓ 前処理その2:外れ値の対応(Outlier Detection)
✓ 前処理その3:連続値の離散化(Sampling)
✓ 前処理その4:データ操作(Data Wrangling)
✓その他の前処理Tips
✓ マネジメント編
✓ ツール編
✓まとめ
✓References.
6
データ分析プロセスのフレームワーク
KDD
(Knowledge Discovery in
Database)
CRISP-DM
(Cross Industry Standard
Process for Data Mining)
SEMMA
(Sample, Explore, Modify,
Model and Assess)
Business Understanding
(ビジネス課題の理解)
Selection
(データ取得)
Sample
(データ取得)
Explore
(データ理解)
Transformation
(データ加工)
Data Mining
(データマイニング)
Modeling
(モデリング)
Model
(モデリング)
Interpretation/Evaluation
(解釈と評価)
Evaluation
(評価)
Deployment
(施策の実行)
Assess
(評価と施策の実行)
Modify
(データ加工)
Preprocessing
(前処理)
Data Preparation
(データ準備)
Data Understanding
(データ取得と理解)
(Fayyad, 1996) (SAS Enterprise Miner, 2008)(Chapman, P. et al, 2000) 7
(Likit. P., 2015)8
なぜ前処理が大変なのか
✓データフォーマットの多様性(テキスト、数値、画像、地理空
間、時系列など)
✓データソースの多様性(ウェブ、DB、スプレッドシート、
csv、JSON、PDFでの提供)
✓容量
✓信頼性
✓不十分なメタデータ
✓ツールの使い分け
✓分析前に決めなきゃいけないことがたくさん
(Likit. P., 2015)9
代表的な前処理
✓前処理その1:欠損値の対応(Missing Data)
✓前処理その2:外れ値の対応(Outlier Detection)
✓前処理その3:連続値の離散化(Sampling)
✓前処理その4:データ操作(Data Wrangling)
✓ 他にも、テキストマイニング・自然言語処理ドメインであれば「表記ゆれの統一」、「形
態素解析」、「ストップワード除去」、「単語ベクトル化」などもよく行いますが、今
回は割愛。
10
代表的な前処理
✓前処理その1:欠損値の対応(Missing Data)
✓前処理その2:外れ値の対応(Outlier Detection)
✓前処理その3:連続値の離散化(Sampling)
✓前処理その4:データ操作(Data Wrangling)
✓ 他にも、テキストマイニング・自然言語処理ドメインであれば「表記ゆれの統一」、「形
態素解析」、「ストップワード除去」、「単語ベクトル化」などもよく行いますが、今
回は割愛。
11
前処理その1:欠損値の対応
✓欠損値の発生要因:データの手入力、センサーエラー、測定ミス、
回答拒否(個人情報、プライバシーの保護)、途中離脱(実験協
力者への配慮)など。
✓欠損値があることで
✓作業効率が低下する
✓データ分析作業やデータ加工作業が複雑になる
✓結果にバイアスが生じる (Luengo, J., 2011)
12
欠損値の対処3ステップ
✓ステップ1. 欠損値の特定・可視化 。 (Identify the missing data.)
✓ステップ2. 欠損メカニズムの理解 。 (Examine the causes of the
missing data.)
✓ステップ3. タイプに応じた削除若しくは置換。 (Delete the cases
containing missing data or replace (impute) the missing values with reasonable
alternative data values.)
13
ステップ1:欠損値の特定・可視化
14
欠損値への対処
欠損値の特定
最尤法欠損値の削除 欠損値の補完
リストワイズ ペアワイズ 単一代入 多重代入   
15
欠損値への対応方法
概要
削除
リストワイズ法 欠損値を持つサンプル(行)を削除
ペアワイズ
相関係数などの算出において、2変数いずれかが
欠損値を持つサンプルを削除
最尤法
サンプルごとに欠損パターンに応じた尤度関数を
仮定して最尤推定を実施して得られる多変量正規
分布を用いて平均値や分散共分散行列を推定
単一代入法
平均値代入法 平均値により欠損値を補完
回帰代入法
欠損値のないサンプルに回帰分析を行い、欠損値
を含む項目の推定式を元に欠損値を補完
確率的回帰代入法
回帰代入法により推定した値にランダムに誤差を
加えて欠損値を補完
多重代入法
欠損値に代入したデータセットを複数作成し、各
データセットに対して分析を実行し、その結果を
統合することにより欠損値を補完
16
(福島, 2015) を元に編集
ステップ2:欠損メカニズムの理解
欠損はランダムか
• MCAR(Missing Completely At Random)
– 欠測が完全にランダム
各データの欠測確率が「どの」データにも依存しない
• MAR (Missing At Random)
– 欠測をデータ内で統制すればランダム
各データの欠損確率が欠損データには依存しない
・これを仮定することが多い
• NMAR (Not Missing At Random)
– 欠測がランダムではない
各データの欠損確率が欠損データにも依存
・欠測メカニズムをモデル化して組み込む必要あり
(D.B. Rubin, 1976) 17
原則、MARとして対応するのが無難
✓ 事前知識及び可視化の結果からNMARの疑いがある場合のみ対応を
考える
✓ 欠測をモデリング: Heckmanモデル等
✓ 感度分析: モデルや特定のパラメータを変えてどの推定結果が変わ
るか
18ここで1/3
(Ichikawa, D., 2015)
(Ichikawa, D., 2015) 19
(Ichikawa, D., 2015)
MARを前提に、最尤法か多重代入法で。
✓欠損値の割合に注目
‒ 10%未満→リストワイズでも良いという話も
‒ 10%以上→最尤法か多重代入法
(Ichikawa, D., 2015) 21
代表的な前処理
✓前処理その1:欠損値の対応(Missing Data)
✓前処理その2:外れ値の対応(Outlier Detection)
✓前処理その3:連続値の離散化(Sampling)
✓前処理その4:データ操作(Data Wrangling)
✓ 他にも、テキストマイニング・自然言語処理ドメインであれば「表記ゆれの統一」、「形
態素解析」、「ストップワード除去」、「単語ベクトル化」などもよく行いますが、今
回は割愛。
22
前処理その2:外れ値の対処
✓ 外れ値:他の観測データと比べて著しく乖離したデータ(F.E. Grubbs,
1969)
✓ 外れ値が存在したまま分析を進めてしまうと、分析結果が著しく変わって
しまい、本来の性質と異なる結果が得られてしまうことがある。
23
✓ 3つのアプローチ
24(福島, 2015)
統計モデル
✓ 統計的検定アプローチ:Smirnov-Grubbs検定>正規分布前提
✓ 深さアプローチ:ISODEPTH等>計算コスト上低次元の場合に限られる
✓ 偏差アプローチ:当該外れ値を排除した際に分散がどの程度減少するかと
いう観点から検出。
T>k で帰無仮説を棄却し、対立仮説を採用。つまり、有意水準αで、かけ離れた値は
異常値とみなして棄却される。
有意水準 α を決め、スミルノフ棄却検定表よりデータ数 n のと
きの値 k を得る。
25
✓ 空間的な近さに基づくモデル
✓ 距離に基づくアプローチ:DB-outlier: 異なる密度を持つデータには注意
が必要
✓ 密度に基づくアプローチ:考え方「外れ値は近くにある点が少ないはずだ」
→極端に密度が小さい点を外れ値とする。:LOF(Local Outlier
Factor)等:閾値の設定をどうするか?
26
高次元アプローチ
27
分類 アルゴリズム アイディア Ref.
角度に基づく方法 ABOD
外れ値は、自身と他の二点のデータのなす確度の分散が小さ
い。
(Kriege, H.P.,
& Zimek, A.,
2008)
グリッドに基づく方法 Aggarwal and Yu
空間をグリッドで分割してデータの個数が少ないグリッドに属
する点を外れ値とする。
(Aggarwal, C.
C., & Yu, P. S.,
2000)
距離に基づく方法 SDO
各店に対して、k近傍点の分散が最も小さくなる超平面との距
離を外れ値スコアとする。
(Kriegel, H. P.
et al., 2010)
ランダムな部分空間の
選択
Feature Bagging
部分空間をランダムに選択する試行を複数回繰り返し、各至高
における外れ値スコアの平均値を算出する。
(Lazarevic, A.,
& Kumar, V.,
2005)
コントラストが高い部
分空間の選択
HiCS
ある座標の周辺確率密度関数と、他の座標の条件付き確率密度
関数が大きく異なる(コントラストが高い)点を外れ値として
検出する。このような部分空間を探索し、外れ値スコアを算出
する。部分空間の探索と外れ値スコアの算出を完全に分類して
いる点に特徴がある。
(Keller, F., et
al., 2012)
任意の方向の部分空間
への斜影
COP
各店のk近傍点に対してロバスト主成分分析を実行しマハラノ
ビス距離の分布を推定。これにより、座標軸方向だけでなく、
任意の方向の部分空間への斜影により外れ値を検出することが
可能になる。
(Kriegel, H.,
2012)
(福島, 2015) を元に編集
Angle-based outlier detection
これは外れ値↑
↓外れ値ではない
↑外れ値ではない
28(Kriege, H.P., & Zimek, A., 2008)
代表的な前処理
✓前処理その1:欠損値の対応(Missing Data)
✓前処理その2:外れ値の対応(Outlier Detection)
✓前処理その3:連続値の離散化(Sampling)
✓前処理その4:データ操作(Data Wrangling)
✓ 他にも、テキストマイニング・自然言語処理ドメインであれば「表記ゆれの統一」、「形
態素解析」、「ストップワード除去」、「単語ベクトル化」などもよく行いますが、今
回は割愛。
29ここで半分
前処理その3:連続値の離散化
✓ 離散化の目的
✓ データ記述の簡略化
✓ データおよびその処理結果に対する理解しやすさの向上
✓ 多くのデータ処理システムに寄る数値属性を含むデータ処理の実行
30
✓そのデータ、本当に連続値じゃないとダメですか?
31
2つの観点
✓ トップダウンで処理するかボトムアップで処理するか
✓ 分割に教師データが必要か、否か
32
(福島, 2015)
33
使い分け(とRで用いられる関数)
教師データ無し 教師データあり
トップダウン
等間隔による離散化(EWD)
→discretize関数
当頻度区間による離散化(EFD)
→discretize関数
エントロピーを用いた離散化
(CAIM,CACC,Aeva)
→disc.Topdown関数
最小記述長原理による離散化(MDLP)
→mdlp関数
ボトムアップ k-means
カイマージ
→chiM関数
(福島, 2015)
34
代表的な前処理
✓前処理その1:欠損値の対応(Missing Data)
✓前処理その2:外れ値の対応(Outlier Detection)
✓前処理その3:連続値の離散化(Sampling)
✓前処理その4:データ操作(Data Wrangling)
✓ 他にも、テキストマイニング・自然言語処理ドメインであれば「表記ゆれの統一」、「形
態素解析」、「ストップワード除去」、「単語ベクトル化」などもよく行いますが、今
回は割愛。
35
前処理その4:データ操作(Data wrangling)
✓行抽出
✓列抽出
✓行追加
✓列追加
✓マージ
✓ソート
✓グルーピング
✓要約
36
前処理その4:データ加工(Data wrangling)
✓ Tips: チートシートを活用
37ここで2/3
38
39
その他の前処理Tips
✓ マネジメント編
✓ ■Tips: 何をどこまでやるかの合意形成。
✓ ■Tips: 「前処理8割」をクライアントやマネジメントサイドと共有する。
✓ ■Tips: データ処理とデータ分析は同一人物が実施する。
✓ ■Tips: ルール化&ドキュメント化
✓ ツール編
✓ ■Tips: エクセル前処理禁止
✓ ■Tips: NYSOLのMコマンドの活用。
✓ ■Tips: AWKの活用。
40
Tips: 何をどこまでやるかの割り切りと合意形成
データの前処理
データの品質管理
=
目指すのは、完璧な品質ではなく、限られた資源の中でのより良い品質。
BestよりもBetterを。
41
 Tips: 前処理8割 をクライアントやマネジメントサイドと共有する。
✓ 例えば
(Ozaki. T., 2013)42
 Tips: 前処理8割 をクライアントやマネジメントサイドと共有する。
✓ 例えば
✓ 前処理の重要性をわかり易い言葉で布教する。
✓ cf.「前処理っていうのはデータの品質管理行程なんです。」
✓ cf.「しかし製造業のそれと違って、前処理作業を分担すると、余計に
時間とコストがかかります。」
✓ 前処理にかかる時間をスケジュールに(やや多めに)計上する。
✓ 前処理にかかる予算を見積もりに(しっかり)計上する。
43
Tips: 原則)前処理とデータ分析は同一人物が実施する。
✓ ほとんどの前処理は対象となる分析の枠組みに合わせて整形する必要があ
る。
✓ 従って、当該分析の枠組みを知らなければいけない。
✓ また、適用する分析(モデル)はデータによって臨機応変に変わるし、変
えなければいけない。
✓ 一方、当該ビジネスにおいて分析プロセスが固定され、前処理プロセスも
ルール化され、ルーチンワークとなっている場合であれば前処理担当者の
存在意義もありうるかもしれない。
✓ が、その時点でその前処理は自動化(仕組み化)できるのでは????
44
Tips: ルール化&ドキュメント化
✓ 各前処理において、採用する手法のデフォルトを決めておく。
✓ ex) 欠損値はMARとして多重代入法
✓ チームであれば、ドキュメントにして共有。(これ大事)
✓ 定期的にレビューを設けて改訂する。
45
 Tips: エクセル前処理禁止
エクセル前処理の闇あれこれ
✓ ログが残らない(見えにくい)
✓ 処理内容がセル一つ一つに隠れていて、視認性が最悪
✓ ロジックが残らない(処理の時系列がわからない)
✓ どのような順番でどのような理由でどのようなプロセスが行われたかが
わからない。
✓ 要するに、情報が情報として残らない(不十分なメタデータ)
✓ 気づかないうちに、レポート材料(図表)を作り始めている。→混乱。
✓ そもそも、重い。
46
47
NYSOL(Mコマンド)
(Kitajima. S., 2014)
	
© KSK Analytics Inc., NYSOL Partner
48
既存研究
(Kitajima. S., 2014)49
M-1
2
3
4
”dplyr” ”data.table”
	
(R_base )
(R_pkg )
© KSK Analytics Inc., NYSOL Partner
(Kitajima. S., 2014)50
(Kitajima. S., 2014)
R_base R_pkg PostgreSQL NYSOL
10
1
30
R
1 2 3 4 5 6
	
 	
 	
 	
100KB 1MB 10MB 100MB 1GB 10GB
51
まとめ
✓ 前処理8割( 9割)。
✓ データの多様化は進む一方。従って、前処理業務からは不可避。
✓ 前処理ルールを決めてドキュメント化&共有。
✓ 決めた以上の前処理はやらないという割り切り。
✓ ツールを活用。
✓ 不要な前処理をしなくても良いように、データ収集のあり方から見直す。
ご清聴ありがとうございました
52
References.
✓ RESAS -地域経済分析システム- Accessed from https://resas.go.jp/ on Nov. 2015
✓ Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P., (1996). The KDD process for extracting useful knowledge from volumes of data. Communications of
the ACM, 39(11), 27-34.
✓ Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P., (1996). From data mining to knowledge discovery in databases. AI magazine, 17(3), 37.
✓ SAS Enterprise Miner ‒ SEMMA. SAS Institute, (2008). Accessed from http://www.sas.com/technologies/analytics/datamining/miner/semma.html, on
May 2008
✓ Chapman, P. et al, (2000). CRISP-DM 1.0 - Step-by-step data mining guide. Accessed from http://www.crisp-dm.org/CRISPWP-0800.pdf on Nov. 2015
✓ Likit. P, Data preprocessing, (2015). Accessd from http://www.slideshare.net/LikitPreeyanon/data-preprocessing-43972402 on May 2008
✓ Luengo, J., (2011), Missing Values in Data Mining [Online] Accessed from http://sci2s.ugr.es/MVDM/index.php on Nov. 2015
✓ 福島辰太郎, 2015, データ分析プロセス シリーズUseful R2, 共立出版
✓ Rubin, D. B. (1976). Inference and missing data. Biometrika, 63(3), 581-592.
✓ Robert K, R IN ACTION: Data analysis and graphics with R, 2015
✓ Daisuke, I. ,Maeshori missing, (2015). Accessed from http://www.slideshare.net/dichika/maeshori-missing on Nov. 2015
✓ Kriegel, H. P., & Zimek, A. (2008, August). Angle-based outlier detection in high-dimensional data. In Proceedings of the 14th ACM SIGKDD
international conference on Knowledge discovery and data mining (pp. 444-452). ACM.
✓ Aggarwal, C. C., & Yu, P. S. (2000). Finding generalized projected clusters in high dimensional spaces (Vol. 29, No. 2, pp. 70-81). ACM.
✓ Kriegel, H. P., Kröger, P., & Zimek, A. (2010). Outlier detection techniques. In Tutorial at the 16th ACM International Conference on Knowledge
Discovery and Data Mining (SIGKDD), Washington, DC.
✓ Keller, F., Müller, E., & Böhm, K. (2012, April). HiCS: high contrast subspaces for density-based outlier ranking. In Data Engineering (ICDE), 2012 IEEE
28th International Conference on (pp. 1037-1048). IEEE.
✓ Kriegel, H., Kroger, P., Schubert, E., & Zimek, A. (2012, December). Outlier detection in arbitrarily oriented subspaces. In Data Mining (ICDM), 2012
IEEE 12th International Conference on (pp. 379-388). IEEE.
✓ Lazarevic, A., & Kumar, V. (2005, August). Feature bagging for outlier detection. In Proceedings of the eleventh ACM SIGKDD international conference
on Knowledge discovery in data mining (pp. 157-166). ACM.
✓ 高橋将宜, 伊藤孝之, 様々な多重代入法アルゴリズムの比較∼大規模経済系データを用いた分析, 統計研究彙報 第 71 号 2014 年 3 月 (39∼82)
✓ Kandel, S., Heer, J., Plaisant, C., Kennedy, J., van Ham, F., Riche, N. H., ... & Buono, P. (2011). Research directions in data wrangling: Visualizations and
transformations for usable and credible data. Information Visualization, 10(4), 271-288.
✓ dplyr と tidyrを使ったデータラングリングチートシート,(2015), Accessed from https://www.rstudio.com/wp-content/uploads/2015/09/data-wrangling-
japanese.pdf on Nov. 2015
✓ Ozaki, T., (2013), 最新業界事情から見るデータサイエンティストの「実像」, Accessed from http://www.slideshare.net/takashijozaki1/21-21583073?related=2 on
Nov. 2015
✓ Kitajima, S, (2015) データサイエンティスト必見!M-1グランプリ Accessed from http://www.slideshare.net/SatoshiKitajima2/m1-38513054 on Nov. 2015
53

Weitere ähnliche Inhalte

Was ist angesagt?

機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
項目反応理論による尺度運用
項目反応理論による尺度運用項目反応理論による尺度運用
項目反応理論による尺度運用Yoshitake Takebayashi
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心takehikoihayashi
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1matsuolab
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-Shiga University, RIKEN
 
Chapter7 回帰分析の悩みどころ
Chapter7 回帰分析の悩みどころChapter7 回帰分析の悩みどころ
Chapter7 回帰分析の悩みどころitoyan110
 
2 4.devianceと尤度比検定
2 4.devianceと尤度比検定2 4.devianceと尤度比検定
2 4.devianceと尤度比検定logics-of-blue
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践Yasuyuki Okumura
 
Rで架空データの発生
Rで架空データの発生Rで架空データの発生
Rで架空データの発生Makoto Hirakawa
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?Fumihiko Takahashi
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説Shiga University, RIKEN
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門shima o
 
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装takehikoihayashi
 
臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜
臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜
臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜Yasuyuki Okumura
 
(実験心理学徒だけど)一般化線形混合モデルを使ってみた
(実験心理学徒だけど)一般化線形混合モデルを使ってみた(実験心理学徒だけど)一般化線形混合モデルを使ってみた
(実験心理学徒だけど)一般化線形混合モデルを使ってみたTakashi Yamane
 
「操作変数法」の報告事例
「操作変数法」の報告事例「操作変数法」の報告事例
「操作変数法」の報告事例Yoshitake Takebayashi
 
pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話Classi.corp
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定Akira Masuda
 

Was ist angesagt? (20)

機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
項目反応理論による尺度運用
項目反応理論による尺度運用項目反応理論による尺度運用
項目反応理論による尺度運用
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
Chapter7 回帰分析の悩みどころ
Chapter7 回帰分析の悩みどころChapter7 回帰分析の悩みどころ
Chapter7 回帰分析の悩みどころ
 
2 4.devianceと尤度比検定
2 4.devianceと尤度比検定2 4.devianceと尤度比検定
2 4.devianceと尤度比検定
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践
 
Rで架空データの発生
Rで架空データの発生Rで架空データの発生
Rで架空データの発生
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 
社会心理学とGlmm
社会心理学とGlmm社会心理学とGlmm
社会心理学とGlmm
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
 
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装
 
臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜
臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜
臨床疫学研究における傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜
 
(実験心理学徒だけど)一般化線形混合モデルを使ってみた
(実験心理学徒だけど)一般化線形混合モデルを使ってみた(実験心理学徒だけど)一般化線形混合モデルを使ってみた
(実験心理学徒だけど)一般化線形混合モデルを使ってみた
 
「操作変数法」の報告事例
「操作変数法」の報告事例「操作変数法」の報告事例
「操作変数法」の報告事例
 
pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 

Andere mochten auch

ビジネスの現場のデータ分析における理想と現実
ビジネスの現場のデータ分析における理想と現実ビジネスの現場のデータ分析における理想と現実
ビジネスの現場のデータ分析における理想と現実Takashi J OZAKI
 
Angle-Based Outlier Detection周辺の論文紹介
Angle-Based Outlier Detection周辺の論文紹介Angle-Based Outlier Detection周辺の論文紹介
Angle-Based Outlier Detection周辺の論文紹介Naotaka Yamada
 
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探るTakashi J OZAKI
 
さらば!データサイエンティスト
さらば!データサイエンティストさらば!データサイエンティスト
さらば!データサイエンティストShohei Hido
 
データサイエンティストのつくり方
データサイエンティストのつくり方データサイエンティストのつくり方
データサイエンティストのつくり方Shohei Hido
 
21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る
21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る
21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫るTakashi J OZAKI
 
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」Shohei Hido
 
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京Koichi Hamada
 

Andere mochten auch (8)

ビジネスの現場のデータ分析における理想と現実
ビジネスの現場のデータ分析における理想と現実ビジネスの現場のデータ分析における理想と現実
ビジネスの現場のデータ分析における理想と現実
 
Angle-Based Outlier Detection周辺の論文紹介
Angle-Based Outlier Detection周辺の論文紹介Angle-Based Outlier Detection周辺の論文紹介
Angle-Based Outlier Detection周辺の論文紹介
 
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
 
さらば!データサイエンティスト
さらば!データサイエンティストさらば!データサイエンティスト
さらば!データサイエンティスト
 
データサイエンティストのつくり方
データサイエンティストのつくり方データサイエンティストのつくり方
データサイエンティストのつくり方
 
21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る
21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る
21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る
 
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」
 
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
 

Ähnlich wie WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”

Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネスMie Mori
 
コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析yamahige
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング. .
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントNTT DATA OSS Professional Services
 
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...y-uti
 
ソーシャルデザインパターン -評判と情報収集-
ソーシャルデザインパターン -評判と情報収集-ソーシャルデザインパターン -評判と情報収集-
ソーシャルデザインパターン -評判と情報収集-Koichi Hamada
 
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎Daiyu Hatakeyama
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用Eiji Uchibe
 
データ入力が終わってから分析前にすること
データ入力が終わってから分析前にすることデータ入力が終わってから分析前にすること
データ入力が終わってから分析前にすることMasaru Tokuoka
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用Hiroyuki Masuda
 
MANABIYA Machine Learning Hands-On
MANABIYA Machine Learning Hands-OnMANABIYA Machine Learning Hands-On
MANABIYA Machine Learning Hands-On陽平 山口
 
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1Shunsuke Nakamura
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展Recruit Technologies
 
A Road map of Data Analysis for Visualization with D3.js
A Road map of Data Analysis for Visualization with D3.jsA Road map of Data Analysis for Visualization with D3.js
A Road map of Data Analysis for Visualization with D3.js博三 太田
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Preferred Networks
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7Shunsuke Nakamura
 

Ähnlich wie WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” (20)

Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 
コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
 
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
 
ソーシャルデザインパターン -評判と情報収集-
ソーシャルデザインパターン -評判と情報収集-ソーシャルデザインパターン -評判と情報収集-
ソーシャルデザインパターン -評判と情報収集-
 
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
 
Overview and Roadmap
Overview and RoadmapOverview and Roadmap
Overview and Roadmap
 
データ入力が終わってから分析前にすること
データ入力が終わってから分析前にすることデータ入力が終わってから分析前にすること
データ入力が終わってから分析前にすること
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
MANABIYA Machine Learning Hands-On
MANABIYA Machine Learning Hands-OnMANABIYA Machine Learning Hands-On
MANABIYA Machine Learning Hands-On
 
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
 
A Road map of Data Analysis for Visualization with D3.js
A Road map of Data Analysis for Visualization with D3.jsA Road map of Data Analysis for Visualization with D3.js
A Road map of Data Analysis for Visualization with D3.js
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
 

Mehr von Hajime Sasaki

whitepapermemo_web3sasakihajime.pdf
whitepapermemo_web3sasakihajime.pdfwhitepapermemo_web3sasakihajime.pdf
whitepapermemo_web3sasakihajime.pdfHajime Sasaki
 
知識社会マネジメント1_0408.pdf
知識社会マネジメント1_0408.pdf知識社会マネジメント1_0408.pdf
知識社会マネジメント1_0408.pdfHajime Sasaki
 
Picmet15sasaki20150805.ppt
Picmet15sasaki20150805.pptPicmet15sasaki20150805.ppt
Picmet15sasaki20150805.pptHajime Sasaki
 
Sasaki.informs2014(2)
Sasaki.informs2014(2)Sasaki.informs2014(2)
Sasaki.informs2014(2)Hajime Sasaki
 
Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tu...
Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis:  A Tu...Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis:  A Tu...
Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tu...Hajime Sasaki
 
論文サーベイ(Sasaki)
論文サーベイ(Sasaki)論文サーベイ(Sasaki)
論文サーベイ(Sasaki)Hajime Sasaki
 
A Patent Landscape of Distribution Service Innovation(IAMOT2010)
A Patent Landscape of Distribution Service Innovation(IAMOT2010)A Patent Landscape of Distribution Service Innovation(IAMOT2010)
A Patent Landscape of Distribution Service Innovation(IAMOT2010)Hajime Sasaki
 

Mehr von Hajime Sasaki (7)

whitepapermemo_web3sasakihajime.pdf
whitepapermemo_web3sasakihajime.pdfwhitepapermemo_web3sasakihajime.pdf
whitepapermemo_web3sasakihajime.pdf
 
知識社会マネジメント1_0408.pdf
知識社会マネジメント1_0408.pdf知識社会マネジメント1_0408.pdf
知識社会マネジメント1_0408.pdf
 
Picmet15sasaki20150805.ppt
Picmet15sasaki20150805.pptPicmet15sasaki20150805.ppt
Picmet15sasaki20150805.ppt
 
Sasaki.informs2014(2)
Sasaki.informs2014(2)Sasaki.informs2014(2)
Sasaki.informs2014(2)
 
Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tu...
Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis:  A Tu...Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis:  A Tu...
Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tu...
 
論文サーベイ(Sasaki)
論文サーベイ(Sasaki)論文サーベイ(Sasaki)
論文サーベイ(Sasaki)
 
A Patent Landscape of Distribution Service Innovation(IAMOT2010)
A Patent Landscape of Distribution Service Innovation(IAMOT2010)A Patent Landscape of Distribution Service Innovation(IAMOT2010)
A Patent Landscape of Distribution Service Innovation(IAMOT2010)
 

WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”