SlideShare a Scribd company logo
1 of 43
Download to read offline
RでTwitter
テキストマイニング
⽇日本⼤大学経済学部3年年 新保 雄⼤大
全43ページああ
プログラム 2
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
3
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
分析の内容
媒体
Twitterキーワード検索索
キーワード案
スターバックス
4
5
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
分析の理理由
なぜTwitter?
⾃自分たちにとって⾝身近なツール
オープンソースのビッグデータ
なぜスターバックス?
ゼミでも触れた
わかりやすい結果が出そう
6
ここでちょっと⽤用語解説1
オープンソースとは?
設計図にあたるソースコードが公開
誰でも改良良、再配布ができる
ビッグデータとは?
データベース管理理システムで記録
保管、管理理が難しい巨⼤大なデータ
7
8
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
分析の⽬目的
ゼミで学習した経験経済と
代表例例のスターバックスに
実際にどんな関係があるのか、
顧客は提供されるCXを
感じ取れているのかを検証
9
仮説1
取得tweet
画像付きツイートが多そう
分析データ
商品の品質<⾏行行った事実、感想
10
11
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
分析の⽅方法 12
データ
収集
分析
R
TwitteR
Mecab
Twitter
( )
ここでちょっと⽤用語解説2
Rとは?
統計解析ソフト
基本的な統計分析が全て可能
オープンソース
パッケージの導⼊入が可能
ex.)twitteR、ROAuth...
13
14
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
データを取得する前に
検索索ワードの決定
Google AdWordsのキーワードプランナー
調査期間の総ツイート数
これらの結果から決定する
15
ここでちょっと⽤用語解説3
キーワードプランナーとは?
⽉月間の検索索数や競合性、
広告単価を調査
無料料で使えSEO対策に有効
SEOとは?
検索索エンジン最適化
検索索で上位に現れるようにする
16
キーワードプランナーデータ1 17
0 200000 400000 600000 800000
スタバ
スターバックス
検索索ボリューム
seed
キ
ワ
ド
キーワードプランナーデータ2 18
0 50000 100000 150000 200000
スタバ メニュー
コーヒー
カフェ
バリスタ
タンブラー
ドトール メニュー
スタバ タンブラー
カプチーノ
喫茶茶店
エスプレッソ
検索索ボリューム
共
起
キ
ワ
ド
仮説2
キーワードプランナー
tweet数:スタバ>スターバックス
データ2で出てきた共起キーワード
が抽出語上位に来る
19
Twitterデータ
期間
8/1〜~8/31
tweet数
491,633
画像付きtweet数
142,525
20
Twitterデータ
標本
全取得ツイートからランダムで抽出
n=N/(1+(N-­‐1)*e^2/(Z^2*P*(1-­‐P)))
信頼度度95%、nは最⼤大
→N=431633,e=0.01,Z=1.96,P=0.5
→n≧9,420であれば条件を満たす
21
Twitterデータ
前処理理にかける前に
ExcelのCLEAN関数を使って、
セル内の改⾏行行を消去する。
→前処理理を⾏行行う段階でエラーとして
カウントされてしまうため、
処理理時間が増加してしまう。
全てが読み込まれない可能性有
22
23
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
Database Stats
総抽出語数(使⽤用)
288,741(148,292)
異異なり語数(使⽤用)
19,730(18,361)
⽂文書の単純集計
⽂文:1,063,376
段落落:10,838
24
スタバとの頻出共起ワード
名詞ースタバの何?
形容詞ースタバの何がどう?
動詞ースタバで何を?
副詞ースタバで何をどう?
形容動詞ースタバがどう?
25
抽出語〜~名詞〜~ 26
抽出語〜~名詞〜~ 27
抽出語〜~形容詞〜~ 28
0 100 200 300 400 500 600 700
美味しい…
ない
いい
可愛い
⾼高い
よい
⽢甘い
楽しい
かわいい
やばい
良良い
すごい
いい
よい
寒い
新しい
うまい
嬉しい
優しい
無い
抽出語〜~形容詞〜~ 29
抽出語〜~動詞〜~ 30
抽出語〜~動詞〜~ 31
抽出語〜~副詞〜~ 32
抽出語〜~副詞〜~ 33
抽出語〜~形容動詞〜~ 34
抽出語〜~形容動詞〜~ 35
コーヒーチェーンランキング 36
⼤大学⽣生がよく⾏行行くコーヒーチェーン
スターバックス ドトールコーヒー タリーズコーヒー
コメダ珈琲 サンマルク カフェ・ド・クリエ
2014年年9⽉月 回答者数446⼈人
タダコピアプリ調べ
ツイートネガポジ割合⽐比較 37
スターバックス ドトールコーヒー
Negative
18%
Positive
52%
Negative
23%
Positive
35%
タリーズコーヒー コメダ珈琲
Negative
13%
Positive
54%
Negative
14%
Positive
59%
サンマルクカフェ カフェ・ド・クリエ
Negative
15%
Positive
58%
Negative
16%
Positive
49%
※Yahooリアルタイムより抜粋
画像付きツイート割合 38
スターバックス ドトールコーヒー
142,525
491,633
29.0%
7,126
70,932
10.0%
タリーズコーヒー コメダ珈琲
7,431
38,630
19.2%
20,955
86,198
24.3%
サンマルクカフェ カフェ・ド・クリエ
3,860
18,969
20.3%
104
585
17.8%
※Yahooリアルタイムより抜粋
プログラム 39
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
仮説1〜~おさらい〜~
取得tweet
画像付きツイートが多そう
分析データ
商品の品質<⾏行行った事実、感想
40
仮説2〜~おさらい〜~
キーワードプランナー
tweet数:スタバ>スターバックス
データ2で出てきた共起キーワード
が抽出語上位に来る
41
結果
仮説1
画像付きツイート数(No.38)
→他店よりも圧倒的に多い
ツイート内容(No.26〜~35)
→品質も多いが、感想もかなり多く⾒見見られる
仮説2
ツイート数(No.20)
→スタバ>スターバックスは正しい
共起キーワード(No.18)
→完全には⼀一致しないが、ニュアンスは同じ
42
まとめ
ツイートの頻出共起ワードや画像付きツイート
の多さから、CXを顧客が受け取っており、
よいブランドイメージがあることがわかる。
商品などと同様に店員が注⽬目されていることから
店員のCX創造⼒力力・ホスピタリティが重要となる。
43

More Related Content

Similar to RでTwitterテキストマイニング

オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018Hisashi Nakayama
 
Tableau Conference On Tokyo 2015_ソーシャルメディアデータ活用の5つの戦略_Five Strategies Social ...
Tableau Conference On Tokyo 2015_ソーシャルメディアデータ活用の5つの戦略_Five Strategies Social ...Tableau Conference On Tokyo 2015_ソーシャルメディアデータ活用の5つの戦略_Five Strategies Social ...
Tableau Conference On Tokyo 2015_ソーシャルメディアデータ活用の5つの戦略_Five Strategies Social ...Nanae Matsushima
 
20230610ビジネス実務学会_基調講演.pdf
20230610ビジネス実務学会_基調講演.pdf20230610ビジネス実務学会_基調講演.pdf
20230610ビジネス実務学会_基調講演.pdf東京工業大学
 
Uec.R#3 YjdnJlpを使ってみた
Uec.R#3 YjdnJlpを使ってみたUec.R#3 YjdnJlpを使ってみた
Uec.R#3 YjdnJlpを使ってみたAtsushi Hayakawa
 
データアカデミー・エッセンス(東京)1
データアカデミー・エッセンス(東京)1データアカデミー・エッセンス(東京)1
データアカデミー・エッセンス(東京)1Hiroyuki Ichikawa
 
FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」
FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」
FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」Takashi Kobayashi
 
ChatGPT Impact - その社会的/ビジネス価値を考える -
ChatGPT Impact - その社会的/ビジネス価値を考える -ChatGPT Impact - その社会的/ビジネス価値を考える -
ChatGPT Impact - その社会的/ビジネス価値を考える -Daiyu Hatakeyama
 
Twitter研究会スライドver.1.2
Twitter研究会スライドver.1.2Twitter研究会スライドver.1.2
Twitter研究会スライドver.1.2vallo02
 
Twitter研究会スライドver.1.2
Twitter研究会スライドver.1.2Twitter研究会スライドver.1.2
Twitter研究会スライドver.1.2vallo02
 
データ分析を武器にしたエンジニアの道の拓き方
データ分析を武器にしたエンジニアの道の拓き方データ分析を武器にしたエンジニアの道の拓き方
データ分析を武器にしたエンジニアの道の拓き方mayu tech
 
リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方Recruit Lifestyle Co., Ltd.
 
インターンシップ成果報告(修正前)
インターンシップ成果報告(修正前)インターンシップ成果報告(修正前)
インターンシップ成果報告(修正前)T2C_
 
TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?KSK Analytics Inc.
 
Twitter研究会資料 安藤
Twitter研究会資料 安藤Twitter研究会資料 安藤
Twitter研究会資料 安藤vallo02
 
kintone Cafe 新潟 Vol.3
kintone Cafe 新潟 Vol.3kintone Cafe 新潟 Vol.3
kintone Cafe 新潟 Vol.3Masataka Isa
 
Excelを使って学ぶ、統計の基礎
Excelを使って学ぶ、統計の基礎Excelを使って学ぶ、統計の基礎
Excelを使って学ぶ、統計の基礎webcampusschoo
 
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702小川 雄太郎
 

Similar to RでTwitterテキストマイニング (20)

オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018
 
Tableau Conference On Tokyo 2015_ソーシャルメディアデータ活用の5つの戦略_Five Strategies Social ...
Tableau Conference On Tokyo 2015_ソーシャルメディアデータ活用の5つの戦略_Five Strategies Social ...Tableau Conference On Tokyo 2015_ソーシャルメディアデータ活用の5つの戦略_Five Strategies Social ...
Tableau Conference On Tokyo 2015_ソーシャルメディアデータ活用の5つの戦略_Five Strategies Social ...
 
20230610ビジネス実務学会_基調講演.pdf
20230610ビジネス実務学会_基調講演.pdf20230610ビジネス実務学会_基調講演.pdf
20230610ビジネス実務学会_基調講演.pdf
 
20050809
2005080920050809
20050809
 
Uec.R#3 YjdnJlpを使ってみた
Uec.R#3 YjdnJlpを使ってみたUec.R#3 YjdnJlpを使ってみた
Uec.R#3 YjdnJlpを使ってみた
 
データアカデミー・エッセンス(東京)1
データアカデミー・エッセンス(東京)1データアカデミー・エッセンス(東京)1
データアカデミー・エッセンス(東京)1
 
FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」
FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」
FOSE2010 ミニチュートリアル 「データマイニング技術を応用したソフトウェア構築・保守支援」
 
ChatGPT Impact - その社会的/ビジネス価値を考える -
ChatGPT Impact - その社会的/ビジネス価値を考える -ChatGPT Impact - その社会的/ビジネス価値を考える -
ChatGPT Impact - その社会的/ビジネス価値を考える -
 
最終報告会
最終報告会最終報告会
最終報告会
 
Twitter研究会スライドver.1.2
Twitter研究会スライドver.1.2Twitter研究会スライドver.1.2
Twitter研究会スライドver.1.2
 
Twitter研究会スライドver.1.2
Twitter研究会スライドver.1.2Twitter研究会スライドver.1.2
Twitter研究会スライドver.1.2
 
データ分析を武器にしたエンジニアの道の拓き方
データ分析を武器にしたエンジニアの道の拓き方データ分析を武器にしたエンジニアの道の拓き方
データ分析を武器にしたエンジニアの道の拓き方
 
リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方
 
インターンシップ成果報告(修正前)
インターンシップ成果報告(修正前)インターンシップ成果報告(修正前)
インターンシップ成果報告(修正前)
 
TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?
 
Twitter研究会資料 安藤
Twitter研究会資料 安藤Twitter研究会資料 安藤
Twitter研究会資料 安藤
 
kintone Cafe 新潟 Vol.3
kintone Cafe 新潟 Vol.3kintone Cafe 新潟 Vol.3
kintone Cafe 新潟 Vol.3
 
Excelを使って学ぶ、統計の基礎
Excelを使って学ぶ、統計の基礎Excelを使って学ぶ、統計の基礎
Excelを使って学ぶ、統計の基礎
 
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702
 
NLPソリューション開発の最前線
NLPソリューション開発の最前線NLPソリューション開発の最前線
NLPソリューション開発の最前線
 

RでTwitterテキストマイニング